当下正是一个由数据驱动的伟大变革时代。从ADAS到AD,每一次技术的跃迁都离不开海量道路数据的采集、标注与分析。以图像数据为例,它们是训练和优化感知算法、提升系统安全性的宝贵资源。
然而,当计划将这些数据送往异国研发团队时,数据合规这个难题便摆在了面前。
一、全球化研发的数据合规挑战
对于任何一个有全球拓展计划的车企或技术供应商而言,跨国研发与测试通常是不可避免的,例如验证算法在不同交通环境、气候条件下的鲁棒性。然而,当使用到这些真实世界图像的数据时,不可避免地会捕捉到大量的个人身份信息(PII),例如行人的面部特征、清晰可辨的车牌号码等。
这正是挑战的核心所在。当数据跨境传输成为研发的刚需时,企业便会踏入全球隐私法规的“风险区域”。针对这些挑战,康谋有一些洞察和总结,本文将与大家一起交流!
二、全球数据法规的差异与现实
自欧盟《通用数据保护条例》(GDPR)设立全球数据保护的里程碑后,隐私立法变革随之在世界范围内展开,中国的《个人信息保护法》(PIPL)就是其中的重要组成部分。这些法规虽都以保护个人信息为目标,却在定义、原则和跨境规则上存在差异,给全球化车企带来了严峻挑战。以GDPR与PIPL为例:
对于个人数据的定义,GDPR第四条的定义极为宽泛,指“与已识别或可识别的自然人相关的任何信息”,图像数据中的人脸、车牌号等显然均在此列;
PIPL第四条中的定义相对覆盖广泛,指“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,但明确将“匿名化处理后的信息”排除在外,为数据合规利用指明了方向;
在处理原则上,GDPR在第五条中,确立了六大核心原则,首要的是处理个人数据应遵循 “合法、公平和透明”原则;PIPL则在第五条中明确要求,处理个人信息应当遵循“合法、正当、必要和诚信”原则,并在第六条进一步强调应“采取对个人权益影响最小的方式”;
最大的挑战在于数据跨境机制。GDPR第五章设立了以“充分性认定”和标准合同条款(SCCs)为核心的复杂路径;而PIPL第三十八条则规定了通过安全评估、认证或标准合同的“三选一”模式,且根据第四十条,大规模数据处理者的出境行为必须通过国家安全评估。
三、如何技术破局
通过技术手段将数据中的个人身份信息彻底移除且无法恢复,这些数据便能在全球范围内自由、合法地流通,用于AI训练和算法分析。然而,又一核心问题出现:如何在保护隐私与保留数据价值之间取得完美平衡?
为此,康谋提出了一套基于人工智能的、由浅入深的行业领先匿名化方案。
1、精准模糊
通过自动且精准地识别图像和视频中的人脸与车牌,高度贴合人脸的自然轮廓,仅对车牌字符区域进行处理,最大限度地保留了背景环境的完整性,为分析和机器学习提供了高质量的基础数据;
2、全身模糊 (Full body Blur)
一种扩展的全身匿名化技术,完整识别行人轮廓,进一步防止通过姿态、服装、纹身等间接识别到具体个人,提供更全面的隐私保护,适合高敏感度场景如公共场所监控、校园测试等;
3、深度自然匿名化技术 (DNAT)
突破性的图像匿名化技术,不再是传统的“遮盖”,而是“重生”。DNAT通过先进的生成式AI技术,为检测到的人脸和车牌创建一个全新的、合成的、但外观完全自然的覆盖层。
(1)不可逆,真匿名: 生成的覆盖层是随机且唯一的,确保原始身份信息无法通过任何手段被逆向工程破解,完全符合全球主流法规的匿名化标准;
(2)保留核心属性: 在替换面部的同时,DNAT能够保留原始人物的性别、种族、视线方向、面部表情甚至佩戴物(如眼镜)等关键属性;
(3)完全支持AI训练: 经DNAT处理的数据,在用于目标检测、语义分割等AI模型训练时,其性能表现与使用原始数据几乎没有差异。
四、总结
全球数据法规的协同化与严格化已是不可逆转的趋势。对于在自动驾驶领域竞争的企业来说,将数据合规从“成本中心”转变为“战略优势”,是在未来获胜的关键。
Brighter AI通过灵活的部署方式(云端、本地、边缘计算)和具有开创性的生成式匿名化技术,可为全球汽车企业和技术供应商提供了一条清晰的解决路径。