当前位置: 首页 > news >正文

关于数据跨境,你应该了解的合规难题有哪些?

当下正是一个由数据驱动的伟大变革时代。从ADAS到AD,每一次技术的跃迁都离不开海量道路数据的采集、标注与分析。以图像数据为例,它们是训练和优化感知算法、提升系统安全性的宝贵资源。

然而,当计划将这些数据送往异国研发团队时,数据合规这个难题便摆在了面前。

一、全球化研发的数据合规挑战

对于任何一个有全球拓展计划的车企或技术供应商而言,跨国研发与测试通常是不可避免的,例如验证算法在不同交通环境、气候条件下的鲁棒性。然而,当使用到这些真实世界图像的数据时,不可避免地会捕捉到大量的个人身份信息(PII),例如行人的面部特征、清晰可辨的车牌号码等。

这正是挑战的核心所在。当数据跨境传输成为研发的刚需时,企业便会踏入全球隐私法规的“风险区域。针对这些挑战,康谋有一些洞察和总结,本文将与大家一起交流!

 

图1-1.png

 

二、全球数据法规的差异与现实

欧盟《通用数据保护条例》GDPR)设立全球数据保护的里程碑后,隐私立法变革随之在世界范围内展开,中国的《个人信息保护法》(PIPL)就是其中的重要组成部分。这些法规虽都以保护个人信息为目标,却在定义、原则跨境规则上存在差异,给全球化车企带来了严峻挑战。以GDPRPIPL为例:

对于个人数据的定义,GDPR第四条的定义极为宽泛,指“与已识别或可识别的自然人相关的任何信息”,图像数据中的人脸、车牌号等显然均在此列;

PIPL第四条中的定义相对覆盖广泛,指“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,但明确将“匿名化处理后的信息”排除在外,为数据合规利用指明了方向;

处理原则上,GDPR在第五条中,确立了六大核心原则,首要的是处理个人数据应遵循 “合法、公平和透明”原则;PIPL则在第五条中明确要求,处理个人信息应当遵循“合法、正当、必要和诚信”原则,并在第六条进一步强调应“采取对个人权益影响最小的方式”;

最大的挑战在于数据跨境机制。GDPR第五章设立了以“充分性认定”和标准合同条款(SCCs)为核心的复杂路径;而PIPL第三十八条则规定了通过安全评估认证标准合同的“三选一”模式,且根据第四十条,大规模数据处理者的出境行为必须通过国家安全评估。

 

图2.png

三、如何技术破局

通过技术手段将数据中的个人身份信息彻底移除无法恢复,这些数据便能在全球范围内自由、合法地流通,用于AI训练算法分析。然而,又一核心问题出现:如何在保护隐私与保留数据价值之间取得完美平衡

为此,康谋提出了一套基于人工智能的、由浅入深的行业领先匿名化方案

 

图3-不透明底.jpg

1、精准模糊

通过自动且精准地识别图像和视频中的人脸与车牌,高度贴合人脸的自然轮廓,仅对车牌字符区域进行处理,最大限度地保留了背景环境的完整性,为分析和机器学习提供了高质量的基础数据;

2、全身模糊 (Full body Blur)

一种扩展的全身匿名化技术,完整识别行人轮廓,进一步防止通过姿态、服装、纹身等间接识别到具体个人,提供更全面的隐私保护,适合高敏感度场景如公共场所监控、校园测试等;

3、深度自然匿名化技术 (DNAT)

突破性的图像匿名化技术,不再是传统的“遮盖”,而是“重生”。DNAT通过先进的生成式AI技术,为检测到的人脸和车牌创建一个全新的、合成的、但外观完全自然的覆盖层。

(1)不可逆,真匿名: 生成的覆盖层是随机且唯一的,确保原始身份信息无法通过任何手段被逆向工程破解,完全符合全球主流法规的匿名化标准;

(2)保留核心属性: 在替换面部的同时,DNAT能够保留原始人物的性别、种族、视线方向、面部表情甚至佩戴物(如眼镜)等关键属性;

(3)完全支持AI训练: 经DNAT处理的数据,在用于目标检测、语义分割等AI模型训练时,其性能表现与使用原始数据几乎没有差异。

图4.png

四、总结

全球数据法规的协同化严格化已是不可逆转的趋势。对于在自动驾驶领域竞争的企业来说,将数据合规从“成本中心”转变为“战略优势”,是在未来获胜的关键。

Brighter AI通过灵活的部署方式(云端、本地、边缘计算)和具有开创性的生成式匿名化技术,可为全球汽车企业和技术供应商提供了一条清晰的解决路径。

http://www.wxhsa.cn/company.asp?id=6465

相关文章:

  • 国内开发者如何选择代码管理平台?三大主流工具深度对比
  • doubletrouble wp复盘
  • VAR算法
  • mysql 万能恢复主从Slave_SQL_Running 是No
  • 刚刚 Java 25 炸裂发布!让 Java 再次伟大
  • go 语言结构和基础语法
  • 详细介绍:Linux--初识网络
  • lua程序调试方法
  • 维保信息查询
  • 人工智能学习路线学习资料整理
  • 软件设计师知识点总结(2023)上
  • 【运维自动化-标准运维】各类全局变量使用说明(中)
  • 提示词工程(Prompt Engineering)是不是“新时代的编程”?
  • python日志记录之logging模块
  • O - Color a Tree
  • 电脑时间改了,软件不能用了
  • OFDM 自适应功率与比特分配
  • 前 k 小问题期末考
  • 1380亿条微博全量数据集,可用于自然语言处理、情感分析、舆情分析、推荐系统、用户行为数据、商业智能、人工智能模型训练、中文文本数据、地理位置信息、时间序列分析、JSON格式、机器学习、文本挖掘等
  • 本土化技术平台的崛起:Gitee如何重塑中国开发者生态
  • 一次内网穿透的实践
  • m1芯片怎么安装windows系统
  • m1оƬװx86windowsϵͳ
  • C++ 强制类型转化
  • Linux shred 命令:安全擦除文件指南
  • c++之std::remove_pointer
  • 研究生化学英文题库数据集:300万条LaTeX格式AI训练资源,覆盖有机化学物理化学无机化学分析化学,用于智能评估系统、个性化学习平台、化学知识图谱构建、自动化工具开发、深度学习模型
  • lvm硬盘分区与不分区优缺点
  • 中电金信能碳虚拟电厂数智化平台破局“双碳”难题
  • 充分验证用户需求和商业价值,是软件创业者首要解决的问题