AI是婴儿、数据是奶粉,奶粉质量差怎么办?看这份治理报告

婴童网

南都讯 记者冯群星 语音助手“偷听”用户、招聘算法歧视女性……人工智能带来便利的同时,也屡屡因数据不

南都讯 记者冯群星 语音助手“偷听”用户、招聘算法歧视女性……人工智能带来便利的同时,也屡屡因数据不当收集和使用问题曝出丑闻。如何兼顾数据安全与技术发展?8月30日,赛博研究院和上海观安信息技术股份有限公司在2019世界人工智能大会上发布《人工智能数据安全风险与治理》报告(以下简称“报告”),提出应对建议。

AI是婴儿、数据是奶粉,奶粉质量差怎么办?看这份治理报告

数据是人工智能开发和应用的基础,人工智能算法模型的训练需要海量经过良好标注的数据作为支撑。“如果说人工智能是婴儿,数据就是奶粉。婴儿健不健康,最关键的不是奶粉的多少,而是奶粉的质量。“大会期间,有嘉宾做出形象的比喻。

然而,随着越来越多的数据在人们的社会生活中被收集和使用,数据安全问题,对人工智能发展构成了挑战。报告称,人工智能面临的数据安全挑战包括三个方面,分别为数据隐私问题、数据质量问题和数据保护问题。

数据隐私问题,指的是人工智能开发、测试、运行过程中存在的隐私侵犯问题。当前,违规获取用户数据、过度采集用户敏感信息的情况普遍存在。以人脸识别为例,2019年3月,IBM被曝出在未经用户同意的情况下,使用了图片分享网站 Flickr 上的近百万张照片。

数据质量问题,主要指人工智能的训练数据集及其采集的现场数据存在的质量问题。报告指出,这是人工智能特有的一类问题。训练数据集的规模不足、多样性和均衡性不足、标注质量低、数据遭到攻击,都会影响人工智能系统的性能,降低系统的可靠性和安全性。

例如,在 2016年的一场AI选美比赛中,系统选出了44位获胜者,但黄色人中和黑色人种分别只有6名和1名。该系统负责人表示,这是因为系统的训练数据集中缺乏足够的种族多样性。

第三个数据安全挑战则是数据保护问题,涉及数据采集、传输、存储、使用、流转等整个生命周期,以及人工智能开发和应用的各个环节。比如在智能音箱的场景中,用户的语音请求需要转换成数字信号回传到云端,在传输过程中可能有数据泄露风险。

庆幸的是,许多企业已经开始从技术着手,推动解决以上问题。例如,谷歌研发了一种名为联邦学习的技术,它既可以保证算法持续更新,又可以确保所有训练数据都留在用户的设备本地而不被上传到云端,从而保护用户的隐私。

报告指出,人工智能的数据安全治理是系统性工程,需要从法规、标准、技术等各个层面寻求应对策略。政策制定者需要加快更新和完善现有法规,并形成相关的安全要求、指南、技术规范及标准。

报告还建议,进一步促进政府数据开放,鼓励公共部门、私营部门和行业之间的数据共享,从而整体提升人工智能产业中的隐私保护水平。建设面向人工智能的公共数据资源库、标准测试数据集、对抗数据集,供人工智能开发人员使用,从而解决训练与测试属于的来源合法性问题、质量问题。

文章版权声明:除非注明,否则均为婴童网原创文章,转载或复制请以超链接形式并注明出处。

目录[+]