数据标注平台如何保护用户数据安全?
近期,在《麻省理工科技评论》在一篇万字长文调查中,一位年轻女子坐在自家的马桶上的图片也被扫地机器人拍摄下来,并被流传到网上、大范围传播。
(资料图)
但事实上,这也并非是一件新鲜事了。例如,2020年秋,一系列从低角度拍摄的照片突然出现在了网络论坛上。
其内容全是家庭生活中场景——家具的陈列,电视播放的节目内容,甚至连家庭成员的脸都看得一清二楚。
比如下图,一个八九岁的男孩,正趴在走廊的地板上,并很高兴地注视着面前的这个物体。
根据爆料,这些图片全部由iRobot开发的Roomba J7系列扫地机器人拍摄,之后则会被发给 Scale AI 进行处理。Scale AI 是一家人工智能数据标注公司。
扫地机器人为何会拍下“主人家”的生活照片?这些照片又是如何被泄露出去的?
这里就不得不提到数据标注了。数据标注是IT互联网公司常见的一个职位,与之对应的是数据标注员或人工智能训练师。他们使用自动化的工具从互联网上抓取、收集文本、图片、语音等数据,然后对抓取的数据进行整理与标注,从而让人工智能机器进行学习,达到越来越智能的目的。
数据标注是一份低薪、需要大量人工的工作。但一二线城市人工成本较高、且缺少相应的人力。因此,数据标注公司或平台,会将这份工作外包出去,选择陕西、山西、贵州等偏远地区的人工,在降低人力成本的同时,也为当地解决了部分就业问题。
据了解,数据标注预计到2030年将达到133亿美元的市场价值。目前,国内从事数据标注行业的人群已达上千万,其中90%为数据标注员,这些数据标注员分布在全国各地、大大小小的团队内。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……
数据标注行业既然与“数据”有关,那么安全性一定是很多企业等各方关注的重点。尤其是随着数据安全法、个保法等法律法规的落地实施,从数据的采集、数据的标注,再到数据的保存,数据标注团队在每一个环节都必须保证数据不被泄露、不被窃取。
但是,数据标注团队对工作人员的行为安全管控一直存疑。比如,在此次事件中,用户的隐私照、家庭环境、家庭成员人脸等敏感信息泄露,也与工作人员有关。
2020年,Scale AI发布了一项全新的任务——Project IO。其特点是,视角从地面以大约45度向上,图像内容为世界各地的墙壁、天花板和地板,以及上面的各种东西,当然也包括人。通常来说,这些负责标注的工人会在Facebook、Discord和其他社交平台上建群,然后在其中讨论和工作有关的各种问题,比如分享处理延迟付款的建议,谈论报酬最好的任务,或请其他人帮忙等等。
数据标注员随意截图、分享平台内容,是很难被平台监测到的。因此,这成为数据表平台泄露用户隐私数据的主要原因之一。
那么,数据标注平台要如何在不侵犯工作人员隐私、在保证效率的同时,对平台的用户数据安全实施安全管控呢?
针对上述问题,数影方案做出了以下努力,以帮助数据标注平台/企业从源头上实现数据安全管控:
1. 在数据标注平台上部署数影安全网关,以较低成本实现了外包场地安全访问标注平台的需求;
2. 给外包员工开通数影账号,并把数据标注平台的账号绑定到数影账号上,外包员工打开数影办公空间,登录数影账号,点击标注平台,标注平台账号密码自动代填并登录,数据标注平台的账密不用告诉外包员工,保证平台账密安全;
3. 外包员工只能通过数影办公空间访问数据标注平台,基于数影办公空间防下载、防拷贝、防拍照、防截图等安全能力,确保数据标注平台上的数据不会被泄露。
数影之内是工作,数影之外是生活。通过以上努力,数影在兼顾员工工作效率、个人隐私的同时,实现员工安全、高效、智能工作,帮助数据标注平台以较低成本的外包的方式在大范围推广。