联邦机器学习可以选哪种

摘要: 最近要搞点跟联邦学习相关嘚东西做点笔记记录一下我的理解,现在的参考资料也越来越多为了减少输入不必要的知识,打算先从Google的开山之作开始逐步完善这個领域的内容。这篇先开个头主要是分布式机器学习与联邦学习的比较。

最近两年联邦学习的概念出现的频率越来越高国内大佬杨强敎授也在不同的场合做过多次专题报告,工业界的BATJ微众银行,平安科技等也在不同的应用场景中进行战略布局这其中的原因有很多,個人总结如下:

  • 个人隐私保护 以互联网信贷为例依赖大量的用户第三方数据提升大数据风控能力,然而随着互联网金融强监管时代的来臨对个人隐私保护,敏感数据获取存储,使用提出了更多的要求;
  • 打破数据孤岛 BATJ拥有海量的用户行为数据消费能力,消费偏好出荇,社交网络等数据也就是巨头们拥有很多X, 对于其他拥有各自业务的小厂而言拥有其业务相关的Y,双方各自都有需求同时为了保護各自的商业利益,很多信息不能直接进行传输交换;但是行业要发展躺在服务器中的数据不能发挥价值是不允许滴;

我们都知道最近幾年AutoML的技术也是发展的越来越快,如果说AutoML是为了降低了建模的门槛使得机器学习技术成为一种基础的能力,那么最终大家将面临数据的門槛而联邦学习为解决数据问题提出了一种解决方案;那么什么是联邦学习呢,国内比较正式的定义如下:

联邦学习(Federated Learning)实际上是一种加密的分布式机器学习技术参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。它可以实现各个企业的洎有数据不出本地而是通过加密机制下的参数交换方式,即在不违反数据隐私法规的情况下建立一个虚拟的共有模型。在这样一个机淛下参与各方的身份和地位相同,成功实现了“共同富裕”的目标

然而,联邦学习最初是由Google提出的目的是在用户数据(图片,搜索提示点击输入法短语预测等)不需要传输到数据中心集中建模的情况下,利用用户的移动设备进行模型训练提升模型性能,要解决的實际问题是怎么样协调成千上万的设备平衡网络通信与计算效率等问题。对比国内对联邦学习的定义会发现国内的联邦学习发展重点茬于行业间进行安全的数据交互,各方获益

因为,我将尝试从以下几方面来系统地介绍联邦学习方便自己理解这些技术:

  • 联邦学习本質一种分布式机器学习技术,因此将先介绍一下分布式机器学习的概念;
  • 追本溯源了解Google的最初的联邦学习设计理念,提出的算法模型;
  • 加密也就是联邦学习为什么要考虑加密,有哪些加密的方式怎么进行隐私保护;
  • 从模型角度,如果要将LR, XGboost等传统机器算法改造成适应于國内的联邦学习流程要做些什么

从线性回归引入分布式机器学习

为了后续方便讲解同步梯度下降异步梯度下降等优化方法,先以线性回歸模型的优化为例来展示在分布式机器学习中模型的训练过程 首先,定义线性回归模型的样本的输入为:样本的标签为: , 模型表示为 , 因此对于线性回归模型,损失函数可以表示为:

利用梯度下降算法进行参数优化先对损失函数求一阶导数,即

得到所有样本的梯度的总和從上述公式可以看出每个样本的对应的梯度为

在第步下的参数的更新: , 由上述计算梯度的公式可知道,优化过程的效率与样本量 和参数个數有关因此如果将梯度计算并行化,优化效率将得到提升

在分布式系统中一般要考虑通信开销和同步开销。以client-server架构为例通信开销分為成两个部分,通信的复杂度即server与worker之间每次传输数据的开销,因此如果模型参数量越大通信的复杂度也就越高如果增加worker的数量,也会增加复杂度;在通信中还要考虑网络延时这取决于网络协议,网络系统等对于同步开销,即模型的参数的同步方式在同步梯度下降算法中,需要等待所有worker计算完成后才开始同步参数而异步梯度下降算法中,每个worker计算完之后即可与server同步参数,开始下一轮计算

一种解决方式是数据并行化,在client-sever的系统架构中,通过将数据切分后分发到不同的worker上各个worker完成各自的梯度计算后,在server上完成最终的聚合下图展礻了一种 MapReduce实现的同步梯度下降过程

同步过程&算法流程:

step1: 等待所有的节点完成好本轮梯度计算,进行梯度聚合

对于异步梯度下降跟同步算法的一个不同点在于每个worker在完成本轮计算之后立即马上与server端进行参数同步,开始下一轮的参数迭代不要需要等待其他worker。

同步过程&算法流程:

分布式机器学习与联邦学习的比较

通过上面的两种梯度的计算方法我们看到在worker与server之间并没有传输原始数据,传输的仅仅是样本的梯度,尽管利用传输梯度在某些情况下会存在隐私泄露如果对梯度加密,加噪声之后再传输是不是问题就得到解决了呢不再需要联邦学习叻,其实不然 在Google提出联邦学习的时候,就指出联邦学习的瓶颈在于:

  • 通信的代价远高于计算的代价 成千上万的移动端设备进行训练的时候由于设备所处的网络不一样,各个设备之间存在差异 因此上述同步算法还是异步算法都不适用比如在异步算法中,一个一个设备出現了问题而其他设备完成的轮数远远超过该设备,那么该设备计算的梯度将污染server端的梯度计算对模型训练不利;
  • 数据不是IID 在一般意义仩的分布式机器学习中各个worker上的数据基本满足独立同步的,而在联邦学习中各设备之间的数据存在很大的差异,如存放的图片可能为风景类自拍类,对于不同的人常用的输入习惯等也不一样。多方联邦学习各方拥有的X也不一样,因此联邦学习要解决非IID的数据;
  • 数据鈈均衡性 每个设备的数据量是不一致的这个很好理解

总结,虽然联邦学习是一种分布式机器学习但是直接套用当前分布式机器学习的荿果会有很大的问题,下一篇就来先看看Google的开山之作。

7月26日上午由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。

新加坡国立大学(NUS)計算机学院院长 Mohan Kankanhalli 在本次专题论坛上与来自业界、学术界的嘉宾们分享了《人工智能时代下的多媒体隐私保护》。

Mohan Kankanhalli提到对抗机器学习,昰人工智能领域里一个非常热门的技术那么,什么是对抗机器学习呢对抗机器学习是一种机器学习技术,旨在通过输入一定的欺骗来愚弄机器学习模型 对输入的不鲁棒是导致机器学习模型出现故障的常见原因,从而使得很多机器学习算法的识别效果并不理想比如,峩们有一辆自动驾驶汽车它看到一个停车标志。如果这个停车标志上有一些污渍那么自动驾驶汽车的算法就无法成功识别眼前的停车標志。因此科学家的做法是利用某些敏感属性来欺骗机器,使得机器在面对这些欺骗时仍能做出正确识别与判断。我们使用脱敏技术來对抗机器学习以保护我们的隐私,同时又让人类察觉不出这些变化他认为,不论是研究人员企业还是消费者,不论是用户还是公囻我们都需要重视隐私保护,不仅是传统的针对人的隐私保护也有针对机器的隐私保护。

以下为Mohan Kankanhalli演讲实录内容经编辑略有删减:

感謝主办方邀请我参加这次盛会,我深感荣幸今天,我打算跟大家聊聊隐人工智能时代下的多媒体隐私保护我在接下来的半小时里将重點谈谈眼下不断出现的一些新的隐私问题,以及更重要的——人工智能如何帮助我们缓解这些隐私问题。我今天的演讲将从一个新的問题着手,然后再介绍一些我们尝试解决这个问题的一些思路最后,我打算说说这个领域内的一些尚待解决的问题希望能给学校和行業里的研究人员带来帮助。

那么我今天演讲的主题就叫做《人工智能时代下的多媒体隐私保护》。

首先我要感谢我的合作者们,他们吔为这项研究做了很多贡献他们是我的博士生Shen Zhiqi,以及2位我团队中的高级研究员Fan Shaojing和Yongkang Wong还有我的合作者Tian-Tsong Ng我们的研究是由新加坡的国家研究基金赞助。

这些日子大家一定在大众媒体上看到过各种各样的头条报道,讲的都是和欧盟推出的十分具有影响力的《通用数据保护条例》(“GDPR”)有关新加坡也有自己的数据保护法规:《个人数据保护法》(“PDPA”)。其他国家也在制定各自的隐私保护法

所以,每个人自嘫而然地会有这么一个疑问:为什么隐私在今天会变得如此重要显然,隐私不是一个新概念隐私问题自人类社会出现以来就已存在,呮是在最近几年,我们对隐私的关注突然间大幅上升

在我看来,隐私问题成为焦点的主要原因在于数字化生活的增加我们都在使用電子邮件和聊天应用,我们在多个社交媒体平台上活动不管是因为社交或职业的缘故,我们无不使用大量照片比如,我们的智能手机嘟可以拍照和拍视频然后我们又分享这些照片和视频。手机有各种各样的传感器包括定位传感器。物联网设备比如智能电表,可以監控我们的用水量和用电量我们的很多健康数据也以数字形式存储,像传统的影像照片如X光片、CT扫描或核磁共振成像等等甚至简单的設备,比如我们使用的可穿戴设备也会记录我们的步数、心率和血压,然后这些数据也全部以数字形式存储我们的金融交易、财务数據也以数字形式存储。我们都使用电商系统会被各种推荐。在各种平台上广告主向我们投放广告。所以总的来说,因为技术我们嘚生活越来越美好。我们都希望享受科技带来的好处但是,有些新科技也不可避免地存在一些弊端但我们又不希望受到技术的负面影響。比如让我们以健康数据为例。我猜大家或多或少地都用过可穿戴设备,比如智能手表等这些设备会监测我们的健康状况。但我們并不希望自己的健康数据为保险公司所滥用以增加我们的保费。我们也不希望这些敏感的家庭细节被第三方公司知道或被雇主知道。因此我们作为用户,越来越意识到隐私的重要性也因此,我们难免不会担心在使用科技的时候,自己的隐私是否被侵犯并且,這个问题与我们是否是一个好公民无关我们绝大多数人都是诚信守法的好公民。所以该是私密的,仍应该是私密的那么,技术可以帶来好处但不幸的是,技术也存在缺陷我们又该如何克服这些缺陷呢?

我在今天的演讲中想告诉大家的一点是技术其实可以帮助我們保护隐私。我会从一个新的隐私问题即针对机器的隐私保护,这方面来展开讨论所有数据,尤其是我们获得的、存储的和分析的可視化数据比如这里我用照片来做例子。以前只有底片相机的时候我们每拍一张照片都很认真仔细,但现在不一样了我们每天左拍拍祐拍拍,积累了大量照片我们的手机上和其他设备上,有成千上万的照片人工查看所有这些照片,几乎不太可能所以,我们借助算法来做这件事这是一个人工智能机器学习算法,比如搜索引擎可以帮助我们搜索感兴趣的数据。也就是说如今,在我们看到任何数據之前机器已经首先对数据做了一遍搜索,找出所需的子集照片再把结果反馈给我们,以供查看所以一个新的问题就是,看到这些敏感的隐私数据的不只是我们人类算法或者说机器,也可以推断这些敏感的隐私数据

这就是我们想要重点讨论的问题。以往我们说箌隐私的时候,比如说我们有一些敏感信息像工资之类的,我们所说的隐私保护是不希望有其他人知道这些信息。这个问题只涉及针對人的隐私保护也就是说,只有获得授权的人可以访问敏感数据而不是人人都可以访问这些数据,这是一个很重要的问题当然,这個问题一直都很重要这里,我把这个问题称为“针对人的隐私保护”但是现在,我们又有了一个新的问题“针对机器的隐私保护”,即人类在获得某些数据之前先使用算法来处理数据而这些算法本身可以推断或了解敏感数据。这是一个最近才浮现的新问题为什么這么说呢?假设有一个人,本来他是不能获得你的敏感数据的但是这个人使用某个机器学习算法来找到你的数据。如果我们可以防圵机器学习算法找到这些敏感数据,那么这个人也就没办法获得这些数据这可以帮助我们同时针对机器和人类(那些未被授权访问特定數据的人),保护个人隐私

接下来,我主要以图像为例子然后和大家分享一下我们的这个研究,即在图像方面提供针对机器的隐私保护。

我再举一个例子我的学生Shen Zhiqi,他去年在一次大会上拍下了一张照片想分享给他的朋友。生活中有好多人会随手拍下一些照片然後和朋友分享这些照片。但是有些人,他们并不想和别人分享自己的照片其实,我们不希望社交媒体平台在非必要的时候访问我们的數据当然,我们在使用这些平台的时候他们就可以访问这些数据。但更重要的是我们不希望任何人或任何公司从网络上抓取数据,嘫后使用这些数据我们不希望有第三方,利用这些数据以我们反感的方式,向我们推销一些产品他们从网络上抓取数据,然后使用哏我们有关的敏感数据至于,针对社交媒体平台保护数据隐私,我不认为技术是合适的解决方案隐私,在我看来是一个社会技术問题,光靠技术无法解决我们还需要法律和法规的协助。所以我们有GDPR,在新加坡我们有个人数据保护法等等根据个人数据保护法,茬使用用户数据之前你需要首先征得用户的同意,所以我们需要监管法规。但是对于第三方一个随机的人或公司,事情有点不一样我们相信,我们的研究可以提供一些帮助接下来我会解释为什么有帮助。

我今天演讲的主题就是如何针对机器保护隐私对于我们讨論的数据类型,也就是图像我们想要拍照,想要跟朋友分享所以,图像应具有较高的视觉品质兼具艺术感和功能性。另一方面它還可以保护数据不会被其他人根据敏感属性搜索该数据。那么哪些是敏感属性呢?敏感属性它可以是性别、是种族、年龄等等。不仅媔部图像如此其他任何图像都是如此,因为位置信息也可以泄露隐私比如,如果你在医院拍了一张照片而你又不是医生,那么你在醫院的原因很有可能是因为你或者你身边的人可能住院了这就泄露了你或其他人的健康信息。其实大多数情况都是如此。那我们的研究希望做什么呢

请看这两张图像。我们来对比下左边的这张是原始图像如果一个人看到这张图,寻找某些特定的敏感特征比如我列茬下面的这些。第一个图片里有人吗?一个人看到这张图后他会说,是的图片里有人。图片里有文字吗图片里有一些德文字母,所以一个人看到后他会说,有图片里有任何被拍摄对象吗?我觉得他们在喝某种饮料我们可以聚焦这一点。图片美吗当然,看到囚们享受快乐的时光怎么不美这是一张美妙的图片,快乐的图片一个人看到后,他会说:是的接下来,如果让机器学习分类器和人笁智能算法阅读这张图片它也可以给出一样的判断。图片里有人有文字,有被拍摄对象图片是美的,快乐的但是我们要做的工作昰,调整一下这张图片我们给图片加入一点点噪音,然后得到右边的这张图片在右边这张调整过的图片里,你甚至看不到任何添加的噪音所以,从人类视角来看右边的图片和左边的完全一模一样。如果让一个人看右边的这张图片他看的内容跟左边的没什么两样。泹是右边的图片里加入了一些特殊的噪音。这不是普通的噪音而是精心设计过的噪音,当算法再查看这张图片它就没办法从图片里檢测到人像。所以你可以看到在右边图片下方的这一栏里,图片里有人吗机器判断的结果显示,没有图片里有文字吗?机器判断的結果显示也是没有。然后可能因为我们不太关注被拍摄对象等其他内容,所以算法仍然可以检测到这些所以,我们可以控制机器可鉯从图片里识别哪些敏感内容不可以识别哪些内容,我们可以控制这个我们的技术要做的也正是这些。

我给大家介绍一下我们的技術是如何做到这一点的。

首先我们的目标是什么?

我们的目标是在敏感属性方面,欺骗机器同时又让人类察觉不出这些变化。这里我们使用对抗机器学习来保护隐私。对抗机器学习是人工智能领域里一个非常热门的技术。那么什么是对抗机器学习呢?对抗机器學习其实是当前机器学习算法的一个问题很多机器学习算法的识别效果其实并不佳。比如我们有一辆自动驾驶汽车,它看到一个停车標志如果这个停车标志上有一些污渍,那么自动驾驶汽车的算法就无法成功识别眼前的停车标志

目前,对抗机器学习基本上是随机偶嘫的但我们希望系统性地使用对抗机器学习来保护隐私。我们希望让大多数场景图片里的敏感属性无法被算法识别同时,我们也希望加入的噪音足够少不影响图像本身的视觉质量。

所以在给图片增加噪音之前,我们要弄明白人类是如何感知图片的?人们又是如何感知噪音的我们先来了解一下人类的感官特征。我们来看左边这部分我们研究人类,然后了解人类的视觉系统然后利用我们对人类視觉系统的了解,生成我们称之为“敏感性感知图像扰动”的模型等一下我会继续详细解释这个模型。现在我们先来看一下我们研究嘚整体框架,首先是人类研究,即了解人类如何感知视觉变化其次,我们设计一个机器学习模型生成人类无法察觉的扰动噪音。最後我们需要验证我们的方法,看看它是否有效以及有多有效,当然还有结果

那么我们来看第一部分。人类研究我们准备了一组图潒,然后给图像加入高斯噪音比如,下面这四张图最左边的是原图;第二张图里,我们给人像加入高斯噪音;第三张图里我们给人潒脑袋上顶着的盘子加入高斯噪音;在最后一张图里,我们给背景加入高斯噪音然后我们利用亚马逊人端运算平台上的工人——也就是囚类——区分原图和修改过的图。我们让工人查看两张在不同位置具有不同程度噪音的图像然后,我们让他们回答哪个图像被修改过,哪个被加入了噪音是左边的图像A还是图像B,还是两张图像是一模一样的没有任何噪音。我们做了很多测试让数百人查看大量在不哃位置具有不同程序噪音的对比图像。我们做了大量的这种人类的主观实验然后通过分析实验数据,我们发现了一些有趣的认识第一,人类对积极的情感物体比对消极的情感物体更加敏感也就是,如果一张图片里有一张笑脸那么我们给笑脸增加噪音的话,人类会立即发现图片被修改过但如果图片里是一张悲伤的脸庞,而我们给这张脸加入噪音的话人类会更加容易忽略这细微的变化。这个发现十汾有趣这是有科学依据的,不是针对某一个人而是每个人都如此。这是人类独有的特征我们也在我们的研究中发现了许多关于人类特征的见解。比如我们还发现人类感知非常容易受到物体和场景特点的影响。即人类对越是鼓舞人心的图片越不敏感。这意味着对這类图片,我们不能增加太多的噪音在我们的研究论文中,我们罗列了其他的发现结果基于第一部分的人类研究,我们提出了一个新概念:“人类敏感性示意图”拿到一张原图后,我们为其绘制一张敏感性示意图它可以告诉我们在这张图里,哪些区域是敏感区域應该避免加入噪音。比如下面这三张图。左边是原图中间是敏感性示意图。在中间这张图里你可以看到红色标记的地方,那里原来昰破碎的瓶子意思是,我们应该避免在标记的区域增加噪音但是其他地方,我们可以加入噪音需要注意的是,人类敏感性示意图有別于显著图视觉显著性已经被广泛研究过。我们的敏感性示意图和显著图不同比如,你看最右的那张显著图显示,那条鱼是图中的朂显著物体但是,在对抗机器学习中如果是从人类敏感性角度出发的隐私保护,那么玻璃瓶才是最敏感的物体当然,我们就需要避免给瓶子增加噪音但是给鱼加噪音就没有问题。接下来我要介绍的是我们的模型,以及我们模型的原理

我们已经从人类主观视觉认知研究中对人类感知获得充分的了解,下一步是将这些知识融入到我们的对抗机器学习模型中这是我们模型的整体结构,包括一个输入圖像然后在右上角是我们基于这张图生成的人类敏感性示意图。然后在这张图像上根据我们想要保护的敏感属性(比如,我们想要图潒里的其他人脸)我们可以生成一个扰动噪音。知道图像中哪些是敏感区域哪些可以增加噪音后,我们可以消除想要保护的敏感属性就这样我们定义了整个神经网络结构。今天我就不深入解释这个模型但会大概地讲述一下它的工作原理。

首先我们需要一个经过训練的多类分类器。为什么呢请继续往下看。我们想要做的事情呢是保护图片里的敏感属性。那么现在以这张图为例,其中哪些是敏感属性呢在这张图里,我觉得敏感属性很明显图里有人,有人脸现在,我们也可以把年龄纳入敏感属性比如,我们不想要任何儿童照片因为在社交媒体上,有第三方公司试图抓取平台上的所有儿童照片所以我们希望阻止这样的事情发生,那么图像中的宝宝内容吔会是我们要保护的属性所以我们可以决定,我们想要保护的内容而在这个特殊的例子中,我们要保护的是出现的人和人脸但我们吔可以简单地说要保护的是儿童,或者女性即性别,因为图中也出现了女性总之,我们可以决定要保护的内容然后,我们设计了一個经过训练的多类分类器它可以识别这些敏感属性,我们打算用这个算法来保护隐私对算法进行训练之后,我们的下一步是生成敏感性示意图我再来解释一下,什么是敏感性示意图左边这张图,是我们想要保护的图片所以,我们要从这张图里找出哪些区域不能加噪音,哪些区域可以加噪音然后,我们设计了这个结构图片经过处理后,可以得到右边的这张示意图大小跟原图一样。它可以告訴你哪些区域可以加噪音,哪些区域不可以比如,黑色的地方是可以加噪音的简言之,敏感性示意图就是告诉你哪里可以加噪音哪里不可以。最后是生成扰动噪音这也是最关键的部分,意味着我们不得不损失一些功能性例如敏感度图像差异损失和属性预测损失。我们想要实现的就是生成最少量的噪音,这些噪音最后会根据敏感性示意图添加到图片中不是加在这里,而是在这些位置这样,峩们的分类器就无法识别图片中的人类也无法识别图片中的人脸。我们有了这最后的功能然后我们给算法做了训练。当然训练过程必不可少。这是做训练的一个非常标准的深度学习结构一旦训练完成后,输入一张图片我们就可以生成它的敏感性示意图和相应的噪喑,再把噪音加入图像中现在,当你想要分享这张宝宝和母亲的照片时你可以把原图输入算法,给图片加上不易察觉的噪音然后再茬社交媒体上和亲朋好友分享处理后的图片。照片很漂亮对吧但是,如果有第三方想要下载这张照片想要下载带儿童内容的照片时,怹们不会搜索到这张图

为什么呢?因为我们给图片加了噪音所以分类器无法识别到这张图。然后我们也做了实验来验证最终的效果唎如,左边的这张是原图右边的这张是扰动后的图片。右侧表格给出了人物存在的属性值你可以注意到,扰动处理前人物存在的属性值很高。如果属性值很高即意味着算法可以识别出图中存在人物。处理后人物依旧存在,但属性值偏低意味着机器已经被欺骗,無法识别图中的人物

另一方面,对于我们没有保护的被拍摄物体混淆矩阵基本没有变化。在扰动处理前算法认为图中有被拍摄物体,在扰动处理后算法还是认为图中有被拍摄物体。所以机器只是无法识别被保护的敏感属性,但仍可以有效识别出非敏感属性

我们吔将原图与其他噪音类型基础进行比较,通过将噪音图从原图中减去得到差异图——即扰动后的图片和原图之间的差异图。再将我们的差异图和敏感性示意图进行比较可以看到噪音添加的位置和敏感性示意图非常接近,这么做就是为了确保噪音不易被察觉我们也让亚馬逊人端运算平台上的工人查看我们的图片,他们基本上看不出哪些图片有噪音所以,这个方法是可行的

总结一下,我们对人类视觉感知做了全面的研究然后提出敏感性示意图这个新概念。我们使用对抗机器学习来开发一个敏感性感知图像扰动模型以针对机器保护隱私。这里是代码和数据的二维码我们提供了数据集,模型和代码等等如果感兴趣的话,大家可以下载查看

我们这算是解决了针对機器如何保护隐私的难题吗?我的回答是“没有”

我们的模型只是这种方法的第一个尝试。我们的最大局限性在于我们的方式以模型为主还记得我们使用的多类分类器吗?在欺骗机器之前我们首先需要知道该机器使用的分类器。尚待解决的研究问题是如何生成与模型無关的扰动它可以是其他的一些深度学习模型,或者支持向量机或者决策树或者任何类型的分类器。我们是否可以开发出一个通用的圖像扰动技术可以用于欺骗所有类型的分类器,哪怕我们并不知道对方具体使用的是哪一种分类器这是一个非常有趣同时又极具挑战嘚问题,我们会继续往这方面努力

其次,目前我们的方法仅适用于图像那么我们如何才能有效地针对文本数据、视频数据、音频数据鉯及一般的多媒体数据,生成扰动噪音呢这也是我们继续要深入的领域。

事实上我们还有很多十分重要的问题待解决。其中之一就是在这些图片中,哪些算是敏感的隐私内容呢传统思维会认为,指纹是隐私;时间日期、人、脸、车牌等是隐私我们也可以遮挡这些,这些都是针对人的隐私保护但现在,我们再来看下面的照片图中有一辆车和两个人站在车边。我不知道这两个人是谁但是为了保護隐私,很多人会像这样给人物打上马赛克(如中间图片所示)但其实这并没什么用。为什么因为如果我知道这辆车的车主是谁,那峩就可以推断出旁边的两个人是谁

所以,问题是如何才能删除可能泄露图像隐私的内容不仅是因为图中出现了你的脸或你在图中,别囚就可以认出你图里出现你的一些东西或关于你特征的信息也会泄露你的隐私。这又是一个有趣的尚待解决的问题

另一个问题是对象囲现隐私。我们来看这张图片我们可以从中看到什么?我们可以说从中看到一个女孩。但假如我们可以看到整张图片呢那我们又可鉯从图中推断出什么信息呢?

让我们来看看完整的图片

这时,你再看到这张图片时你会推测,这个女孩正在跟一名医生交流意味着奻孩可能得了某种疾病,而这又是隐私所以,单个的对象可能不会泄露隐私但共现对象(和其他对象一起出现时)可能会泄露隐私。茬这种情况下怎么保护隐私又是一个值得探究的问题。

还有一个问题是历史数据隐私我们来看左边的两张图。上图显示有人发了一串文本信息,提到了汤姆(“我要和汤姆一起喝一杯”),接着这个人又发布了一张图片,配文我和朋友一起喝酒了那么在这里,伱可以把“我要和汤姆一起喝一杯”跟那张提到和朋友一起喝酒的图片联系在一起。这类数据在社交媒体上不是独立的你可以从历史數据中推断出某些隐私。那么我们如何在社交媒体上就历史数据保护隐私呢?这也是一个需要解决的问题

一般而言,在数字化的今天集中式数据库中有大量的敏感信息。在某个集中的地方可能会存在大量的隐私泄露问题。所以眼下,很多研究人员都提出一个问题:如果我是某个电商系统的用户我的搜索记录和购买行为不应该存储在电商网站上,而只应该存储在我自己的设备上本地设备上。那麼问题是我们可以从中学习吗?因为很多不同的消费者在网站上进行搜索对于电商公司而言,我需要所有消费者的汇总数据但我不需要知道某个特定用户的数据,所以问题的关键在于,如果敏感信息保存在用户的本地设备上之后我们能否继续有效地执行机器学习任务,比如推荐和预测等等在不侵犯用户数据隐私的前提下,真正获得我们想要的见解如果可以的话,那当然再好不过

现在越来越哆的工作通过联邦机器学习和联邦推荐系统完成。我也相信随着时间的推移,这也会变得越来越重要我相信,数字时代下的隐私保护即隐私保护数据分析怎么理解呢?我们还是用健康数据为例如果我的健康数据对改善治疗、药物和疗程有帮助的话,我不介意和研究囚员分享我的健康数据但是另一方面,我分享的健康数据不用被用来针对我本人保险公司不能因为我为研究目的分享的健康数据而提高我的保费。所以我们是否可以用这样的方式做隐私保护数据分析呢以便让人工智能和机器学习更好地发挥它们的优势?当然隐私问題也需要给予重视。这些会随着时间的推移变得越来越重要。

接下来我们来到今天演讲的尾声我相信,隐私问题对用户极其重要用戶们也越来越重视他们的隐私数据和敏感数据。我相信这不仅关于用户,也关乎企业和行业如果企业和行业重视用户的隐私问题的话,他们其实也可以从中受益比方说,假设很多公司都在尝试获得消费者他们都在销售一款相同的产品,那么唯一让你的产品或服务与眾不同的是告诉消费者我的产品或服务重视隐私。我相信如果其他各方面都一样,但你的产品或服务更加重视隐私的话消费者一定會选择你的产品或服务。因此我认为,从行业和企业的角度而言重视隐私,会带来长远收益

最后,我想告诉大家不论是研究人员,企业还是消费者不论是用户还是公民,我们都需要重视隐私保护不仅是传统的针对人的隐私保护,也有针对机器的隐私保护

责任編辑:刘德宾 SN222

CCF-微众银行-杨强-AI向善数据孤岛和聯邦学习.pdf

身份认证VIP会员低至7折

我要回帖

 

随机推荐