软件聊天隐私安全怎么开发呢?

当前,人工智能正处在爆发期。我国在人工智能领域的科学技术研究和产业发展起步稍晚,但在最近十余年的时间里抓住了机遇,进入了快速发展阶段。在这个过程中, 技术突破和创造性高端人才对人工智能的发展起着至关重要的作用。 本周,清华大学AI研究机构AMiner发布了《2019中国人工智能发展报告》,报告遴选 13 个人工智能的重点领域进行重点介绍,包括:机器学习、知识工程、计算机视觉、自然语言处理、语音识别、计算机图形学、多媒体技术、人机交互、机器人、数据库技术、可视化、数据挖掘、信息检索与推荐等。

本期的智能内参,我们推荐清华大学的研究报告《2019中国人工智能发展报告》,对人工智能 13 个领域的人才情况及技术发展等内容进行了挖掘分析。如果想收藏本文的报告(2019中国人工智能发展报告),可以在智东西头条号私信回复关键词“nc419”获取。

本期内参来源:清华大学AMiner

《2019中国人工智能发展报告》

作者: 李涓子 唐 杰

机器学习已经成为了当今的热门话题,但是从机器学习这个概念诞生到机器学习技术的普遍应用经过了漫长的过程。在机器学习发展的历史长河中,众多优秀的学者为推动机器学习的发展做出了巨大的贡献。

学者地图用于描述特定领域学者的分布情况, 对于进行学者调查、分析各地区竞争力现况尤为重要,下图为机器学习领域全球学者分布情况:

▲机器学习领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量遥遥领先且主要分布在其东西海岸;欧洲中西部也有较多的人才分布;亚洲的人才主要分布于我国东部及日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;机器学习领域的人才分布与各地区的科技、经济实力情况大体一致。 此外, 在性别比例方面,机器学习领域中男性学者占比

文章主要从理论和实践两方面对这一领域中的一些基本假设提出了挑战。文章从理论上证明,如果没有对所考虑的学习方法和数据集产生归纳偏置,那么解耦表示的无监督学习基本上是不可能的。文章还采用了完善的无监督解耦学习实验方案,进行了一个超级大规模的实验研究。最后还发布了disentanglement_lib,这是一个用于训练和评估解耦表示的新库。由于复制这个结果需要大量的计算工作论文还发布了超过 10000 个预训练的模型,可以作为未来研究的基线方法。

中文题目: 稀疏变分高斯过程回归的收敛速度

论文解读:这篇文章来自英国剑桥大学。自从许多研究人提出了对高斯过程后验的变分近似法后,避免了数据集大小为 N 时 O(N3) 的缩放。它们将计算成本降低到 O(NM2),其中 M ≤ N 是诱导变量的数量。虽然 N 的计算成本似乎是线性的,但算法的真正复杂性取决于 M 如何增加以确保一定的近似质量。论文证明了稀疏 GP 回归变分近似到后验变分近似的 KL 散度的界限,该界限仅依赖于先验核的协方差算子的特征值的衰减。这些边界证明了直观的结果,平滑的核、训练数据集中在一个小区域,允许高质量、非常稀疏的近似。这些边界证明了用M≤N 进行真正稀疏的非参数推理仍然可以提供可靠的边际似然估计和点后验估计。对非共轭概率模型的扩展,是未来研究的一个有前景的方向。

计算机视觉(computer vision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在2D 的平面图像或者 3D 的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。

▲ 计算机视觉领域全球学者分布

研究问题: 本文针对自动的无监督的习得图像的高层属性(譬如人脸对应的身份信息以及拍摄姿态)以及对于生成的每幅图像产生一些特定的随机化的变换(譬如脸部瑕疵以及头发的细节),生成较为直观且可控的合成结果进行了研究。通过借鉴风格迁移的思想,提出了一种新的对抗网络中的生成器架构。该架构不仅在传统的分布距离的度量上优势明显,并且较好地将控制图像变化的隐变量分离出来进行独立建模。

随着数字化技术和互联网的发展,计算机图形学在许多领域都已经得到了广泛的应用,如遥感图像分析、多媒体通信、医疗诊断、机器人视觉等。当前计算机图形学的研究逐渐向多学科交叉融合方向发展,即有与认知计算、计算器学习、人机交互的融合,也有与大数据分析、可视化的融合;不仅针对三维数字模型, 而且涵盖了图像视频, 与计算机视觉深度交叉。计算机图形学的快速发展,一个潜在的趋势是不再有明确清晰的主题,更多的体现出方法和技术的创新。

针对近两年计算机图形学重要期刊会议的相关论文,对该领域内容热点研究内容和前沿技术方法进行了综合分析。目前,热点研究内容主要集中在自监督学习(Self-Supervised Learning)、全景分割(Panoptic Segmentation) 、网络结构搜索( Neural Architecture Search) 和生成式对抗网络( Generative

自监督学习研究早期主要集中在代理任务的设计和选取上,怎样的代理任务才能最好地提取出有益于下游任务的特征以及为何这些代理任务能够有效,这些是理论层面上自监督学习仍需要解决的问题。随着大量围绕着实例判别代理任务的相关工作的提出,有一些工作将其中的核心思想进行展开提出了所谓对比学习的概念。通过将原来两个图片实例特征间的对比延伸到任意两个模态间特征的对比,使得模型学习不同模态间一致的特征表达并用最大化互信息作为新的衡量准则。

在已有的工作中,比较典型的代理任务有将图片分块然后预测不同分块间的相对位置或者将分块打乱后重排得到原图,以及基于图片的上下文信息进行补全和图片不同颜色通道间的相互预测等。目前在图像与图形学领域,取得性能突破的方法主要仍局限在监督学习的框架之下,随着无标记数据的不断爆增和模型性能进一步提升的需求,无监督学习将会越来越受到学术界和工业界的重视。而作为目前无监督学习中的一支,自监督学习因其良好的特征判别能力和对大规模数据扩展能力,也将受到更广泛的关注。

全景分割作为一个统一的任务在 2018 年被提出,它的目标是为图像中的所有像素点都分配一个语义类别和一个实例编号,从另一个角度来说,全景分割算法需要预测出图像中每一个像素点的所属类别和所属实例。在全景分割任务的基础上,近期的进展主要体现在三个方面:(1)从图像整体的角度考虑全景分割,共享网络主干(backbone)形成设计整体网络结构;(2)考虑图像中不同元素之间的交互,建模物体与语义概念之间的关系;(3)提出可学习模块,解决预测结果层面的冲突。接下来,我们将分别介绍有代表性的工作。全景分割作为一个最近被提出的视觉任务,受到了很大的关注,目前方法也在探讨的过程中,具有很大的发展潜力。

目前深度学习的方法在各类图像与图形分析任务中取得了非常大的成功,伴随这一成功而来的是对网络结构设计要求的不断提高。自动化网络设计自然而然地成为了自动化机器学习的下一个目标。早期的相关工作证明了使用强化学习算法可以发现好的网络架构,但是这些方法在计算过程中需要消耗大量计算资源,因此后续的工作都集中在如何减少计算负担上。搜索空间的设计也是一项重要研究热点,同时,研究人员又拓宽了神经结构搜索的视野,将多种优化目标考虑在内,而不仅仅是减少搜索时间和提高网络精度。具有代表性的工作如尝试限制模型参数的数量或类似的方法,以有效地部署在移动设备上。在此基础上,还有一些工作将网络结构搜索技术扩展到搜索深度网络相关组件上。

在图像合成方面,近期最引人关注的工作就是生成对抗网络,生成对抗网络由一个生成网络 G 和一个判别网络 D 组成。生成网络 G 和判别网络 D 在训练阶段使用对抗的方式进行学习,生成网络 G 的目标是生成尽可能真实的图片使得判别网络认为这是一张真实的图片;而判别网络 D 的任务则是判别合成的图像是真实的还是生成的。在这种两者对抗的学习过程中,生成 G 学会如何生成真实的图片。目前在生成对抗网络研究中,条件生成对抗网络、损失函数的改进、模型结构的改进及训练方法的改进是主要研究方向。

复合而成,核心词是媒体。媒体(medium)在计算机领域有两种含义:一是指存储信息的实体,如磁盘、光盘、磁带、半导体存储器等,中文常译为媒质;二是指传递信息的载体,如数字、文字、声音、图形和图像等,中文译作媒介,多媒体技术中的媒体是指后者。其实,“媒体”的概念范围是相当广泛的。“媒体”有下列五大类:(1)感觉媒体(Perception medium)指的是能使人产生直接感觉的媒体。如声音、动画、文本等;(2)表示媒体(Representation medium)指的是为了传送感觉媒体而人为研究出来的媒体。诸如语言编码、电报码、条形码等等;(3)显示媒体(Presentation medium)指的是用于通信中使电信号和感觉媒体之间产生转换用的媒体。如键盘、鼠标器、打印机等;(4)存储媒体(Storage medium)指的是于存放某种媒体的媒体。如纸张、磁带、磁盘、光盘等;(5)传输媒体(Transmission medium)指的是用于传输某些媒体的媒体。常用的有如电话线、电缆、光纤等。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为多媒体领域全球学者分布情况。

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲东部也有较多的人才分布;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;多媒体领域的人才分布与各地区的科技、经济实力情况大体一致。

▲多媒体领域全球学者分布

我国专家学者在多媒体领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况, 特别是与日韩、东南亚等亚洲国家相比,中国在多媒体领域学者数量较多且有一定的优势。

▲多媒体领域中国学者分布

中文题目:超越叙事描述:通过多重对抗训练,从意象中生成诗歌

研究问题:本文主要研究了从图像自动生成诗歌的方法。这项任务涉及多个挑战,包括从图像中发现诗意线索(例如,从绿色中获得希望),以及生成满足图像相关性和语言水平的诗意的诗歌。

近年来,随着数字化技术的发展,多媒体技术突飞猛进,音视频技术是当前最活跃、发展最迅速的高新技术领域之一。多媒体分析以文本、图像、声音、视频等多种不同类型媒体的数据为研究对象,主要的研究目的一方面是使计算机具备人类的多媒体(如视、听)理解能力,另一方面是从多媒体数据中挖掘信息和知识、帮助人类更好地理解世界。

多媒体技术研究领域包括多媒体信息处理、多媒体数据压缩编码、多媒体内容分析与检索技术、多媒体交互与集成、多媒体通信与网络、多媒体内容安全、多媒体系统与虚拟现实等。在近几年的研究中,多媒体技术呈现出与计算机体系结构、计算机网络、人机交互、信息安全、社会网络等多学科交叉融合的发展趋势。

近两年多媒体领域研究热点主要集中在大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像、实时视频流化等方面。

由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段。

在计算图像方面,大规模数据集的构建仍是一个热点研究方向,尤其语义对象的像素级标注需求越来越强烈,能够人机交互标注的过程中不断学习的协同标注方法得到了广泛关注。

无监督学习是多媒体数据分析的长远目标。目前很多领域拥有大量的数据,但是这些数据都是没有经过标记的。因此除了基本的数据勘探和异常检测场景,这些数据基本无法使用。近期在使用未标记的数据来改进(标记数据)监督学习过程方面已经取得了许多进展。

此外自动机器学习(AutoML)和元学习(Meta Learning)的最新研究成果及其在多媒体上的应用也逐渐增多。

在图像压缩处理方面,也有一些研究工作将深度学习用于图像或视频压缩后处理,并得到了一定的效果。然而,现有工作的一个主要问题是用于后处理的深度网络较为复杂,计算速度慢,不满足实际应用的需求。如何在处理效果和处理速度之间取得一个折中,是压缩后处理的一个主要挑战。

图神经网络(Graph Neural Network, GNN)在多媒体领域的应用是近两年的热点研究方向,应用场景包括:个性化推荐,如基于多模态图卷积网络(MMGCN)的多模态推荐方法;短视频推荐,如使用基于图的顺序网络进行建模;多视频摘要,如采用图卷积网络衡量每个视频的重要性和相关性;基于文本的行人搜索,如使用深度对抗图注意力卷积网络(A-GANet) 利用文本和视觉场景图学习联合特征空间;视频关系监测,如使用转移图神经网络(DoT-GNN) 解决图像外观变化的问题。

随着 Mask-RCNN 与 RetinaNet 的发展,物体检测研究日趋成熟,但即便如此,就应用而言,当前的技术依然存在诸多缺陷,为此,针对现代目标检测的基本框架(backbone、 head、 scale、 batchsize 与 post-processing),神经网络架构搜索(NAS)以及细粒度图像分析(FGIA)等 3 个方面的潜在难题成为主要研究内容,尤其是后两者,将成为未来视觉物体检测的两个重要研究维度。

人机交互(Human-Computer Interaction, HCI), 是人与计算机之间为完成某项任务所进行的信息交换过程, 是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户的可见部分,用户通过人机交互界面与系统交流, 并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一, 与认知学、人机工程学、心理学等学科领域有密切的联系。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为人机交互领域全球学者分布情况:

▲人机交互领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸; 欧洲也有较多的人才分布; 亚洲的人才主要集中在日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少; 人机交互领域的人才分布与各地区的科技、经济实力情况大体一致。

我国专家学者在人机交互领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在人机交互领域学者数量较少。

▲人机交互领域中国学者分布

中文题目: 人工智能交互指南

研究问题: 人工智能(AI)领域的快速发展给用户界面和交互设计带来了新的机遇和挑战。虽然人机交互届对人和 AI 交互的原则原理已经进行了 20 多年的探讨,我们仍需要更多的研究和创新来解决人工智能新技术及其面向人类的应用不断涌现而带来的新科学及社会问题。作者提出了 18 条具有通用性的、可适用于多种应用场景的、针对人和 AI 交互的设计指导,指出现有知识的空缺及未来的探索方向。 这份指南不仅为 AI 设计师提供了具体、可操作的建议,还旨在推动用户体验和工程开发从业者就设计决策的相关问题展开讨论,推动这一领域研究的研究方法:

文章提出了 18 条人工智能交互设计指导,并进行多轮的实例评估来验证其有效性,包括通过一个用户实验,邀请 48 位设计师以这些设计指导为工具来测试 20 项广泛使用的有 AI 技术支持的用户产品。

最近的十年,是人机交互向自然交互蓬勃发展的十年。毋庸置疑,计算机是世纪最伟大的发明,其作用从科学计算工具迅速发展为信息处理和信息交互工具,起引领作用的则是人机交互技术的变革,即以鼠标发明为标志的图形用户界面(Graphical User Interface, GUI)的产生,一改规范命令与计算机交互的命令行界面模式(Command LineInterface, CLI),GUI 提供了普通人与计算机便捷交互的工具和方法,让计算机从实验室走进办公室、走入家庭,十多年前,触屏技术成为产品技术, GUI 中的鼠标被人的天然指点(pointing)工具——手指所取代,计算机又变身出手机,成为更多人方便使用的随身掌上工具。

更少依赖操控工具,发展学习和使用成本更小的自然交互技术,一直是人机交互研究的价值追求,最
近十年,随着感知和计算技术的进步,自然交互技术创新层出不穷,并能迅速成为新型产品技术, 《麻省理工科技评论》总结和评论人机交互领域的突破技术(breakthroughs),为人机交互技术、未来终端技术的发展建立了一个高端的技术论坛,影响深远。我把这些突破技术分为 3 大类:支持自然动作的感知技术,面向穿戴的新型终端和基于语音识别的对话交互。

人体动作蕴含丰富的语义,动作交互技术一方面需要感知技术的进步,另一方面需要发现或设计有明确交互语义的动作(gesture,姿态,由于人手的灵巧性,手势成为主要的交互动作,通常叫做手势),如今,二维表面上,多指触摸动作在触屏上已普遍可用,三维空间中,嵌入了深度摄像头的手持和固定设备,能比较准确识别人的姿态和动作,做出响应。不同于人脸识别等目标明确的视觉识别任务,动作交互不仅要求视觉识别的准确度,更需要研究基于交互任务的动作表达的自然性与一致性,难以发现和突破,所以,除了动作语义很直白的动作游戏(body game),三维动作交互尚缺少普遍认知和接受的交互动作语义。而无论二维还是三维,手势的不可见性,是动作交互的主要难题。

穿戴(wearable)取代手持(handheld)曾是前几年的一个革命口号,目前看,市场上的确出现了一定规模的新产品,但穿戴仍是补充的地位。穿戴设备中,手环设备基本只有健康和活动检测功能,智能手表可以算做创新终端,但作为缩小版的手机,由于交互界面的缩小和操作方式的限制(通常是小界面上双手参与操作),其承载功能也较手机缩减很多。 VR/ AR(虚拟现实/增强现实)的一个理想载体是头戴式设备,最近几年,多款智能眼镜产品面世,较之前笨重的头盔轻便了许多,逼真的虚拟场景和准确的现实对象识别信息都可以清晰呈现在眼前,并在特定领域开拓着增强体验的应用;然而,智能眼镜尚缺少与其三维真实显示匹配的准确的自然输入技术,以及从眼手绑定在手机上转变到眼手分离的眼镜设备上时,尚未建立起相应的交互模式。

自然语言对话式交互得益于大数据和智能技术的进步,多语言的自然语音识别技术在用户终端上都达到了很高的可用水平,并且,语音识别超越文本输入方式,成为智能软件助理的使能技术,近两年,更是有基于语音接口的家居产品如雨后春笋般出现, VUI (Voice User Interface,语音用户界面)已经成为交互术语。然而, VUI 的局限也是显而易见的,相对并行模式的视觉通道,串行模式的语音通道的带宽显然窄的多,出声的使用方式在很多场合是不合适的,但作为一种可用的自然交互技术,有效提升了用户体验。

人机交互作为终端产品的引领技术的作用已经是产业界的普遍认识,欣喜看到很多种自然交互技术和新型交互终端面世,但 GUI 仍是交互的主导模式。计算无所不在,交互自然高效是发展趋势,人机交互的研究和开发空间很大,需要综合地探索自然交互技术的科学原理,建立明确的优化目标,结合智能技术,发展高可用的自然交互技术。

机器人广义上包括一切模拟人类行为或思想以及模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人(例如爬虫机器人)。联合国标准化组织采纳了美国机器人协会给机器人下的定义: “一种可编程和多功能的操作机;或是为了执行不同的任务而具有可用电脑改变和可编程动作的专门系统。一般由执行机构、驱动装置、检测装置和控制系统和复杂机械等组成” 。 机器人是综合了机械、电子、计算机、传感器、控制技术、人工智能、仿生学等多种学科的复杂智能机械。

目前,智能机器人已成为世界各国的研究热点之一,成为衡量一国工业化水平的重要标志。机器人是自动执行工作的机器装置,因此,它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。在当代工业中,机器人指能自动执行任务的人造机器装置,用以取代或协助人类工作,一般会是机电装置,由计算机程序或电子电路控制。机器人的范围很广,可以是自主或是半自主的,从本田技研工业的 TOPIO等拟人机器人到工业机器人,也包括多台一起动作的群机器人,甚至是纳米机器人。借由模仿逼真的外观及自动化的动作,理想中的高仿真机器人是高级整合控制论、机械电子、计算机与人工智能、材料学和仿生学的产物。机器人可以作一些重复性高或是危险,人类不愿意从事的工作,也可以做一些因为尺寸限制,人类无法作的工作,甚至是像外太空或是深海中,不适人类生存的环境。机器人在越来越多方面可以取代人类,或是在外貌、行为或认知,甚至情感上取代人类。

机器人技术最早应用于工业领域,但随着机器人技术的发展和各行业需求的提升,在计算机技术、网络技术、 MEMS 技术等新技术发展的推动下,近年来,机器人技术正从传统的工业制造领域向医疗服务、教育娱乐、勘探勘测、生物工程、救灾救援等领域迅速扩展,适应不同领域需求的机器人系统被深入研究和开发。过去几十年,机器人技术的研究与应用,大大推动了人类的工业化和现代化进程,并逐步形成了机器人的产业链,使机器人的应用范围也日趋广泛。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为机器人领域全球学者分布情况:

▲机器人领域全球学者分布

我国专家学者在机器人领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在机器人领域学者数量较少。

▲机器人领域中国学者分布

中文题目:通过多 affordance 抓取和跨域图像匹配完成杂乱环境下对新物体的捡放操作

研究问题: 人类可以在仅掌握少量先验知识的前提下识别和抓取陌生目标物,这一能力一直是机器人研究的灵感来源,也是很多实际应用的核心。为此,提出一种能在杂乱环境下对新目标物进行识别和捡放操作的机器人系统,整个系统可直接用于新目标物(在测试过程中首次出现),而无需额外的数据收集或重新训练。

机器人学习 。 在 AI 兴起的时代,机器人拥有了一种新型的学习方式:深度强化学习。这一新方式借助通用化的神经网络表示,处理复杂的传感器输入,来让机器人从自己的经验活动中直接学习行为。相比传统方式,它解放了工程设计人员们的双手,不再需要程序员们手动设计机器人每一个动作的每一项精确参数。但是,现有的强化学习算法都还不能够适用于有复杂系统的机器人,不足以支撑机器人在短时间内就学习到行为,另外在安全性上也难以保障。

针对这种困境, 2019 年初,谷歌 AI 与 UC 伯克利大学合作研发了一种新的强化学习算法: SAC(Soft ActorCritic)。 SAC 非常适应真实世界中的机器人技能学习,可以在几个小时内学会解决真实世界的机器人问题,而且它的一套超参数能够在多种不同的环境中工作,效率十分之高。 SAC 的开发基于最大熵强化学习这个框架。此框架尝试让预期回报最大化,同时让策略的熵最大化。一般而言,熵更高的策略具有更高的随机性。从直觉上看,这意味着,最大熵强化学习能取得高回报策略中具有最高随机性的那个策略。 SAC 学习一个随机策略,这个策略会把状态映射到动作,也映射到一个能够估计当前策略目标价值的 Q 函数,这个 Q 函数还能通过逼近动态编程来优化它们。 SAC 通过这样的方式,来让经过熵强化的回报最大化。此过程中,目标会被看作一个绝对真的方法,来导出更好的强化学习算法,它们有足够高的样本效率,且表现稳定,完全可以应用到真实世界的机器人学习中去。

机器人应用 。 2019 年 6 月,亚马逊在 MARS 人工智能大会上最新发布的仓库机器人Pegasus,该机器人已正式加入亚马逊 Kiva 机器人行列。 Pegasus 是一种新型包裹分拣机器人,外观上看, Pegasus 机器人十分类似亚马逊既有的 Kiva 机器人, 外观还是橙色不变, 2 英尺高, 3 英尺宽,约相当于一个手提包的大小。 Pegasus 机器人更像是对原有 Kiva 机器人的改良版,在原有机器人底座上增加了一个载货平台+皮带传送带对各个包裹进行分类和移动,有助于最大限度地减少包裹损坏并缩短交货时间。 Pegasus 机器人可以自主将右侧盒子放在正确的位置。仓库作业人员将包裹扫描完放到 Pegasus 机器人上, Pegasus 机器人载着包裹到指定地点。

机器人配备的摄像机可以感知任何意外障碍。到了指定地点,机器人载货平台上的传送带将包装从机器人上移开,然后包裹沿着滑槽向下移动,准备送出。机器人在大约 2 分钟内完成整个包裹运送过程。据亚马逊介绍, Pegasus 机器人具有与 Kiva 机器人驱动器相同的容量。 Pegasus 机器人目前已经在在丹佛分拣中心上线的六个多月,行驶约 200 万英里,经测试,它能将当前系统的包裹分拣错误率大幅降低 50%。本次 MARS 人工智能大会上,除了推出 Pegasus 机器人,亚马逊还发布了一种大型模组化运输机器人 Xanthus。依据上方安装的模组,执行多种不同的任务 Xanthus 拥有透过改变上方配备,胜任不同任务的能力。相较过 去使用的系统, Xanthus 不仅用途更为广泛,体积也只有前辈的 1/3,成本甚至直接砍半。

机器人平台 。 如何将机器人技术落地、实践商业化一直是备受关注的问题。波士顿动力的策略是要希望其成为平台公司,通过授权或开源方式, 使其技术能被广为被使用。2018 年这个传言似乎得到了证实,在《连线》杂志举办的峰会上,波士顿动力创始人暨首席执行官 Marc Raibert 指出,他们的定位是成为平台公司,让生态圈包括第三方伙伴、客户,一起来找到技术真正适合使用的地方。 Marc Raibert 表示波士顿动力在开发机器人时是以“平台”的概念来出发,客户可以增加硬件,例如手臂及其他组件,“当然,我们也可以针对单一领域打造一个有特殊应用的机器人方案,但我们不知道哪一个领域合适,所以我们从平台的角度出发,希望生态圈帮我们一起来找到技术真正可落地之处”、“我们要打造的是‘通用用途的平台’(general purpose platform),让第三方伙伴、客户、波士顿动力自己的应用开发团队,可以一同来设计产品以符合定制化需求。

数据库是按一定的结构和规则组织起来的相关数据的集合, 是综合各用户数据形成的数据集合,是存放数据的仓库(我国数据库的发展现状与趋势—陈黎)。随着计算机技术与网络通信技术的快速发展,数据库技术已经成为当今信息社会中对大量数据进行组织与管理的重要技术手段,是网络信息化管理系统的基础。目前,新一代数据库系统不仅保持和继承了传统数据库系统的各项功能,支持知识管理、数据管理和对象管理,而且还对其它应用系统开放,在网络上支持标准网络协议,具有良好的可连接性、可移植性、可互操作性和可扩展性。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为数据库领域全球学者分布情况:

▲数据库领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧洲也有较多的人才分布;亚洲的人才主要集中在我国东部;其他诸如非洲、南美洲等地区的学者非常稀少;数据库领域的人才分布与各地区的科技、经济实力情况大体一致。

我国专家学者在数据库领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等地相比,中国在数据库领域学者数量较多但差距不大。

▲数据库领域中国学者分布

中文题目: 自动驾驶的数据库管理系统

研究问题: 在过去的二十年中,研究人员和数据库系统供应商都尝试开发了各式辅助工具以在数据库系统的调优和物理设计等各个方面协助数据库管理员( Database Administrator, DBA)。但是,大多数的工作还是不足够完善的,因为它们仍然需要 DBA 对数据库的任何更改做出最终决定,并且是在问题发生后解决问题的反应性措施。尤其是随着云数据库的发展,不需要人工干预的 DBMS 就成为了一个迫切的需求,于是能“自动驾驶”的数据库管理系统(Database Management System, DBMS)便成为了必然的选择。真正地能“自动驾驶”的数据库管理系统所需要的是一种为自治操作而设计的新体系结构。与早期的各种 DBMS 不同的是,该类系统的所有方面都由集成的计划组件控制,该组件不仅可以针对当前工作负载(Workload)优化系统,而且还能预测未来的工作负载的变化趋势,以便系统可以相应地进行准备。这样, DBMS 可以支持所有以前的调优技术,而无需人工确定正确的方式和适当的时间来部署它们。

步入大数据时代,面对 PB 乃至 EB 级海量数据、复杂多变的应用场景、异构的硬件架构和层次不齐的用户使用水平,传统的数据管理技术难以满足新时代的需求。例如,一个云数据库系统通常具有百万级别的数据库实例,每一个数据库实例通常都有各自的应用场景、不同用户的使用水平往往也有着比较大的差别,数据库中传统的启发式算法在这些场景中难以取得较好的效果,而有经验的数据库管理员也难以直接干预和优化数量如此之多的数据库实例。

近年来,以机器学习为代表的人工智能技术因其强大的学习和适应能力,在多个领域都大放异彩。同样的,在数据管理领域,传统机器学习和深度学习等技术也有着巨大的潜力和广阔的应用前景。例如,数据库系统所积累的海量历史查询记录可以为基于学习的数据库智能优化技术提供数据支撑。一方面,我们可以构建包含查询、视图或数据库状态的有标签数据,比如,在视图选择问题中,这个标签是指每个候选视图是否被选中。

另一方面,在缺乏标签数据的时候,我们可以利用(深度)强化学习技术探索性地(从选择结果的反馈中学习)选择最优的候选视图。此外,人工智能技术让自治数据库的自动决策管理、自动调优和自动组装等需求成为可能。在以深度学习为代表的人工智能技术的加持下,让数据库朝着更加智能的方向发展,数据管理技术也随之智能化。近些年涌现的自治数据库和人工智能原生数据库(如 SageDB, XuanyuanDB),通过融合人工智能技术到数据库系统的各个模块(优化器、执行器和存储引擎等)和数据管理的生命周期,可以大幅度提升数据库各方面的性能,为下一代数据库和人工智能技术的发展指明了一个方向。

在另外一方面,数据管理技术也能以基础设施的身份来支持人工智能的发展。目前的人工智能在落地过程中还面临着一些挑战性。例如,人工智能算法训练效率较低,现有人工智能系统缺少执行优化技术(如大规模缓存、数据分块分区、索引等),不仅会导致大量的计算、存储资源浪费,而且会提高程序异常的发生率(如内存溢出、进程阻塞等),严重影响单个任务的执行效率。其次,人工智能技术往往依赖高质量的训练数据,现实中的训练数据往往是包含很多缺失值、异常值和别名等类型的错误,这些错误通常会影响训练效率,对模型的质量造成干扰。面向人工智能的数据管理技术可以为解决上述挑战做出贡献。

可视化技术是把各种不同类型的数据转化为可视的表示形式,并获得对数据更深层次认识的过程。可视化将复杂的信息以图像的形式呈现出来,让这些信息更容易、快速地被人理解,因此,它也是一种放大人类感知的图形化表示方法。

可视化技术充分利用计算机图形学、图像处理、用户界面、人机交互等技术,以人们惯于接受的表格、图形、图像等形式,并辅以信息处理技术(例如: 数据挖掘、机器学习等)将复杂的客观事物进行图形化展现,使其便于人们的记忆和理解。可视化为人类与计算机这两个信息处理系统之间提供了一个接口,对于信息的处理和表达方式有其独有的优势,其特点可总结为可视性、交互性和多维性。

目前,数据可视化针对不同的数据类型及研究方向,可以进一步划分为科学数据可视化、信息可视化,以及可视分析学三个子领域。这三个领域既紧密相关又分别专注于不同类型的数据及可视化问题。具体而言,科学可视化是针对科学数据的可视化展现技术。科学数据,例如,医疗过程中由 CT 扫描生成的影像数据、风洞实验而产生的流体数据、以及分子的化学结构等,是对物理世界的客观描述,往往是通过科学仪器而测量得到的数据。

这类数据的可视化主要关注于如何以清晰直观的方式展现数据所刻画的真实物理状态。因此,科学可视化往往呈现的是三维场景下的时空信息。信息可视化注重于如何以图形的方式直观展现抽象数据,它涉及到了对人类图形认知系统的研究。在这里,抽象数据(例如: 图形数据、多维度数据、文本数据等)往往是对各应用领域所产生数据的高层次概括,记录的是抽象化的信息。针对这样的数据,信息可视化着眼于多维度信息的可视编码技术,即如何以低维度(2D) 的图形符号来直观展现并揭示抽象数据中所隐藏的潜在规律与模式;可视分析学是多领域技术结合的产物,旨在结合并利用信息可视化、人机交互、以及数据挖掘领域的相关技术,将人的判断与反馈作为数据分析中重要的一环,从而达到精准数据分析、推理及判断的目的。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为可视化领域全球学者分布情况:

▲ 可视化领域全球学者分布

我国专家学者在可视化领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在可视化领域学者数量较多但差距较小 。

▲可视化领域中国学者分布

中文题目:城市大时空数据的可视化研究:纽约市出租车出行研究

出租车数据是城市中极具价值的信息,收集并利用好出租车的数据可以有效的帮助决策者和社会学家理解城市的状况并做出正确的决策。但高效的探索出租车数据其实是一个充满挑战的事情。出租车数据十分复杂且庞大,包含了时间和空间上的信息,很难快速查询并进行比较。在采访城市规划和交通专家后,该文作者了解到,他们目前没有合适的工具来完成分析。一些简单的工具和语言只能分析一些小规模的数据,能分析的数据比较片面;而复杂一些的工具,虽然可以对大数据进行分析,则需要掌握高级的数据查询语言,对分析人员而言很困难。所以该文提出了一种支持在起点–终点(OD)数据上进行复杂时空可视化查询的模型。

可视化语法及工具 。 随着大数据时代的到来,可视化已经成为一个必不可少的工具。现有的可视化软件及工具,可用于设计可视化应用程序和构建可视化分析系统,有助于可视化的广泛使用。为了减少制作可视化的技术负担,一些可视化工具提供了声明性语法,其中包括了 Vega-Lite 和 P5。声明性语法可以将可视化设计与执行细节分离,这使分析人员可以专注于特定于应用程序的设计决策。同时 Vega-Lite 和 P5都提供了易于使用的编程接口。

Vega-Lite 是一套能够快速构建交互式可视化的高阶语法,它是基于 Vega 和 D3 等底层可视化语法的上层封装。相比于其它比较底层可视化语法, Vega-Lite 可以通过几行 JSON 配置代码即可完成一些通用的图表创建,而相反地,想要用 D3 等去构建一个基础的统计图表则可能需要编写多行代码,如果涉及到交互的话代码量更是会大大增加。 P5 是一个基于 Web的可视化工具包,它能集成了 GPU 计算与渐进式处理,并且提供了带有声明性语法的 API,可用于指定渐进式数据转换和可视化操作,从而帮助分析人员构建融合了高性能计算和渐进式分析工作流的可视化系统。

可视化与故事叙述 。 故事叙述是可视化研究的一个重要且新兴的方向。 与传统的、 强调数据分析的可视化思路不同,故事叙述强调数据的传达与沟通, 强调数据与人(且通常是普通人)的连结。在此思路下, 研究者们致力于探究: 何种数据呈现与讲述技巧,可以使数据具备吸引力、 记忆度;数据故事的创作流程是怎样的,存在哪些需求和痛点;以及如何自动生成数据故事等等。 用讲故事的方式来呈现可视化,本质上是体现了一种人本导向,即以人的需求出发,提取和分析数据,并以对人友好的方式,将数据中的信息传达出去。随着我们的社会越来越依赖数据赋能,更好地构建数据与人的关系,将成为一条必经之路。叙述可视化的应用,不仅在于那些以“叙述”为主业的领域,如新闻媒体、广告宣传,更在于需要用数据来影响人、说服人、打动人的各行各业。对于研究者来说,相关的研究方向则包括可视化设计、人机交互、认知与感知、智能生成与推荐等等。

可视化的自动生成 。 数据可视化领域中大多数的可视化生成系统往往是基于数据的交互式探索,也包括商业领域的知名的可视化工具 Tableau 和 PowerBI。而近些年来,为了避免繁杂的数据分析步骤并提升用户效率,可视化的自动生成逐渐成为行业领域中的研究热点。一系列基于规则和机器学习的推荐方法层出不穷,在自动生成可视化的最新研究中,研究者希望在保证准确表现数据的同时,也能将视觉设计的因素考虑在内,确保可视化的美观性和数据的表现力。

例如, DataShot 和 Text-toViz,分别从数据和自然语言两个角度去自动生成富有设计感的数据可视化,前者直接从表格数据生成信息简报,后者根据用户的自然语言输入生成对应的信息图。制作一个有效且美观的数据可视化往往需要跨专业领域的技能,尤其是需要同时具备数据分析能力和平面设计能力,而这对于一个没有专业训练的普通用户来说是比较困难的。 DataShot 和 Text-to-Viz 等前沿的技术研究均通过自动化的方法从数据洞察和设计美学两个方面帮助用户生成可视化,降低用户制作可视化的门槛,并有效提高生产效率。

可解释性深度学习 。 LSTMVis 是一个递归神经网络的可视化分析工具,它着重于对 RNNs 中的隐藏特征进行可视化分析。 LSTMVis 结合了一个基于时间序列的选择界面和一个交互式的匹配工具来搜索大型数据集中相似的隐藏状态模式。系统的主要功能是理解模型中动态变化的隐藏状态。该系统允许用户选择一个假设的输入范围来关注局部的改变,将这些状态改变与大型数据集中类似的模式进行匹配,并将这些选择出来的模式进行对齐分析。

RNNs 在序列建模方面有着重要的作用,但是模型中的隐藏层含义很难被解释清楚。对于一个完成训练的 RNN 模型,分析人员并不清楚这个模型是如何理解序列中不同节点之间的关系的。 LSTMVis 能够帮助用户交互式地探索 RNN 模型复杂的网络结构,并将模型中抽象表示的隐藏层信息与人类可理解的原始输入进行关联。

随着 21 世纪大数据的兴起和发展,大数据可视化广泛应用于各个领域,本节重点介绍其中的社交媒体可视化、医疗信息可视化和体育数据可视化。 社交媒体,比如最近几年非常流行的 Twitter、 Facebook、微博。它们可以作为强大的在线交流平台,允许数百万用户在任何时间、任何地点产生、传播、共享或交换信息。这些信息通常包括多种多媒体内容,如文本、图像和视频。在社交媒体上传播的大量多媒体数据,涵盖了全球范围内大规模和实时发生的社会动态信息, 这种现象为社交媒体可视化提供了很多机会。

社交媒体技术层面上的可视化,主要包括: 基于关键字方法的可视化, 基于主题方法的可视化和多元方法的可视化。 现有的研究大多集中于集体行为的可视化,这类研究的主题包括: 信息扩散的可视化,社会竞争与合作的可视化,人的流动性的可视化。

社交媒体数据的可视化分析正在迅速发展,每年都有大量的新方法出现。然而,该领域仍处于起步阶段,面临许多挑战和悬而未决的问题。许多挑战不能仅 结合的多学科研究,将带来处理和理解社交媒体数据会有更强大、更可行的方法和技术。

Mining),是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。数据挖掘的广义观点:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法。数据挖掘是一门综合的技术,涉及统计学、数据库技术和人工智能技术的综合,它的最重要的价值在于用数据挖掘技术改善预测模型。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为数据挖掘领域全球学者分布情况:

▲数据挖掘领域全球人才部分

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量遥遥领先且主要分布于其东西海岸;欧洲、亚洲也有较多的人才分布;其他诸如非洲、南美洲等地区的学者非常稀少;可视化领域的人才分布与各地区的科技、经济实力情况大体一致。

我国专家学者在数据挖掘领域的分布如上图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日本、东南亚等亚洲国家相比,中国在数据挖掘领域学者数量较多且有一定的优势。

▲数据挖掘领域中国学者分布

中文题目:图卷积神经网络应用于网络规模推荐系统

研究问题: 图结构数据作为深层神经网络最新研究成果应用于推荐系统基准的最新的指标,传统的深度学习网络主要针对图片,语音等欧氏空间内规则型数据,但是现实中存在很多不是欧氏数据, 它们的结构不规则,难以用卷积神经网络对其进行结构信息的聚合,故将其扩展到有数十亿用户的网络级推荐系统是一个巨大的挑战。

近几年,我们已经迎来了大数据时代,各大互联网企业每天都在产生数以亿计的数据。各类数据往往都隐含着一些有价值的信息, 如果人们手动地进行数据分析,往往需要耗费大量的时间。同时,大量未经处理的数据可能会被人们所忽视。数据挖掘就是想自动地从大规模的数据中挖掘出有意义的知识或者模式。这里,我们将数据挖掘领域近期的主要发展归为两大类:复杂数据挖掘、分布式数据挖掘。

复杂数据包括序列数据、图数据等。在序列数据挖掘中,基于注意力(Attention)机制的 Transformer 模型表现出了巨大的潜力,在机器翻译等任务上取得了非常好的效果。随后, BERT 模型使用双向 Transformer 通过预训练方式在各种自然语言处理的任务上都达到了当时最好的结果。在图数据挖掘研究中,网络表示学习仍然是近年来非常热门的话题。从 DeepWalk 算法开始,基于随机游走的算法在无监督的表示学习任务中表现良好。 NetMF 算法将几种基于随机游走的算法统一写成了矩阵分解的形式,给网络表示学习算法提供了理论基础。图卷积神经网络是另一种处理图数据的有效方法,借鉴了图谱论中的图卷积并使用图的拉普拉斯矩阵,在半监督的节点分类任务和图分类任务中都表现出很好的效果。除此之外,异构网络的表示与挖掘也逐渐被大家所关注。

分布式数据挖掘已成为数据挖掘领域非常有前途的方向。随着数据挖掘计算成本的增加和数据隐私保护的问题,分布式数据挖掘开始备受关注。分布式数据挖掘利用分布式站点的资源来降低计算成本并增强数据保密性。由于分布式数据挖掘采用了不同的计算方式,传统的数据挖掘技术很难直接应用于分布式数据挖掘。目前,数据安全与数据隐私开始被大家所关注。 2018 年 5 月,通用数据保护条例(GDPR)在欧盟正式生效, 这也使得基于隐私保护的分布式数据挖掘方法逐渐被研究者所重视。

数据挖掘已经被广泛地应用于各类实际问题,包括金融数据分析、推荐系统等。数据挖掘相关研究需要结合实际问题,注重与机器学习、统计学科等的交叉,从大数据中挖掘出有价值的信息。

R.Baeza-Yates 教授在其著作《现代信息检索中 》中指出 ,信息检索(Information Retrieval, IR)是计算机科学的一大领域,主要研究如何为用户访问他们感兴趣的信息提供各种便利的手段,即:信息检索涉及对文档、网页、联机目录、结构化和半结构化记录及多媒体对象等信息的表示、存储、组织和访问,信息的表示和组织必须便于用户访问他们感兴趣的信息。

在范围上,信息检索的发展已经远超出了其早期目标,即对文档进行索引并从中寻找有用的文档。如今,信息检索的研究包括用户建模、 Web 搜索、 文本分析、 系统构架、 用户界面、 数据可视化、 过滤和语言处理等技术。

信息检索的主要环节包括信息内容分析与编码、组成有序的信息集合以及用户提问处理和检索输出。其中信息提问与信息集合的匹配、选择是整个环节中的重要部分。当用户向系统输入查询时,信息检索过程开始,接着用户查询与数据库信息进行匹配。返回的结果可能是匹配或不匹配查询,而且结果通常被排名。大多数信息检索系统对数据库中的每个对象与查询匹配的程度计算数值分数,并根据此值进行排名,然后向用户显示排名靠前的对象。

推荐系统(Recommendation System, RS)是指信息过滤技术,从海量项目(项目是推荐系统所推荐内容的统称,包括商品、新闻、微博、音乐等产品及服务)中找到用户感兴趣的部分并将其推荐给用户,这在用户没有明确需求或者项目数量过于巨大、凌乱时,能很好地为用户服务,解决信息过载问题。

一般推荐系统模型流程通常由 3 个重要的模块组成:用户特征收集模块,用户行为建模与分析模块,推荐与排序模块。推荐系统通过用户特征收集模块收集用户的历史行为,并使用用户行为建模和分析模块构建合适的数学模型分析用户偏好,计算项目相似度等,最后通过推荐与排序模块计算用户感兴趣的项目,并将项目排序后推荐给用户。

信息的检索与推荐都是用户获取信息的手段,无论是在互联网上,还是在线下的生活场景里,这两种方式都大量并存,两者之间的关系是互补的:搜索引擎需要用户主动提供准确的关键词来寻找信息,因此不能解决用户的很多其他需求,比如当用户无法找到准确描述自己需求的关键词时,搜索引擎就无能为力了。和搜索引擎一样,推荐系统也是一种帮助用户快速发现有用信息的工具。

与搜索引擎不同的是,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息。因此,从某种意义上说,推荐系统和搜索引擎对于用户来说是两个互补的工具。搜索引擎满足了用户有明确目的时的主动查找需求,而推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容。在实际生活中也有很多运用。

同时,信息的检索与推荐也有着一定的区别,可以分为以下几个方面: 首先是主动与被动的不同。搜索是一个非常主动的行动,用户的需求也十分明确,在搜索引擎提供的结果里,用户也能通过浏览和点击来明确的判断是否满足了用户需求。然而,推荐系统接受信息是被动的,需求也都是模糊而不明确的。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为信息检索与推荐领域全球学者分布情况:

▲信息检索与推荐领域全球人才分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布于其东西海岸;欧洲、亚洲也有较多的人才分布;其他诸如非洲、南美洲等地区的学者非常稀少;信息检索与推荐领域的人才分布与各地区的科技、经济实力情况大体一致。 此外,在性别比例方面,信息检索与推荐领域中男性学者占比 90.6%,女性学者占比9.4%,男性学者占比远高于女性学者。

▲信息检索与推荐领域中国学者分布

我国专家学者在信息检索与推荐领域的分布如上图所示,从中可以发现京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等地相比,中国在信息检索与推荐领域学者数量较多且优势较大。

中文题目:对抗式个性化推荐排名

研究问题: 贝叶斯个性化排名(Bayesian Personalized Ranking, BPR)是一种成对学习的排序方法,用于优化个性化排序的推荐模型。它以内隐反馈学习为目标,假定观察到的交互比未观察到的交互排在更高的位置。矩阵因子分解( MatrixFactorization, MF)是最基本也是最有效的推荐模型。 MF 将每个用户和项表示为嵌入向量,通过嵌入向量之间的内积来估计用户对某一项的偏好程度。在信息检索领域,贝叶斯个性化排名训练的矩阵分解模型(MF-BPR)学习一个与训练数据相适应的复杂函数,不能很好地泛化,且其鲁棒性较差,易受参数的对抗性扰动。因此本文提出了一种新的个性化排名训练方法-对抗的个性化排名(Adversarial Personalized Ranking, APR)。

随着互联网中数字信息数量的增长,商品、书籍、新文章、歌、电影、研究文件等日常基础性事物,其数量和种类填满了多个数据仓库和数据库。蕴含着智能推荐系统和强大的搜索引擎的在线商店、在线音乐、在线视频和图片库等已成为人们快速寻找信息的主要方式。此类系统的流行程度和有用性在于它们能够便捷地显示几乎无限的物品信息。比如, Amazon、 Netflix 等推荐系统尝试了解用户兴趣,并向用户推荐他们感兴趣的商品。尽管这些系统由于使用场景而各不相同,但其寻找用户感兴趣商品的核心机制都是用户兴趣与商品匹配的机制。

为了提高信息检索与推荐系统中算法模型的准确性和可解释性,研究人员近年来主要关注无偏的在线排序学习模型,以及利用知识信息增强推荐系统的表现和可解释性等方面的研究。其中,无偏的在线排序学习模型是指自动利用大规模用户点击数据训练搜索结果的排序模型。用户点击数据是现代搜索引擎的重要数据来源,具有成本低廉,并且对以用户为中心的检索应用程序(如搜索排名) 特别有用等优点。

为了充分利用用户点击数据开发一个无偏的学习排名系统,研究人员试图消除用户偏见对排名模型训练的影响。近年来,一种基于反事实学习和图形模型的无偏学习排名框架引起了人们的广泛关注。该框架侧重于使用反事实学习直接训练带有偏倚点击数据的排名模型。这个无偏的学习排名框架对待点击偏差作为一个反事实的影响和去偏用户反馈加权每点击与他们的反向倾向加权。它使用倾向性模型来量化点击的偏差,并没有明确地估计查询文档与培训数据的相关性。研究人员从理论上证明,在正确的偏差估计下,在该框架下使用点击数据训练的排序模型将收敛于使用真实相关信号训练的排序模型。

信息检索与推荐系统可以为用户推荐其感兴趣的内容并给出个性化的建议。而现在的推荐系统大都着眼于被推荐对象的序列建模,而忽略了它们细粒度的特征。为了解决以上问题,研究人员提出了多任务可解释推荐模型( Multi-Task Explainable Recommendation, MTER)和知识增强的序列推荐模型(Knowledgeenhanced Sequential Recommender, KSP)。其中, MTER 模型是一个用于可解释推荐任务的多任务学习方法,通过联合张量分解将用户、产品、特征和观点短语映射到同一向量空间,来从用户评论中提取产品细粒度的个性化特征。 KSR 模型提出了利用结合知识库的记忆网络来增强推荐系统的特征捕获能力与解释性,解决序列化推荐系统不具有解释性,且无法获取用户细粒度特征的不足。 MTER 和KSR 模型通过对推荐结果的解释,分析被推荐对象的特征,可以让用户可以对使用哪些推荐结果做出更明智,更准确的决策,从而提高他们的满意度。

近年来,信息检索与推荐领域比较流行的开源平台主要包括基于深度学习的检索模型(MatchZoo)、基于 tensorflow 的 learning to rank 模型(TF-Ranking)和 microsoft recommenders。其中, MatchZoo 是由中国科学院计算技术研究所网络数据科学与技术重点实验室近期发布的深度文本匹配开源项目。 MatchZoo 是一个 Python 环境下基于 TensorFlow 开发的开源文本匹配工具,使用了 Keras 中的神经网络层,并有数据预处理,模型构建,训练与评测三大模块组成, 旨在让大家更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。

MatchZoo 提供了基准数据集(TRECMQ 系列数据、 WiKiQA 数据等)进行开发与测试,整合了当前最流行的深度文本匹配的方法(包括 DRMM, MatchPyramid, DUET, MVLSTM, aNMM, ARC-I,ARC-II, DSSM, CDSSM 等算法的统一实现),旨在为信息检索、数据挖掘、自然语言处理、机器学习等领域内的研究与开发人员提供便利, 可以应用到的任务场景包括文本检索,自动问答,复述问题,对话系统等等。

TF-Ranking 是一个可扩展的基于 tensorflow 的用于排序的库,由 google 于2018 年提出。 TF-Ranking 提供了一个统一的框架,其中包括一套最先进的学习排序算法,并支持成对或列表损失函数、多项评分、排序度量优化和无偏学习排序。 TF-Ranking 速度很快并且易于使用,可以创建高质量的排序模型。 统一的框架使机器学习的研究人员、实践者和爱好者能够在一个库中评估和选择一系列不同的排序模型。

此外,这个开源库不仅提供了合理的默认模型,还可以让用户能够开发自己的定制模型,且提供了灵活的 API,用户可以在其中定义和插入自己定制的损失函数、评分函数和指标。 Microsoft Recommenders 是微软云计算和人工智能开发团队与微软亚洲研究院团队深度合作,基于多年来各类大型企业级客户的项目经验以及最新学术研究成果,搭建的完整推荐系统的最新实操技巧开源项目。该项目有效解决了定制和搭建企业级推荐系统中的几个难点,包括如何将学术研究成果或开源社区提供的范例适用于企业级应用、如何集成信息检索与推荐领域的学习指导资源俩协助从业人员深入理解并实际搭建完整推荐系统、如何选择最优算法以应对具体应用场景等。

为了协助信息检索与推荐领域的算法模型的训练和优化,微软公司提供了一个大规模支持机器阅读理解和问答系统等多种领域研究的数据集,简称 MSMACRO。该数据集从必应(bing)的搜索查询记录中取样,每个问题都有人工生成的答案和完全人工重写的答案。此外,数据集包含从通过 bing 检索的 web文档中提取的百万个密码,这些密码提供了管理自然语言答案所需的信息。

使用这个数据集,本文提出三个不同层次的难度不同的任务: (i) 根据一组上下文段落预测一个问题是否可以回答,然后像人类一样提取和合成答案(ii) 基于根据问题和段落语境信息可以被理解的上下文段落,来生成格式良好的答案(如果可能) , 最后(iii) 根据给定的一个问题,对检索得到的段落进行排序。数据集的大小和问题来自真实用户搜索查询的事实,该数据集的规模和真实世界的性质使它对基准测试机器阅读理解和问答模型具有吸引力。

智东西认为,从清华大学该报告可以看出,现阶段人工智能人才总的来看美国的人才数量遥遥领先,我国人才数量在大部分领域领跑第二梯队,但与位居首位的美国相比,中国高影响力学者数量明显不足,顶尖学者相对匮乏,中美之间还存在较大的赶超空间。当前,人工智能已经成为引领新一轮科技革命和产业变革的战略性技术,我国在人工智能领域的科学技术研究和产业发展,起步稍晚于以美国为代表的发达国家,但是,在最近十余年的人工智能爆发发展期我国抓住了机遇,进入了快速发展阶段。在这个阶段,能够推动技术突破和创造性应用的高端人才对人工智能的发展起着至关重要的作用。

如何防止他人随时翻看手机微信的信息,避免生活中一些不必要的麻烦?快来试试 蜘蛛密友app ,这是目前市面上最稳定、功能最全的一款加密微信软件,也是是番茄密友的升级版本,完美适配微信//viewspace-2738768/,如需转载,请注明出处,否则将追究法律责任。

任何人都可能成为受害者,例如,新玩家可能会因为还处在适应游戏的阶段而受到侮辱和威胁,或者只是因为遇到了喜欢挑刺的队友。欺凌带来的结果也不相同,轻则导致一晚上糟糕的情绪,重则可能导致精神抑郁。如果队友或对手开始出现过分的行为,你可以参考以下方法来应对。

这听起来可能老生常谈,但是霸凌者写的任何内容仅仅是屏幕上的文字而已。你需要记住,无论是谁挑起的争斗,任何参与者都可能因为说脏话而被封号。

如果有人威胁要举报你因为你导致了比赛的失败,不要紧张。只要你不违反任何游戏规则,就不用担心被封号。游戏总有输赢,放轻松,并牢记:规则对每个人都是一样的。

如果有某个喷子说话很伤人,甚至在游戏结束之后仍旧给你带来消极情绪,不要自己一个人承受,请和你最信任的亲朋好友倾诉游戏中的冲突。这有助于你消除负面情绪,从不同角度看待这场冲突并感受到来自他人的支持。当人们情绪不稳定时,情感上的支持尤其重要。

你可以直接投诉冒犯你的人而不必过多考虑,几乎所有游戏都提供投诉机制,玩家可以举报那些行为不当的人。例如,Steam管理员号召用户举报社区成员的违规行为,他们还针对侮辱和侵犯行为进行封号惩罚。

虽然游戏厂商不会禁止喷子玩游戏,但是会对他们进行如同《黑镜》中那样的社交封闭,Steam可能会禁止这类玩家在论坛或社区中心里发帖。

在Steam或某些特定游戏中,即使欺凌者并没有被立刻封号,你的举报也会对他们造成影响,如果之后还有其他人投诉他们,这些欺凌者玩家会引起系统的特别关注。例如,Xbox,如果有玩家不断被投诉,他们可能不会被禁赛,但他们的游戏环境会受到限制,他们将只能够和其他声誉很差的玩家一起进行游戏。

拉黑具有攻击性的玩家,或屏蔽他们的聊天消息

大多数游戏平台提供了除举报以外应对欺凌行为的其他工具。你可以设置一个自动聊天过滤器来避免阅读令人不悦的消息内容。如果你在语音频道上受到骚扰,你可以将咄咄逼人的队友静音。如果你在游戏结束后仍然受到骚扰,请将冒犯你的人拉入黑名单,以防他们继续骚扰你。

退出欺凌者所在的那场匹配

我们并不鼓励在团队类游戏里中途退出,但是如果队友对你持续辱骂和威胁并导致你情绪受到严重影响,这时你需要退出游戏来保护自己。当然,如果退出游戏的话,你将失去评分和战利品,但是你的心理健康和情绪稳定相比这些更加重要。

如果冒犯者仅仅只知道你的网名,他们就无法在现实世界对你造成伤害。然而,那些”有毒”的玩家可能起初看似十分善良,他们可能会通过询问你的真实姓名、找你要照片或社交媒体主页的链接,从而向你示好。但是这些信息也可以让他们在其他网络平台上甚至在现实生活中找到你并对你进行骚扰。

在你考虑将自己的个人信息给任何人之前,你必须非常确定他们值得信任。如果一个陌生人在一局游戏的开始就询问你的地址或找你要照片,请通知管理员,他们将会进行后续处理。

你也请不要将手机号、电子邮箱地址或社交媒体账户告诉队友,你们完全可以使用游戏内部的聊天功能进行交流。

不要在你的游戏个人资料中分享过多信息。请记住,欺凌者可以通过那些信息找到关于你的更多信息。不要告诉任何人你的真实姓名、性别、居住的国家和年龄。

事实上,你在任何地方发布的任何个人信息都可能被用来对付你自己。我们建议使用我们卡巴斯基的(暂时只有英文和俄罗斯语)来检查各种流行网络服务的基本隐私设置。

最后,如果你担心IP地址会被识别出来,在游戏外遭到他人骚扰,那就通过安全连接进行游戏。你可以使用来隐藏真实IP,这样一来网络喷子便无从得知你的真实地址。

如果你正遭到欺负,应该如何应对

  • 如果你在游戏中遇到侮辱和威胁,请不要与欺凌者争吵或向他们屈服,你应该做的是:
  • 设置一个聊天信息过滤器,将负能量的队友静音,封锁网络喷子的消息从而不受他们的烦扰,然后专注于你的游戏;
  • 当你耗尽耐心时,可以选择直接退出游戏;
  • 向游戏客服举报并提供证据来说明情况;
  • 使用,不要将个人信息分享给其他玩家,无论他们看起来是否友善。
  • 间谍软件听起来可能像是悬疑电影中的情节,它们以高级政客、知名商界人士、名人为目标,而对普通民众的兴趣不高。然而在现实中,即使你不是杰夫·贝佐斯(Jeff Bezos)这样的名人,也有可能成为间谍软件的目标。比如,你的上司或对象可能会通过这种手段弄清楚你在办公室或家以外的地方会做些什么。

    无论你是否怀疑过有人可能通过手机监视你,以下三种方法有助于你调查清楚。

    如何自行找出移动设备中的间谍软件

    虽然间谍软件尝试着将它们自己隐藏起来,但是我们仍然能通过一些方法找到它们。移动数据和电池消耗过快是两个警告信号,如果你发现其中任意一个问题,请保持警惕并查出过度消耗手机资源的罪魁祸首是哪个软件。应对这种情况进行的设置在不同设备上的名称不同,分别在手机设置中寻找类似名为”数据使用”和”电池”的内容。

    如果你已经、移动网络或者地理位置等设置,但是设备仍然开启着它们,那么同样请你检查清楚哪些应用程序正在消耗数据并访问你的位置信息。如需了解更多信息,请参阅我们关于检查安卓权限的,或阅读苹果网站上关于iOS权限的。

    如果你没有在安卓手机上找到任何线索,但仍然怀疑可能有人正监视着你,检查哪些应用可以访问辅助功能(设置->辅助功能)。应用程序通过辅助功能可以监视其他程序、更改设置或者以用户的身份做许多其他的事情,因此这个权限对间谍软件来说非常有用。我们可以明确地说,辅助功能是安卓系统中潜在危险最大的权限之一。除了杀毒软件之外,请不要将这个权限授予任何其他应用程序。

    如何通过卡巴斯基安全软件安卓版找出移动设备中的间谍软件

    如果你不想手动搜寻并清理间谍软件,安卓用户请查看我们的,我们也可以帮助你找出任何间谍软件。

    由于出于具有争议的法律灰色地带,许多安全解决方案将它们归类为,但是仍然会发出相关警报,因此请一定要仔细阅读杀毒软件的警报信息。

    不过,这种方法也存在一个问题,有些间谍软件可以检测出目标设备上是否安装杀毒软件并通知使用者。如果你很担心被(比如说)爱吃醋的对象跟踪,那最好别让他们发现你的猜疑。为了帮助用户在不暴露自己的情况下找出间谍软件,我们开发了一款移动端窃听程序TinyCheck,它同时支持安卓和iOS平台。

    如何通过TinyCheck找出移动设备中的间谍软件

    我们最初开发TinyCheck是为了帮助那些家暴的受害者,但是我们很快意识到它可能有更广的用途。然而,目前的版本要求用户有一定的技术基础并愿意折腾硬件。

    这是因为TinyCheck并非安装于手机上,而是在另一个例如等独立设备上,因此用户必须将这台独立的设备设置为路由器和那些连接Wi-Fi的设备的中间人。这样做的好处是能防止手机上的间谍软件发现我们的软件。

    一旦TinyCheck安装完毕,你的所有网络流量都将经过它并被实时分析。如果你的手机有异常网络通信行为,比如向已知间谍软件服务器发送了大量数据,TinyCheck将会通知你。

    关于设置TinyCheck的详细技术要求和说明可以在该解决方案的中找到。

    为非专业人士提供的TinyCheck补充说明

    如果你不知道树莓派是什么,那你最好还是找个IT技术人员帮你配制TinyCheck。如果你能找到熟悉且完全信任的人帮忙,那就再好不过了。显然你应该避开那些你怀疑与间谍软件有关的人,如果你授予他们访问权限,他们可能会将间谍软件程序列入白名单来躲避TinyCheck的检测。

    如果你通过以上方式找出了手机上的间谍软件,请仔细考虑是否要直接删掉它。因为间谍软件的安装者将会注意到你的这一举动,这可能会让事情变得更糟。(卸载软件还可能会删除以后可能需要的证据)

    和处理所有安全问题一样,首先我们需要采取保护措施。例如,如果你被有暴力倾向的伴侣追踪定位,在对间谍软件做任何处理之前,请先联系家庭暴力受害者帮助中心(比如妇联等社区组织)。

    有时直接更换手机会比较容易,并确保没有任何人能在新的设备上安装间谍软件:

    • 用复杂的、从未和亲朋好友分享过的密码对它进行保护;
    • 立即安装,并定期扫描设备;
    • 更换你所有账户的密码,不要和任何人分享密码;
    • 只从官方渠道中下载应用程序,比如app store。

    如需了解有关间谍软件以及如何应对它们的更多信息,请访问(国内访问可能受限),它是反家庭暴力相关组织和安全社区。 全球有数百万的游戏玩家使用Origin平台从EA公司及其合作伙伴那里下载游玩最新发行的游戏,与其他用户进行交流,或者在Twitch平台进行网络直播。如果你是《战地》、《 FIFA》、《极品飞车》或其他EA游戏的玩家之一,请花几分钟修改一下账户安全隐私设置,这将给你带来更好的游戏体验并提升账户安全性,从而你可以专注于游戏竞技本身。接下来,我们将重点介绍EA平台上的一些简易的账户安全设置选项以及如何使用它们。

    重要事项:你可以在EA网站(而非Origin客户端)的账户中找到我们在此处介绍的大多数安全和隐私设置。 如果你想修改这些设置,将光标悬停在客户端或平台网站上主菜单左下角的用户图片上,然后从弹出菜单中选择” EA账户和账务”,从而在浏览器新标签页中打开EA客户入口网站以及你的个人资料。

    如何避免你的Origin账户被劫持

    首先,让我们看一下如何保护你的Origin账户免遭黑客入侵。所有的游戏账户,无论你多频繁的登入账户。因此,和其他账户一样,保证安全性总比后悔要好。

    如何修改你的Origin账户密码

    如果你的账号密码是类似于”batman1998″的字符串,黑客可以很轻松地将其暴力破解。应该是达到一定长度并且无法被预测的,同时它也应该是。

    修改你的Origin密码有以下几个步骤:

    • 点击账号左边菜单中的”安全”;
    • 点击”账号安全”下的”编辑”;
    • 点击”发送安全代码”;
    • 在新打开的窗口里,输入邮箱中收到的代码,然后点击”提交”;
    • 输入你原有的密码和更安全的新密码(两次);

    如何修改你Origin账户的安全问题

    安全问题在你忘记密码时可以派上好用场,但是完全依赖它之前请先记住一些注意事项。首先,如果你同时忘记了账户密码和安全问题的答案,你可能会面临无法登入账户的风险。其次,如果安全问题的答案很容易被找到,例如,你选择的安全问题是,”你的宠物的名字是?”,并经常在社交网络上分享你的宠物,那么如果有人成功登入你的账户并重设密码,请不要感到惊讶。这将很容易使安全问题的答案被破解。因此,请选择一个你可以记住答案但别人无法搜索到答案的问题(问题本身往往都很标准化)。
    修改你在Origin平台上设置的安全问题和答案的方法如下:

    • 点击左边菜单中的”安全”;
    • 点击”账号安全”下的”编辑”;
    • 点击”发送安全代码”;
    • 在新打开的窗口里,输入邮箱中收到的安全代码,然后点击”提交”;
    • 选择”安全问题”的标签;
    • 从下拉列表中选择一个问题,然后输入你的答案。

    现在请将答案保存在一个安全的地方,例如,的加密笔记中。我们的应用程序还将帮助你生成并安全存储复杂、可靠的密码。

    如何设置Origin账户的双重身份验证

    请使用双重身份验证作为账户安全的附加保障。这样,任何试图从另一台计算机登录的人,无论是你还是网络罪犯,都必须输入一个发送到你邮箱中或者由(比如谷歌认证程序)产生的一次性代码。

    如何启用双重身份验证:

    • 在”安全”标签页中的”登入验证”下,点击”开启”;
    • 输入邮箱中收到的一次性代码,点击”提交”;
    • 选择接收一次性代码的方式——电子邮件或验证应用程序,然后点击”发送代码”;
    • 输入你收到的代码,并点击”开启登入验证”;
    • 记下或复制备份代码,即使你无法访问电子邮件或身份验证应用程序,它也可以帮助你登录账户。

    当你从受信任的设备(有登录记录的设备)登录时,不需要一次性密码。因此,以防万一,请检查此类设备的列表(位于”登录验证”设置的下方),并删除所有不使用的设备。

    为什么需要在Origin账户中添加备用邮箱?

    保护你Origin账户的最后一道防线是备用电子邮箱。如果你无法访问主邮箱,则可以使用备用邮箱获取临时密码。

    使用备份邮箱地址的方法:

    • 点击左边菜单中的”安全”;
    • 点击屏幕底部的”新增备用电子邮件”;
    • 输入发送到你在注册期间指定的电子邮箱中的一次性代码,然后单击”提交”;
    • 登入你的备用邮箱并点击”继续”;
    • 输入你备用邮箱中收到的一次性代码,然后点击”验证”。

    现在,你的账户已受到了安全保护,但是如果有人通过Origin客户端或游戏中的bug闯入你的计算机,你的防御系统将会崩溃。因此,你需要定期更新它们,这总没有坏处,并且新版本可能包含其他功能,如果能设置软件进行自动更新则更好。

    你可以在Origin客户端中调整设置:

    • 将光标悬停在左下角的昵称上;
    • 在弹出菜单中,选择”应用程序设置”;
    • 确保在”客户端更新”部分中选择了”游戏自动更新”和”Origin自动更新”选项。

    请注意,只要有可更新内容,还应尽可能地更新设备上的其他程序和操作系统本身。

    如何在Origin上隐藏个人信息

    既然你的账户已经受到了安全保护,接下来让我们看看你的个人数据。例如,并非每个人都需要看到你的真实姓名或游戏成就列表。你可能不希望外部人员浏览你的个人资料或游戏库中的任何内容。请执行以下操作自定义个人资料的公开程度:

    • 进入EA账号入口网页;
    • 点击左边菜单中的”隐私设定”;
    • 在”设定档隐私”标签下,选择谁可以检视我的设定档和游戏库:”所有人(Origin用户)”、”好友”、”好友的好友”、”没有人”,并保存设置。

    如果你让其他用户查看你的个人资料,但又不想让他们看到你的成就或真实姓名,请同样在”设定档隐私”下,取消选中相应的方框。请注意,如果平台显示了你的真实姓名,那么在显示你EA ID的任何位置,它都将呈公开状态。

    Origin可以让任何人通过你的EA ID找到你,很不幸,你对此无法控制。但是,你可以阻止人们通过其他数据搜索到你,例如你的电子邮件地址、PlayStation网络和Xbox Live ID。为此,在设置页面上,滑动至屏幕下方”允许使用者以下列方式搜寻我”,然后取消选中以下内容:

    为了防止知道你真实姓名的人找到你,只需将你的真实姓名从个人资料中删除即可。

    如何在Origin中屏蔽某人

    如果某个用户让你感到不安,你无需修改设置即可单独屏蔽他们。被封锁的用户将无法给你传送讯息或查看你账号的详细信息。你有以下两种方法可以将敌对人员、垃圾邮件制造者和其他有害个人列入黑名单。

    • 打开你想封锁用户的个人资料;
    • 在下拉式菜单中选择”封锁使用者”;
    • 在”封锁一名使用者”文本框内输入玩家的姓名;

    如果你不小心错误地封锁了某人,你可以随时通过单击”移除”从列表中将其删除。

    如何屏蔽不感兴趣的通知消息

    让人讨厌的屏幕推送通知会破坏游戏乐趣或干扰其他事物。要解决此问题,你可以通过以下方法在Origin客户端中自行设置屏蔽:

    • 点击屏幕左下角的昵称;
    • 在弹出菜单中选择”应用程序设置”;
    • 点击”通知”标签。如果没有这个标签,请单击”高级”,然后从下拉菜单中选择”通知”;
    • 选择你想收到通知的类型,并关闭你不想看到的。

    如何控制Origin收集到的个人数据

    Origin会收集有关你、你的活动和偏好的各种数据,请不要感到惊讶。平台技术开发人员可以使用该信息来让客户端和游戏中的广告变得更加个性化。如果你不喜欢被定向推送广告,请通过以下方法将其屏蔽:

    • 进入EA客户入口网站;
    • 点击左边菜单中的”隐私设定”;
    • 在”偏好性资料使用”标签下,取消选中”EA游戏内定向广告”和”协力厂商提供定向广告”。

    你仍将看到广告,但将是随机的广告(往往更容易忽略)。

    你是否任然担心EA公司会收集关于你的个人信息?你可以要求开发人员提供存档,以准确了解他们所拥有的关于你的东西。如果你住在欧洲受GDPR的保护,你可以要求删除特定的数据。获得存档的方法如下:

    • 在EA客户入口网页中,选择左边菜单中的”您的EA资料”选项;

    大约一小时后,同一界面上将会出现一个链接,你可以点击它来下载包含有关你的数据的文件,该链接将在24小时后失效。

    一旦你按照喜欢的方式设置了Origin,请使用我们针对,和提供的设置指南,从而更加有效地保障你的账户免于受到黑客、骗子和喷子的侵害。 如果你使用计算机工作,那么很可能你需要处理大量文档:有些和金融相关、有些和科技相关、有些属于机密文档。同时,每天你可能会收到上百封电子邮件,无论你如何小心谨慎,几乎都无法避免不小心发错邮件(可能还包含附件)。

    用网络安全术语来说,这是数据泄漏。我们去年的一项研究表明,大约三分之一的数据泄漏。不仅误发邮件会造成数据泄漏,糟糕的访问权限设置也是原因之一,这也是本文将讨论的内容:从非雇主的普通员工的角度,如何和大量文档打交道,而且避免不能出错。

    我们将提供一些小建议,来帮助你有条不紊地管理数据,从而避免工作中的数据泄漏。

    通常大家都会把白天没有完成的工作带回家继续处理,但是除了人们常说的工作生活平衡理论之外,良好的安全实践也是反对这样做的。

    在公司里,保证信息安全往往是IT安全团队的责任,他们实施采用各种安全策略和服务来保护数据和计算机的安全,企业使用的这些服务往往比个人用户的工具更加可配置和安全。比如采用多个级别的数据加密而且允许企业阻拦任何文档的分享,而个人版的OneDrive没有这些特性。

    如果数据泄漏是由于错误的安全策略或者工作计算机的不安全所导致,那么责任不会落在你的肩上,而是由安全团队来承担。

    但是,一旦你将工作带回家中或者使用外部服务来存储工作文档,你要完全承担起保护信息安全的责任,并确保工作资料不会落入不怀好意者手中,而信息丢失或者安全事故发生的方式数不胜数。

    有很多情况会导致信息泄露。比如,通过;小偷你那没有密码保护的笔记本电脑;在公共场所可能会有连接访问你的手机。

    毫无疑问,通过文档进行多人协作是十分方便同时也很普遍的方式,你可以指定允许访问文档的用户。问题是,在现实生活中很多人只记得授予他人访问权限,却在合作结束时忘记将权限收回。

    比如你和一位临时雇员共同合作一个项目,在临时雇员的合同到期时你却忘了将文档访问权限收回,然后该员工加入了你们的竞争对手公司,那么你们公司的机密就会落入他人手中。如果被你组里的领导知道这事儿,后果可想而知。

    为了避免这种情况发生,你应该定期检查工作文档的访问权限设置,如果有员工离职或者被解雇,请立即检查你是否曾经授予过他任何文档的访问权限并将其收回,在临时员工合同到期时也是同理。

    不要和同事过多分享不相关的信息

    我们,30%的年轻员工和18%的年长员工乐意和同事共享工作计算机或者其他账号登录信息。幸运的是,他们是少数人,不幸的是,还是存在这样一部分人。

    首先,你的同事可能会出于不良动机故意泄漏某些重要信息, 如果这些信息严格来说只有你应该知道,那在出事时承担责任的人也必然是你。

    其次,即便没有不良居心的员工也有可能在你的计算机上无意间删除或者误发重要文档,而你依然要为他们无意见犯下的错误负责。

    因此,和同事分享信息时你同样应该保持谨慎,因为这相当于给予了同事访问信息的权限,我们之前已经说明了权限管理过度宽松带来的后果。

    你或多或少都会有将邮件发错收信人的经历吧?或者忘记将某些人从抄送列表中移除从而造成尴尬的结果?这很正常,可能是由于匆忙或者没有注意,这里有个小技巧:为了避免或者至少减少这种事情发生,你可以创建一个标签(比如”敏感”)并将它标记在所有含有敏感信息的邮件上。这样一来,当你发送或者回复这些邮件时,你会注意到标签并且重新检查收信人和要发送的消息。

    顺便说一下,还有一个你应该整理邮件的原因,每个人的邮箱中都存在一些需要定期用到的文档,花费时间来手动寻找它们非常低效,所以重新组织整理邮箱中的邮件绝非浪费时间。

    我们的调查还显示在家中和工作时的习惯存在密切联系。换句话说,如果你的家是一团糟的,你的工作场所和”数字生活”十有八九也是一样。所以无论是在工作场所还是在家生活,你都应该慢慢开始培养良好的习惯。 我们大多数人或多或少都要接触到报告、文章和营销材料之类的文档,比如:我们在计算机上编写并修改这些文档,用电子邮件将它们发送给同事或者朋友,使用云来分享它们,将它们发送给客户,等等。

    如果你要展示给他人的文件中包含他们不应该看见的信息,那么你可能会遇到麻烦,本文将讨论如何避免这种情况。

    包括密码在内的各种机密信息常常出现,而且也没有编辑工具可以完全处理这种情况。比方说,即便你用半透明刷子对敏感信息进行彻底的模糊处理,有时仅需要稍微调整一下亮度和对比度就足以暴露它们。如果想要了解图片如何无意间暴露机密信息以及如何对其进行防范,请。

    简言之,要想在图形编辑器中真正地遮挡住图片中的密码、条形码、姓名和其他机密数据,你需要记住两件事。首先,使用带有100%不透明度的工具进行模糊处理;其次,使用”扁平”的图片格式比如JPG或者PNG来防止其他人将图片分层。

    但是,如果带有机密信息的图片是嵌入在文本文档中,我们应该怎么办呢?

    假设你在即将把一个小册子发送给用户时意识到其中有一张图片含有同事的私人数据,你也许会用办公室的付费版Adobe Acrobat编辑PDF并选一个黑色的框子遮住那张图片,然后一切就搞定了,对吧?

    然而,如果你就这样把文档发送过去,客户还是有办法获取那个秘密。Acrobat并非为图片编辑而设计,而且它也无法将图片和覆盖物组合起来,因此任何人都可以打开文件并且移除图片上的框子。

    有些时候,我们很容易在文档创建时的格式中(比如DOCX)修改图片然后将它导出为PDF格式。比如你可以截取图片的一部分,被修剪掉的部分将不会出现在PDF中,很多人都用这种简单的办法来对文档中的图片进行轻微的修改。

    然而,请记住并非任何为了隐藏信息而对图片的编辑都会通过这种方法成功,例如之前使用黑框子的把戏仍然会失败。

    如果将从MS Word导出的PDF文件在Adobe Reader中打开并粘贴回Word中,你将看到原先的图片,而遮挡用的框子则会消失。

    然后轻松粘贴到Word中

    当你将Word文件导出为PDF时,原始的图片和覆盖物并不会被组合起来而是分开保存,任何被隐藏的信息仍然存在于文件中。

    微软的Word软件在图片编辑上终究比Acrobat Reader好不到哪去,如果你需要修改文档中的图片,请使用合适的图形编辑软件进行修改,然后重新插入文档中。

    微软Office文件检查器

    文档中可不止图片含有隐私信息,其他还包括页首页尾、修订记录、评论、隐藏文字和链接文件比如报告图表中用到的Excel表格等等,有时文档的作者名称都应该是匿名。简单的一个文件包含了各种琐碎的信息,忘记其中一些是很常见的事。

    为了帮助提前检测出潜在的信息泄露,微软Office软件提供了,它会扫描以上提到的所有信息,包括元数据(比如作者名称)、页首页尾、隐藏文字和嵌入对象等等。

    你可以按照以下步骤在Office 365中使用文档检查器:

    不同版本Word中设置菜单的具体名称可能稍有不同。

    如果文档检查器发现了敏感数据,它会建议用户移除或者推荐更加安全的存储选择。比如,如果你添加了Excel图表作为交互对象,该工具会建议你用一张图片来取代之,这样一来接收者仍然可以看见图表但是却无法访问原始表格。

    然而文档检查器还是无法检查图片中的秘密,因为它压根就不会查看其内容。你必须按照上述建议来手动进行检查。

    有时一个文档需要被团队中的成员们同时进行编辑,在这种情况下PDF通常不是最好的选择(由于它缺乏协作工具)。在本地使用Word文档编辑再通过电子邮件互相发送也不是一个好选择,因为这样几乎无法进行版本控制,而且整个流程也非常耗时,主要原因是人们必须轮流编辑文档。

    云解决方案可以对此提供帮助,它允许多人同时对文档进行编辑。然而,出于隐私角度考虑,请记住云办公套件会记录所有行为,而且任何编辑文件的用户都可以访问完整的修改日志。

    如果你在云文档中不小心插入了含有敏感信息的对象或者文字,即便你立刻意识到错误并将其删除,它也会存留在修改历史中因此你的同事们可以看见它。

    更改历史记录会包含已删除的图像

    即便你在发布云文件之前删除所有机密信息,任何可以访问文件的用户都可以查看修改历史并回滚到对应版本。

    用户可在Google文档回滚更改

    这个问题很好解决,如果你打算在邀请某人编辑含有敏感数据的在线文档之前将其隐藏,你可以创建一个新的文件并只从原始文档中复制那些你希望同事看见的内容。

    这里还有一个小建议:为了避免不小心将任何信息粘贴到共享文档中,你可以先粘贴到本地文件中来查看剪贴板中的内容进行确认。

    如何避免在文档中泄漏信息

    总结一下,请参考以下建议来保护隐私信息在共享文档中的隐私性:

    • 在分享文档之前仔细检查其内容;
    • 使用专用图形程序来编辑图片,用带有100%不透明度的工具来遮挡信息并将图片保存为不支持分层的格式:JPG或者PNG;
    • 小心使用任何云文档,它会记录所有文件的完整修改历史,进而允许他人恢复被删除或修改的信息;
    • 不要允许任何人访问曾经含有机密数据的文档,请创建新的文件并将非敏感信息复制过来并分享;
    • 使用文档检查器检查Word文档,以DOCX格式下载云文档并且进行同样检查;
    • 对许多人来说,智能手机已经成为生活的重心,人们在这个小玩意上花费的时间超过了和其他人打交道的时间,甚至有人十分自己的”数字伴侣”。你的手机里有大量个人数据和有价值的信息,包括照片、游戏、联系人和音乐等等。为了确保始终拥有这笔”财富”的掌控权,我们需要做一些常规的维护,就像刷牙一样,只不过这次清洁的对象是手机。在这篇文章中,我们将讨论可以保持安卓手机安全的五个常规检测。

      ,然而这些新闻中可能大多数都是关于你并不了解的公司或者服务。如果既想知晓那些可能和你密切相关的问题又想避免不必要的烦扰,你同样可以使用,我们的解决方案只会推送和你相关的安全事件,并提供应对建议。

      让我们回顾一下,并列出安卓手机和平板上几个重要的常规预防性检查:

      • 删除不需要使用的应用程序。
      • 安装所有应用程序和安卓系统自身的最新更新。
      • 如果没有设定常规的自动扫描,请手动运行杀毒软件进行扫描。
      • 遇到数据泄漏时,确保更改相关账号的密码。

      当然,这些检查会花费一些时间,但是它们能够让你更好地控制自己的手机,也大大提高了其安全性。如果想了解更多有关如何在家或其他地方与各种设备和科技相处的资源,请查看我们的博客文章”数字化舒适区”。 如果你在朋友圈上晒了一张周杰伦的演唱会门票,到后来才发现忘了遮挡住条形码,那就倒霉了——可能已经有人用着你的条形码。其实即使你,这样悲催的事情还会可能发生。

      尽管如此,记得在晒门票时掩盖条形码并非什么难事,然而晒图时压根没有意识到图中有票据或者写有密码的便利贴就是另一回事了。这里就有几种人们无意间在网上公开了机密数据的情况。

      如今,我们已经很难想象没有社交网络的生活了。每一天,我们都在社交平台上聊天、交流、分享创作、讨论最新的热门新闻等等。但值得注意的是,人们会用你的社交媒体账号来评估你偿还银行贷款的能力,或者判断你是否适合某个特定的工作岗位。

      基于个人过往行为、社交圈和喜好来衡量个人潜力的方式被称为“社会评价”。个体的社会评价和银行发放贷款时用的信用体系有一定相似之处,但它包含的信息更加广泛一些。

      实际上,已经有多个国家在各个领域内应用社会评价系统。例如纽约的保险公司就已经,能分析客户社交网络的数据从而确定保费。

      中国正在发展特色,有的人会觉得这是现实版1984,但也有人觉得这样的系统有助于提高安全性,并不可怕。那么,我们的社会和技术是否已经准备好迎接即将到来的这一切?

      人们对于社会评价的看法

      为了了解用户对社会评价的态度,我们。 以下是我们的发现。

      略少于半数(46%)的人听说过社会评价,这个概念在亚洲更为人所知。 例如,中国正在全面推行社会信用体系,因此有71%的中国受访者知道社会评价的事情,而在奥地利和德国,这一比例仅为13% 。 更重要的是,近一半(45%)的受访者表示他们难以理解是通过什么样的过程计算得到每个人的分数。 只有五分之一(21%)的人在现实生活中接触过社会评价体系(实际上有些人只是没有意识到社会评价在贷款和抵押贷款时发挥的作用)。

      但同时,多数人普遍认可社会评价的基本理念,有七成的人认为根据个体行为限制其接触公共资源(交通、教育、住房等)的程度是公平和正确的做法。

      只要有充分的正当理由支撑,大多数人不会抗拒被监控这件事。为了提高安全性,有一半的人愿意接受政府介入监控社交网络;有四成的受访者同意分享和企业分享数据以换取折扣和其他权益;仅有20%的人表示,其他个人和公共组织对他们的个人信息感兴趣的事实令人不安。

      社会评价系统的技术问题

      我们调查的大多数人都支持社会评价的想法,在他们看来,这个系统应该能提供公平公正的评估结果。然而,在目前的技术条件下,是无法实现的。

      我们只要提一个最简单的问题,你要怎么样才能追踪错误判断?现有的系统全部都是基于神经网络开发的,甚至有些开发者都弄不清楚它的运行原则,就更不要说使用者和一般公众了。神经网络在提高或降低一个人的评分时,不会说明它判断的信息基础。哪怕你工作体面,收入也不错,但只要计算机说你没资格申请贷款,你就没法得到贷款。

      用医学测试和计算机安全的术语来说,上述情况就是”假阳性”,也就是安全解决方案将一个干净的文件标记为病毒,或医学测试错误识别病人样本的疾病这样的情况。

      而在我们最喜欢的反病毒领域,不同产品之间的误报率相差极大,有些产品判断错误的频率远高于均值,另一些产品出错的概率则低得多(卡巴斯基的安全解决方案)。我们想说的是,彻底消除错误是不可能实现的。而当错误发生在影响个人权益和生命的评分系统中时,必将导致。

      除了不精确的算法和不完美的数据之外,系统也可能会被故意破解导致错误。我们的专家就全国性的社会评价系统确认了。

      很少有人愿意和家里人谈论自己在网上的事,更不要说和陌生人分享细节了。你可能会有很多不想告诉别人的小秘密,比如在服用什么药物、想给家人买什么礼物、睡前会看什么视频等等。

      但,无论你的意愿如何,其他人都会获取到这些信息。我们将详细解释有谁能看到你的互联网生活,以及如何确保个人秘密的安全性。

      超过四分之一(28%)的表示,他们非常看重通过网络搜索色情内容的私密性。

      你肯定有过这样的经历,在分享图片时希望能隐藏一些涉及个人隐私的信息。可能是提交支持工单时不想让技术人员看见截图中的个人信息,或者是想要避免婚礼照片中出现路人的脸,又或者想在朋友圈里炫耀一张,但为了避免别人盗用门票必须隐藏门票的条形码。

      但你可能不知道的是,即便照片经过模糊处理,或是被裁剪过,仍然有可能会暴露你的个人信息!我们描述了五种可能在不知情的时候就意外泄漏个人隐私的情况。

      错误1:使用Office软件编辑图片

      很多人在不经意间就用这个方式分享了个人或公司秘密。如果你要将图片插入文档或PPT,那么最方便的方法是直接在Office应用程序中编辑它们。只要插入图像,裁剪掉不必要的部分,保存文档,然后就会安心地把它交给老板或客户。

      然而问题在于,这只改变了图片在文档正文中的显示方式,但原始的图像仍然保存在文件里!其他人只要选中图像,在格式选项卡上使用裁剪工具,就能看见原本已经被你裁掉的部分。

      Word中裁剪过的图片…

      …实际上依然被完整地保存下来了

      不过,这个问题的解决方法也非常简单,你只要在格式选项卡上点击压缩图片,选择删除图片的裁剪区域即可。

      使用压缩图片工具移除敏感信息

      在Office应用中单纯使用黑色方块或其他图形效果遮挡敏感信息也没什么用处。其他人只要移开这些色块或者移除效果就能看见被藏在下方的内容了。

      任何人都能轻松删除Word文档中的色块

      接下来我们要谈的这个工具和iPhone用户有关,iOS系统中的Markup功能也是非常便利的涂改工具。如果你需要给别人发一张手机上的照片,可以用Markup编辑原图,其他人收到照片后也无法撤销编辑。但,这真的是隐藏图片信息的理想方式吗?

      很可惜,答案是否定的。其原因在于系统所提供的钢笔或荧光笔工具只能画出半透明的线条,虽然在你反复涂抹同一个位置后,看起来好像是彻底掩盖了原本的信息,但实际上,通过调整亮度、对比度和其他图像设置,就能很快。

      你确定把文字藏好了吗?

      在图像编辑器中使用半透明画笔也是同样的道理。总之,最好确保使用100%不透明的工具来涂抹隐藏图像上的数据。

      错误3:隐形的秘密图层

      为了避免彻底丢失图像中的隐秘信息,图形编辑器会将其存储在单独的隐藏图层中。对于某些图像来说算是一个方便的解决方案。然而,在网上发布带有隐藏图层的图片,特别是当你使用PNG格式的时候,可能会造成一些不必要的麻烦。

      之所以这么说,是因为当图片被存为PNG时,编辑器会将图层组合在一起,确保图层不会被分开;然而,隐藏图层的信息就被夹在了中间。虽然大多数程序不会显示这部分内容,但只要使用darktable这种应用打开图片,隐藏的图层就会被一览无余。

      使用不同的应用打开同一张图片。图片的下半部分是一个隐藏图层,但用darktable就能看到它。

      看似彻底扭曲了照片的滤镜也会泄露秘密。有些滤镜在替换显示效果时并没有删除原本的像素,因此总有人能够让一切回到原位,还原最初的图像。

      滤镜的这个特点帮助警方了加拿大的一名恋童嫌疑人。这名罪犯在网上发布了受害者的照片,并使用滤镜的旋转效果处理了他自己的脸。研究人员逆转了滤镜效果,还原了他的真实样貌。另一方面我们也需要提醒大家,即使你费尽心思想要用这种方法隐藏信息,不法分子也可以使用这种技术破解你的秘密。

      在各种滤镜和图像处理方法中,模糊和像素化是最可靠的办法,经过处理后,原本的图像信息被转换成一堆难以还原的杂乱彩色方块。尽管如此,与识别图像有关的机器学习技术一直在不断发展,经模糊或像素化处理图像的成功率也逐渐提升。

      如果你认为,将图像分解成很小的像素就能保护你的秘密,那你可能又错了。别人还是有机会看出原来的内容,最简单的方法就是缩小图像,让像素重新合在一起。看下面这个例子你就会懂了。

      如果你希望使用像素化处理隐藏图片信息,请反复调整比例,确保缩小后也无法看出原本的内容。

      错误5:留了个尾巴没藏好

      最后,如果你忘记对其他可能指向你个人隐私的内容打码,难么你的秘密就有可能会暴露在所有人面前。比如,你仔细地在社交网络主页截图上涂掉了自己的名字和头像,却忘记截掉地址栏?那么任何有心人都能输入网址查看你的资料。又或者你用黑色方块挡住了某个人的脸,却留下了他们的全名?要想通过名字找到他也并不难。

      此外,照片并不是唯一会泄露信息的载体,文件的元数据里也藏了些许秘密。对于照片文件而言,元数据会包括创建的时间和地点信息,但在某些情况下,元数据还会保留的缩略图,显示修改之前的原件。

      因此,无论你打算在哪个平台发布照片,都要先删除元数据。电脑和移动端上都有许多应用程序,可以马上清理这些信息。

      不过请注意,有些恶意软件会伪装成这类工具,所以请务必从官方来源下载工具,并避免给它太多系统权限。当然,我们还建议你使用能够发现并组织恶意软件的。

      Windows用户无需任何额外工具,清理图像元数据的方法如下:

      • 在打开的窗口中,单击”详细信息”选项。
      • 点击”删除属性和个人信息”。
      • 选择永久删除元数据,或创建一个没有元数据的文件副本。

      额外提示:只要功夫深…

      如果有人一门心思想要挖掘你的秘密,了解你的个人隐私,那么他们甚至会尝试从已经经过严格处理的照片中搜寻信息。举个例子,如果你涂改英文文本的方式是一个词一个词分开涂黑,他们就会尝试根据文字的长度和数量猜测文本内容,或者将图像保存为JPEG格式后,试图恢复的那一小部分区域。

      不过,这些方法非常复杂也不可靠,所以你生活中应该不太会遇到这样的人。但是,如果你要发布的图片所涉及的信息极其敏感,那么应该记住这些保护隐私的关键点。

      为了避免图片中的敏感信息外泄,你需要,

      • 使用图片编辑器编辑图像,只在Office文档中使用已经经过编辑的图片。
      • 确保涂抹工具的不透明度调整到100%。
      • 如果你更喜欢使用模糊或像素化工具,请仔细检查最终效果,不要露出字母的形状。
      • 在上传之前,确保图片中没有露出其他隐私内容,藏好你的电子邮件地址、社交网络网址、独特的纹身、姓名标签或其他类似的潜在标识。
      • 删除图片元数据。如果出于某种原因你想保留这些信息,那就额外复制一个专门用于分享的文件副本。在上传带有敏感信息的照片之前一定要三思。毕竟朋友圈里也不差你这一张机票图,对吧?

我要回帖

更多关于 保密的聊天软件 的文章

 

随机推荐