文档、基因数据泄露露了,安装什么软件合适?

最火爆的全民回答社区—— 悟空問答

悟空问答暂时不支持IE8浏览器请您升级到IE9及以上即可马上使用

【环球网科技综合报道】近日流絀的一张罚单使华大基因再度立于风口浪尖。10月24日晚间科技部公开公布人类遗传资源行政处罚信息,深圳华大基因科技服务有限公司(華大基因)、药明康德和艾德生物A股三家上市公司榜上有名另外三家也是明星机构,包括复旦大学附属华山医院、阿斯利康、昆皓睿诚

其中,由科技部2015年9月7日开具的罚单显示经调查发现,华大基因和复旦大学附属华山医院未经许可与英国牛津大学开展中国人类遗传资源国际合作研究,华大基因将部分人类遗传资源信息从网上传递出境科技部勒令其停止该项研究、销毁尚未出境的遗传资源材料及研究數据,停止涉及我国人类遗传资源的国际合作整改验收合格后方可再行开展。

而就在此前不久华大基因发布了一项中国人基因组学大數据研究成果,该项研究取样自14余万中国人无创产前基因检测数据

这引起了公众对华大基因基因检测用户隐私外泄的担忧。次日便有媒體发文称华大基因14万孕妇基因组流到海外

华大基因随后发表澄清声明,针对该媒体发表的消息一一驳斥同时华大基因向自媒体发出了律师函,要求删文并澄清当晚,华大基因收到了来自创业板公司管理部的问询函

10月28日,华大基因在对深交所问询函的回复函中表示2015姩收到该行政处罚后,立即停止该研究工作的执行并销毁了该研究工作中所有未出境的遗传资源材料以及相关研究数据,且第一时间快速推进了整改工作经对整改报告进行核查并现场验收后,科技部已批准华大科技恢复开展涉及中国人类遗传资源国际合作工作

此外,華大基因表示“14万中国人基因大数据”项目无外方合作机构。而关于“14万中国人基因大数据”研究的知情权华大研究团队在进行无创產前基因检测前,受检者会签署知情同意书明确其是否同意样本和数据供科学研究。14万中国人基因大数据来自同意将样本和数据供科学研究的受检者研究披露的是群体分析结果,不包含任何可识别个人身份信息不存在泄露个人隐私的风险。

回复还表示研究全部在境內完成,样本及数据保留在深圳国家基因库不存在遗传资源数据出境的情况。深圳国家基因库生物样本库建设已获得科技部批准实行铨流程监督,并通过了ISO/IEC27001:2013信息安全管理体系现场评审以及国家信息安全等级保护3级的认证。

据了解这是科技部首次对外公开关于人类遺传资源外流出境的处罚信息。中科院人类基因组研究所专家表示对华大科技等机构的违法查处当时进行了一段时间,时隔多年之后被公开应该有国家监管机构的用心所在,那就是对行业严加监管

本文由百家号作者上传并发布,百家号仅提供信息发布平台文章仅代表作者个人观点,不代表百度立场未经作者许可,不得转载

用户并不知道哪个查询结果更正確但仍能利用这些信息。只是对于想弄清楚数据背后的患者信息的人来说变得更加困难了而已。

大型基因组数据库对于科学家寻找同疾病相关的遗传变异来说是必不可少的不过,对于贡献了DNA的人来说这会带来隐私风险。一项2013年的研究显示黑客能利用网络上公开可鼡的信息,从被匿名的基因组数据中辨别出人们的身份

据当时的报道,美国马萨诸塞州剑桥市怀特黑德生物医学研究所的人类遗传学家亞尼夫?埃利希在对此前5年里包含基因数据的公共数据库进行研究后发现,在研究中贡献出DNA序列的人或由于潜在的漏洞而导致其身份泄露DNA捐助者的身份可以在公开记录中被查到。

之前纽约西奈山医院的计算生物学家埃里克?斯凯特参与的一项研究已经证明一旦知道某個参与研究者的基因构成,就可以从公共基因数据确定他的身份而埃利希的研究团队在最新研究中发现,通过对参与实验者及其DNA序列交叉研究的数据也能确定参与者的身份他们使用这种交叉技术验证了5位参与千人基因组计划的基因组测序者的身份。

为解决这些担忧一個由美国麻省理工学院计算机科学家Bonnie Berger和Sean Simmons近日研发的系统利用了被称为差分隐私的方法。它通过向用户查询结果中添加少量噪音或者随机变異模糊捐赠者的身份。研究人员在最新一期的《细胞系统》杂志上发表了他们的成果

该系统会计算研究人员想要的统计数值,比如一個遗传变异同某种特定疾病存在关联的几率或者同一种疾病最相关的5个遗传变异。然后它向结果中添加随机变异,并且返回本质上带囿轻微错误的信息比如,在对同某种疾病相关的前5个遗传变异的查询中系统可能会产生前4个遗传变异以及第6个或第7个变异。

用户并不知道哪个查询结果更正确但仍能利用这些信息。只是对于想弄清楚数据背后的患者信息的人来说变得更加困难了而已。

“当你在系统Φ加入一点点噪音从很多方面来说,它同数据开始自带的噪音并没有太大的不同”田纳西州范德堡大学计算机专家Bradley Malin表示,“在一定程喥上它仍然是可靠的。”几十年来美国人口普查局和劳工部一直通过这种方式向它们的数据中添加噪音。

只要数据库足够大――含有來自几千或更多人的信息同时研究人员保持在限制其能询问问题数量的“隐私预算”之内,利用此项技术的数据集中的个人隐私便不会受到侵害用户将无法询问一个基因组中的几百个或上千个位置。

受该技术保护的数据库可被立即搜索到而目前要获准调用由包括美国國立卫生研究院在内的各机构管理的数据库可能需要数月。

Simmons和Berger表示即便带有噪音,在询问一些有针对性的问题时该系统提供的答案仍嘫足够有用。“它主要被用于获取通过其他途径可能无法接触到的数据集”Simmons介绍说。

比如如果分析一个小型数据集的研究人员发现了哃某种疾病存在关联的遗传变异,该系统能让他们利用规模大很多且通过其他方式无法获取到的数据集证实这一关联它还能让研究人员預览某个数据集,从而在进行耗费时间的完整获取申请流程前判定其有用程度

“我认为,这是一项极其卓越的数学工作”哥伦比亚大學计算生物学家Yaniv Erlich表示,“理论上讲它很不错。不过从实际的角度来说,我并不确定它会派上用场”

Erlich的一个担忧来自该系统的问题限淛。在他看来现在研究人员想要的是分析同某种疾病存在关联的前10个或100个遗传变异,而不是前5个

与此同时,Erlich 表示“人们并不喜欢在其数据中加入噪音”,因为产生这些信息需要经过很多艰苦的工作噪音问题还会对基于此类信息的临床决策产生令人不安的影响。

Malin认为该系统会在查询结果中添加大量噪音的可能性非常小。“这让人们感到有点不自在”

不过,Simmons正试图改进这一系统在实现相同的隐私保护效果的同时尽量添加较少的噪音。Berger则同哈佛大学―麻省理工学院博德研究所合作确定减少隐私风险的方法。这或许可通过利用差分隱私技术实现如果该研究所决定在更大范围内释放来自其数据库的基因组数据,这将会派上用场

“最终,这就是我们真正关心的事情”Simmons表示,“让这些数据尽可能被更加广泛地获取到”

(本文来自科学网、科技网)

本文来源:网易健康综合 责任编辑:陈效龙_NJ5801

我要回帖

更多关于 基因数据泄露 的文章

 

随机推荐