我的iphone照片删不掉5s照片全都删掉了,但是还是显示占用了很多容量,怎么彻底清除?

大数据安全与智慧城市-五星文库
免费文档下载
大数据安全与智慧城市
导读:中国国际大数据大会,2014年中国国际大数据大会现在开始,大数据成为了继物联网、云计算之后的又一个信息产业创新热点,大数据的发展后来居上,但是我们注意到大数据的发展,如今的大数据,大数据经过2012年预热发展,安全问题怎么解决,这就展现出了大数据不同于物联网和云计算,如何去推进大数据的应用,在大数据的应用领域中,其实智慧城市也是大家值得重点关注的,我们国家的智慧城市近年来发展非常迅速,大数据的
中国国际大数据大会
“联合变革 开放创新”
时间:日下午(周二)
地点:国宾酒店
主持人:人民邮电报总编 武锁宁
主持人:尊敬的张秘书长,尊敬的方院士,尊敬的各位领导、各位专家,女士们、先生们,大家下午好!
2014年中国国际大数据大会现在开始,我是人民邮电报总编武锁宁。作为中国通信学会的常务理事,我很高兴为大家主持今天下午的研讨交流活动。
随着新一代信息技术的快速发展,大数据成为了继物联网、云计算之后的又一个信息产业创新热点。而且特别值得关注的是,大数据的发展后来居上,呈现出与云计算、物联网不一样的起飞轨迹。
我们知道,物联网、云计算,甚至在此之前的大哥大和3G移动宽带发展,在它们的起飞过程中都曾经经历过大起大落然后再缓慢发展的过程,留下了被业界公认为的嘎特纳曲线。
3G经历了全球性的3G泡沫破灭的苦恼,云计算也经历过云里来雾里去的质疑,物联网也经历过物联网物业化的一些讨论和非议。但是我们注意到大数据的发展,却呈现出稳步起飞的态势。分析其原因我个人认为,很重要的一点,就是无论是当年的3G,甚至最早的大哥大移动电话,还是后来的云计算、物联网,他们都有一个共同的特点,就是他们的问世和发展起步,技术驱动占了很大的因素。如今的大数据,就跟移动电话的2G,或者现在的宽带移动电话的4G起步一样,由于它有着巨大的市场驱动动力,所以它的起步呈现出稳步增长的态势。
中午我碰到张秘书长他跟我讲了今天上午的大会,很多专家放开稿子在这儿交流,大数据经过2012年预热发展,很快就面向应用更深入的思考,安全问题怎么解决,怎么把它用起来,在哪些领域应用,这就展现出了大数据不同于物联网和云计算,它是技术换代和由技术驱动的,而它首先有市场的需求和驱动基础,所以呈现出了可期可待的势头。
所以,我们在推动发展的过程中,业界有特别关注,如何去推进大数据的应用,就成为了大家很关注的话题。
在大数据的应用领域中,其实智慧城市也是大家值得重点关注的。因为,我们国家的智慧城市近年来发展非常迅速,虽然在这个问题上我们国家没有像云计算、物联网那样发一个国家规划、国务院重大产业创新的文件,但是它的影响、驱动,实际上已经有了比较广泛的群众性社会基础。所以,大数据的应用在这个领域中,更多的引起了关注。
为此,今年的大数据国际论坛,就把智慧城市和大数据创新,作为一个专门论坛在这里举行。我们的标题叫《大数据与智慧城市发展论坛》,邀请到了国内外知名企业、国家以及地方政府的高层次领导和九位专家,每个人20分钟,一共要做180分钟的演讲,然后我们还有半个小时的互动交流。让我们共同参与这场高水平的学术盛宴,希望通过大家的共同努力,为整合智慧城市的数据,提升智慧城市的大数据价值,推进大数据创新和智慧城市创新,发挥出积极的推进作用。
下面,首先让我们有请中国工程院院士、中国通信学会副理事长方滨兴。
方滨兴:大家好!今天很高兴有机会跟大家做个交流。因为我是从事信息安全的,那么就围绕着大数据安全做一些探讨。
我一直在担任信息安全工程师的角色,我们针对的问题包括:内容安全、数据安全、运
行安全、物理安全。作为任何一个信息系统,它都应该符合这么一种趋势,比如说物联网设备层的是传感器,系统层重点还是以传输为主,在数据层因为数据不能被别人截获,所以相当于是数据保护,在应用层,很多应用是反馈在控制上的,比如智能家电。
同样云安全也是这个问题,在物理层就叫可靠的云,在系统层就是安全的云,不能被别人攻击了,在系统层应该是可信的,不能侵害别人,否则我把我的手机通讯录备份到云上,然后我用的时候再下载下来,结果我备份给你你把信息卖了那就不行。
根据这一点,我说大数据也是这样的,因为大数据的量足够大,所以就需要很大的计算平台,这个平台往往就是云。在系统层有个计算的问题,因为你的计算要有很复杂的算法。你在数据层,数据从哪来的,数据本身会不会被云平台所篡改。所以,对大数据我是按照这个层面往下展开的。
大数据刚才我说了,有这么四个层面:应用层、数据层、系统层、设备层。就设备层而言,它的核心问题在哪呢?你一定要放在云上,因为数据量大所以设备量也大,设备量大的话它的可靠性马上就降低,因为我们说平均故障率如果是个常数的话,量越多平均故障的概率马上就降低了,降低了怎么办?就需要应对个问题,所以我们说它在设备层上存在这样的安全问题。
但是,这个安全问题本质上就是云的可靠度,我们说是在研究大数据安全,其实就研究到了大数据的环境,而大数据几乎没有概念,当然有的人说我有四大系统,就像美国的泰坦号,国家安全局去处理情报信息。
大数据系统,由于这个系统资源太集中,所以攻击的效率就很高,黑客攻击一个小机器效率不高,如果能攻击到大数据所在的环境,那他所获得的数据机会就多,所以要抵抗高处不胜寒。再一个数据量大计算也复杂,这样会导致计算崩溃掉,还有个正确性、稳定性问题要考虑。所以,本质上它还是跟云有关。
在数据层也一样,大数据放在哪呢?肯定放在云上,现在我们脑袋一想最大的平台就是云,不是简单一个单位能够承受得了的设备。放在云上数据所有权是你的,而承载运行者是别人,所以操作权和所有权是分开的,分开就麻烦了,云那边的把你的数据拿出来卖了怎么办?我们知道有300多个电信人员被抓,就是因为卖个人信息,你的个人信息从哪来的啊?如果从用户库里来的那不是很麻烦吗?所以,这个问题说来说去还是云平台的问题。
但是有一点,这也是大数据支撑的,跟云平台有关。也就是大数据的可信,我们知道大数据的特点是数据来源比较庞杂,甚至数据来源不好确定源头,比如说社交网络,每个人都在说话,汇聚到一起就成了大数据。还有买卖沟通的信息,买完之后你要给他打分,或者我们住一个店然后你给他评价,确实是你评价的,但是有的是恶评,本来很好就说很差,或者本来很差,因为我是股东就说它很好,这叫恶评。
还有应用层,很多人讨论的时候,大数据的安全似乎就是云的安全,你把云的安全解决了大数据的安全就解决了,我说那还不对,大数据本身肯定用于挖掘,我们说大数据有四个V,其中价值的意思是什么呢?它的价值被隐藏的很深你去挖掘吧,但你这么挖掘可能挖掘出隐私来。那怎么办?过去我们没有想到有隐私问题,但由于有了大数据隐私问题就冒出来了,我专门做过这个实验,到网上查,我所某项目获得了国家科学进步一等奖,那我就一定要把某找出来。如果只有变量没有公式是求不出来的,那我就找到这个所所有的人,出过什么文章,研究过什么,最后发现是一个军事的项目,就这样被挖掘出来了,全都是在公开信息上挖掘出来的。每个人都觉得我说个某就不是隐私了,其实通过所有信息就能够求解把这个秘密挖掘出来。
物理层,这是环境安全问题,这么大一个系统宕机了怎么办?当然如果说数据还在就罢了,如果数据都丢了,这无疑就相当于911事件,我们知道911有个楼一半企业没有数据备份,这样就倒闭了,而有数据备份的企业照样还生存。所以说,如果说大数据给你,全依赖
你,你宕机了,那我这个企业就完蛋了。
那我们要解决什么呢?解决抗打击性,我知道你在打我但是打不垮,还有可生存能力,我可以降级使用或者从容应对等等。比如说,基于多副本的分布式容灾技术,我先设一个参数为3,当然也可以设参数为5,这样我每发一个数据就会自动拷贝,就形成了一种容灾体制。当然了,容灾这个环境是有个大前提的就是异构,你不能把所有的数据都放在这三个里,这会导致什么呢?导致相关性,如果ABC都换了这三个都没了,这个放在ABC那个要放在DEF,不会出现什么都没有的情况,所以这就叫异构。当我一个数据丢失另一个在别处的数据还存在,当然我还可以探查到丢失,比如说我在这儿,我说小于三了,那我就把谁小于三再补上,这就是非常典型的。
再比如说亚马逊他们做的容灾系统,这个也是一样,我提交的信息给服务器,服务器要有N个备份服务器,你给它所有的信息都会做备份,当然了这个备份要有个大前提,你不能在同地备份,如果同地备份停电了出现问题就会全部没了,什么叫备份呢?用电都不能用同一家,这儿用火力发电那就要用水力发电,这边用曙光的设备那边就得用浪潮的时候,大家得异构,这样大家才不能出现同样的问题,这样备份才有意义。因为自己的特殊原因坏了的话,因为大家都是异构的,另外一个就不会跟你有同样的问题,这样就能保证信息的安全性。
我们看可生存,这涉及到检测能力,Hadoop就有这个特性,你要实时告诉我你在运行,就会找闲置机器分配。但突然有一个系统崩溃了,崩溃了你就不会跟他说话了,他一收集有一个没跟他说话,他就会查出是不是向它分配任务了,这样就可以自动把有问题的切除了,让它以后不再参与。
我们OpenStack有个高可靠性服务,它的特点是大家完全同步运行,我这个队列做的什么事儿那边实时同步备份,这样只要你出现了问题,把你切掉另一个自动就会完全无缝备份。
运营层,我们有计算安全的问题,我们说Google就出现过这个问题,Google邮箱因维护不当爆发了全球性故障,当然他没有特别公开的讨论这个事件,从报道能够看出来,原因就是为欧洲的大数据中心进行维护的时候,有些新的程序有副作用,这个副作用会扩散,结果导致出现这样的故障。那么我们计算安全要解决什么问题呢?因为你的信息系统装了大数据,所以有可能吸引黑客,所以你要能够抗攻击。高可用,高负荷的时候你也要保证能运行。再一个要保安全,你的软件要绝对稳定,我们知道历史上出现过很多这样的事情,整个登录的系统崩溃了,所以大家都能登机,这样就导致了很大的问题,这都是软件带来的问题。
举个高可用的例子,同样Hadoop在传输的时候,首先这是一种断线还能续传的,你的系统如果被攻击了,他就不能够提供服务,这种情况下系统就会自动重新定位,而且会记录你刚才传到什么程度,然后继续会续传,这样就解决了问题。
再比如说抗攻击的问题,我这个系统一定要有互相摆渡的能力,一旦我发现某个节点不响应,信息一定要全面转向另一个节点,因为我们知道指针是有互相定向的,这样这些定向就都得通知到,这样就解决了问题。
再一个高可用的例子,我们叫做元数据的节点,基于位置感知的失效恢复。我的数据存储本地、远地都要有父本,而且这样才能保证某一个坏了那个还存在。这样的话,一旦我写信息的时候就要按照父本,本地、远程都有备份。这样,当我的客户要读取这个模块的时候,首先是就地读取,如果读不到就会另找路径读取,这个父本还要从远程传回过来。
再有一个高可用的例子,我们说这是一个基于定向和操作系统的日志可用性。也就是说,因为它是假设软件出问题,而不是假设硬件出问题,这个软件出问题另一个软件还在,所以我们在这儿每一件是要把元数据识别出来,某一个软件出了问题,它就会把这个原始信息恢复回去。
再看数据可信的问题,我把数据给你,我相信你,结果被别人拿走了,所以可信度就降低了。所以,要解决的是加密性问题,我这个数据你拿走了也不能利用。再有就是可用性,
你这个原始数据应该是可用的,不应该是恶意的。还有密文运算,现在我们只能做算数运行,比如我们要做PC操作现在还不支持,比如我想在密文里搜索我想要的东西那还搜不到,如果能搜到就说明这是假的加密。
再有是隐私保护的问题,比如我的数据都放在这里当然都是加密的,允许两个用户,比如说北邮最重要的信息放在里面了,所以校长们都可以读,但是有一天我辞了,换了一个校长,所以我就不能再读了,我不能再读怎么办呢?难道你们再重新做加密?这样就太麻烦,所以现在采取的办法就是再加密,完整云嘛,存储量我们假设是无限的,二次加密就不给上一任校长钥匙了,北邮这些重要信息就看不见了。
完整性的问题,主要担心的是我给你数据你改了几个,这怎么办呢?所以我就说,当时我说我用我的笔记本,你的笔记本和我的不兼容,所以我没法显示,所以演讲最好拿自己笔记本自己做的东西才可以显示。我这儿想说的是什么呢?我要关心你的数据有没有变化?怎么关心呢?我把我的数据加密给你,同时产生100个数据数,然后我把每个数据数和我做个加密留下来,如果他把其中改了任何一个,他的结果一定跟我不一样。那为什么通过数据数的方法呢?直接给我不就行了吗?因为我对云不信任。我得看看这个数据是不是还在你手里?首先我得做加密,但这是片段,因为我不知道哪块在哪块不在,出现了问题,一般云是允许出现了一些小鼓掌的,但我要知道哪部分是存在的,所以就要产生局部的完整信息,这个从哪到哪,那你说它事先做个准备,问题是他事先不知道你要从哪到哪,比如你给他一个T的信息,你说从第200M开始到201M,这种穷举,所以他没法做。
当然了,还有可恢复性证明,首先我们知道我们的信息都是有校验的,但是一加密这个校验怎么办?这就有点儿乱,所以我要把我的信息事先切成N个块,我再把N个块合在一起形成新的加密块,把这个加快密交上去进行验证,因为每个块的索引我都是知道的,去找他要这个索引,如果这个索引是对的,我就知道应用这部分了,一旦某一部分坏了我就知道可不个恢复了。
最后一个是隐私保护的问题,这个故事是这么说的,一个男人带着16岁的女儿,收到了一堆婴儿用品的打折券,他就很生气,他就打电话投诉,我一个孤寡的人,又没有女朋友,家里一个女儿,你给我寄这个让邻居看到是羞辱我。经理一看出现这个问题,赶紧到他家道歉,而到他家主人说对不起,这不是超市的问题是我的问题,是我16岁女儿怀孕了,为什么知道女儿怀孕了呢?这就是根据女儿在超市买相关东西被计算出的结果。
我要提交这个信息,你说我去买个东西不提交信息怎么可能呢?我一刷卡就被记录了,当然我要想不让他记录的话今天用这个卡、明天用那个卡,污染它。那么,怎么解决又得服从提交数据的原则,同时你还不至于挖掘我的隐私信息?这是需要解决的,我们说物联网需要解决的问题,我们知道360研究一个手环,小孩跑到哪就可以定位,那我要想绑架你的孩子也知道他在哪了,那怎么办呢?说那我能不能通过一个认证,别人不能查只能我查,问题是你360知道我孩子在哪啊,360的员工想绑架我的孩子我不照样有问题吗?所以,这个问题就得有个解决方法。所以我提出来,像这种事儿就需要变通,比如我这个孩子的手环用的时候要输入一个数码,只有父母能够看到真实的信息,其他人访问的是另外一个地方的数据。
举几个例子,因为我的数据要提供给别人使用,比如腾讯就把他们的信息做了个处理,像新浪也做了这样的处理。一个最经典的处理方式就是把所有的隐私做替换,这样你在挖掘的时候就不知道是谁。当然了这样的问题也很复杂,像AOL就干过这个事儿,他把搜索结果公布,他说某某索过化妆舞会、单身男人、变质茶叶,等等,查过这样的信息,那么这个人就会被找到,通过一查这是个62岁的寡妇。
还有搞数据扰动,比如我的医疗信息,我知道年龄、性别,说这是某某单位工信部电管局去体检了,你有几个这样的员工,一下就被找到了。所以,往外发的时候要做一些变换,插入很多额外信息,这样就会形成关联关系,就把信息错开了,明明是在这儿,但外界看到
包含总结汇报、资格考试、考试资料、办公文档、IT计算机、旅游景点、计划方案、专业文献、教学教材、出国留学、文档下载、外语学习以及大数据安全与智慧城市等内容。本文共7页
相关内容搜索如何正确认识大数据的价值和效益?
  【中国安防展览网 企业关注】大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程。首先从&信息时代新阶段&、数据文化和认识论的高度阐述了对大数据的理解;接着通过对驱动效益和大成智慧的解释,探讨了如何正确认识大数据的价值和效益,并从复杂性的角度分析了大数据研究和应用面临的挑战;最后对发展大数据应避免的误区提出几点看法。    1、大数据兴起预示&信息时代&进入新阶段    1.1 看待大数据要有历史性的眼光    信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现&大数据时代&的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。    考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。    1.2 从&信息时代新阶段&的高度认识&大数据&    中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。    中央提出中国进入经济&新常态&以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述&新常态&的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。    大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构&第三平台&是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、&第二次机器革命&、&工业4.0&等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。    1.3 大数据可能是中国信息产业从跟踪走向引领的突破口    中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个Top10互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。    但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。    2、理解大数据需要上升到文化和认识论的高度    2.1 数据文化是一种先进文化    数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。    有人将&上帝与数据共舞&归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。    提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。    2.2 理解大数据需要有正确的认识论    历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,&科学始于观察&成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。    20世纪30年代,德国哲学家波普尔提出了被后人称为&证伪主义&的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例&证伪&,因而他否定科学始于观察,提出&科学始于问题&的著名观点。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但&科学始于问题&的观点对当前大数据技术的发展有指导意义。    大数据的兴起引发了新的科学研究模式:&科学始于数据&。从认识论的角度看,大数据分析方法与&科学始于观察&的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调&相关性&的时候不要怀疑&因果性&的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:&采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识&。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的&针&是什么?这海里究竟有没有&针&?也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,&科学始于数据&与&科学始于问题&应有机地结合起来。    对&原因&的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到&终极真理&。在科学的探索途中,人们往往用&这是客观规律&解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。    3、正确认识大数据的价值和效益    3.1 大数据的价值主要体现为它的驱动效应    人们总是期望从大数据中挖掘出意想不到的&大价值&。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用&蜜蜂模型&:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。    电子计算机的创始人之一冯&诺依曼曾指出:&在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。&我们不必天天期盼奇迹出现,多做一些&颇为朴实&的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓&啤酒加尿布&的数据挖掘经典案例,其实是Teradata公司一位经理编出来的&故事&,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。    有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。    他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。    3.2 大数据的力量来自&大成智慧&    每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。    数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的&大成智慧学&[5]。钱老指出:&必集大成,才能得智慧&。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调&无缝智慧(Seamless Intelligence)&。发展大数据的目标就是要获得协同融合的&无缝智慧&。单靠一种数据源,即使数据规模很大,也可能出现&瞎子摸象&一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。    大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的&烟囱&,而是像环境、能源科学一样的横向集成科学。    3.3 大数据远景灿烂,但近期不能期望太高    交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。    大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持&指数性&增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hypecycle),最后可能进入良性发展的稳定状态或者走向消亡。    需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。    4、从复杂性的角度看大数据研究和应用面临的挑战    大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。    集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的&新三论&,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。    大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。    4.1 数据复杂性引起的挑战    图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观&涌现&规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。    4.2 计算复杂性引起的挑战    大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。    传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何&算得快&。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何&算得多&。从&算得快&到&算得多&,考虑计算复杂性的思维逻辑有很大的转变。所谓&算得多&并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。    基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。    4.3 系统复杂性引起的挑战    大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。    大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓&昆虫纲悖论&。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。    大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由&大象搬木头&转变为&蚂蚁搬大米&。    5、发展大数据应避免的误区    5.1 不要一味追求&数据规模大&    大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。    一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。    发展大数据不能无止境地追求&更大、更多、更快&,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的&污染&和侵犯隐私等各种弊端。    5.2 不要&技术驱动&,要&应用为先&    新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继&大数据&以后,&认知计算&、&可穿戴设备&、&机器人&等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上&技术驱动&的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持&应用为先&的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。    5.3 不能抛弃&小数据&方法    流行的&大数据&定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是&小数据&问题。我们应重视实际碰到的问题,不管是大数据还是小数据。    统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。    大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。    5.4 要高度关注构建大数据平台的成本    目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。    我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。
(来源:CCF大数据专家委员会)
@中国安防展览网AFzhan
扫一扫,官方微博互动多
微信号:AFzhan
扫一扫,安防讯息尽收眼底
全年征稿 / 资讯合作
联系邮箱:
更多相关信息
版权与免责声明
凡本网注明"来源:中国安防展览网"的所有作品,版权均属于中国安防展览网,转载请必须注明中国安防展览网,/。违反者本网将追究相关法律责任。
本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
免费注册后,你可以了解安防行业更多资讯查看安防行业供求信息凸显安防行业自身价值
想快速被买家找到吗只需要发布一条商机,被买家找到的机会高达90%!还等什么?
人类的照明经历了从最初的明火灯光,到白炽灯和HPS照明灯光,再到近几年兴
大厂的持续扩产使得中小企业被逐渐淘汰出局。进入2017年,LED芯片行业市场
近日,权威市场调研机构IHS发布2016年全球视频监控设备市场研究报告。那么
近年来中国LED市场正快速崛起,中国已经成为全球LED产品输出强国。凭借中国
目前,部分城市的智能交通管理已达到较高水平,道路信息发布、停车引导,路
感染全球150多个国家的Wannacry勒索病毒事件刚刚平息,Petya勒索病毒变种又
6月14日上午9时多,北京市朝阳区工体西路路口。正值早高峰,人流、车流如织
钱塘江边价值千万元的豪宅突发大火震惊网络。大火中,阳台烧穿,3个小孩和
对于国家质检总局发布的报告,相关知名家用智能摄像机制造厂商“按捺不住”
日,“2017智慧安防项目接洽会-兰州站”如期在甘
2017智慧安防项目接洽会-成都站会议成功召开
狄耐克亮相2017智慧安防项目接洽会-重庆站
2017智慧安防项目接洽会-重庆站会议圆满成功
倒计时一天 2017智慧安防项目接洽会-重庆站
安企智慧项目不断 送来一份安全保障
数字化、智能化成主流 企业如何构建智慧安防
安防刮起最炫民用风 产品技术保驾护航
科技引领安防智能化 高挂创新云帆再启航
  总结与分析2016年的得与失,中国安防展览网作为专业安防
  日,&2017智慧安防项目接洽会-兰州站&
  6月15日13:30-17:30&2017智慧安防项目接洽会-成都
  6月8日&2017智慧安防项目接洽会-重庆站&取
  6月,又进入一年一度的高考时刻,那么,2017年安防又有
将于日—7月2日在内蒙古国际会展中心举办 “2017
2017第十六届中国国际消费电子博览会
2017司法警用装备暨监狱防范技术设备展览会
2017第十二届北京国际社会公共安全产品展览会暨公安信息化建设与大数据技术应用论坛
第六届西部(甘肃)国际公共安全防范产品及智慧城市警用反恐装备博览会

我要回帖

更多关于 陈思慧被删掉了照片 的文章

 

随机推荐