大外贸邦数据有用吗对教育真的那么有用吗

教育大数据需要有效使用
美国非营利性组织“数据质量行动”(Data Quality Campaign)近期发表报告指出,虽然美国各州教育大数据保持发展,但单纯的数据收集并不足以帮助教师和研究人员有效使用数据信息,帮助学生取得实质性进步。
本报讯(李琦)美国非营利性组织“数据质量行动”(Data Quality Campaign)近期发表报告指出,虽然美国各州教育大数据保持发展,但单纯的数据收集并不足以帮助教师和研究人员有效使用数据信息,帮助学生取得实质性进步。
基于各州教育大数据发展情况,报告呼吁突出四个方面的政策优先方向,包括明确学生发展目标,通过有效利用相关数据,监测学生发展情况,确保相关教学活动围绕发展目标开展;在数据使用及基于数据制定对策方面,给予教师和学校领导者自主权,提供培训机会及支持措施;准确说明采集学生数据的原因和用途,保证公开透明;在保护学生隐私的同时,为家长和教师提供获知学生信息的渠道。
《中国教育报》日第5版
作者:李琦
编辑:新语
扫码变身小作家
惊喜大礼抱回家
未来网为中央新闻网站&如有新闻线索请发至邮箱:
来源:中国新闻网  11:11
来源:中国新闻网  11:08
来源:环球网  11:04
来源:中新网  10:51
来源:中新网  10:49
来源:环球网  10:04
版权所有:共青团中央网络影视中心信息网络传播视听节目许可证0105108号 京ICP备号-1
&&|&&&&|&&客服电话:010-关于教育大数据,你是不是也有这些困惑?
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。
麦肯锡在2011年发布的研究报告——《大数据的下一个前沿:创新、竞争和生产力》中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。
日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。
在教育领域,耶鲁大学、哈佛大学、斯坦福大学等世界知名高校也启动了教育大数据相关研究计划。
而中国作为世界上教育规模最大的国家,随着信息和网络的发展,海量的教育大数据将不断产生,如何科学利用这些数据资源成了关键。在此之前,有些困惑也许你需要解答。
教育大数据就是很多多多数据?
不是很多多多多多的数据简单累加在一起就可以称为大数据。大数据其实是相对于小数据的一个概念,它具有交叉性、融合性、流动性和跨领域等特征。
教育领域大数据应该还具有以下三个特点:
1.数据是从学生、老师、家长多方采集的(Multi-informants)
2. 数据是通过多种科学手段采集的(Multi-methods)
3. 数据不是仅局限于某一个层面,而是涉及多个层面(Multi-dimensions)
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
大数据在教育领域有哪些应用?
我们不妨从使用者的角度出发,针对不同层次的需求,我们可以看到,大数据主要在以下三个方面发光发热——
1. 适应性教学:最为常见的适应性教学系统来自在线学习领域。在各种学习管理系统和在线学习平台中,学习者的学习过程能够得到完整记录。
2. 教育规律发现:在大数据的驱动下,教育研究将出现不同的态势,通过挖掘、分析教育大数据,研究者可以量化学习过程,表征学习状态,发现影响因素,找到干预策略,从更深的层次揭示教育规律。
3. 精准管理支持:通过系统化数据采集,采用科学方法建立的数据模型,可以帮助教育管理者对学校和机构的管理状况进行持续动态监控和综合性评价。
至于说具体的应用,比如在美国纽约州,有一所名为玛丽斯特的学院(Marist College),它与商业数据分析公司Pentaho合作发起了开源学术分析计划(The Open Academic Analytics Initiative)。
该计划基于Pentaho的开源商业分析平台(Business Analytics Platform)开发了一个分析模型,通过收集分析学生的学习习惯——例如点击线上阅读材料、是否在网上论坛中发言、完成作业的时长——来预测学生的学业情况,及时干预帮助问题学生,从而提升毕业率。
而另一所建于1982年的伊萨卡学院(Ithaca College),更是大胆——用大数据来择优录取学生。
自2007年起,该学院为申请者设立了一个类似Facebook的网站IC PEERS,让申请者得以通过网站联系学院教师和彼此。
伊萨卡使用IBM统计分析系统来收集IC PEERS上产生的数据,研究拥有怎样网络行为的学生更有可能选择就读伊萨卡。收集的数据包括申请者上传了多少张账户照片、拥有多少名IC PEERS好友等。
研究人员认为,这能反映出申请者对这所学院有多感兴趣。
教育大数据的未来?
我国是在2015年才正式启动国家大数据战略,涵盖政府、农业、交通、教育、金融等多个领域。
十三五期间,大数据与教育核心业务的融合,将成为驱动新一轮教育改革与发展的创新动力。
有专家表示,教育大数据将呈现如下发展趋势:教育数据的开放程度不断提升、教育数据资产规模逐渐壮大、教育数据创新应用效应逐步扩大、教育大数据行业生态逐步完善、教育大数据专门人才培养备受重视。
而同时,社会企业等第三方的参与,给予了这个领域更多专业的技术与创新的方式,让大数据和教育的结合有了更多可能。
借助大数据的力量,教育正从经验化走向数据驱动的科学化,教育的管理正从不可见、纯经验式的走向一种可视化的、数据驱动的发展模式。
[1]. 翁灵丽,论大数据驱动下的教育评估特征
[2]. 刘凤娟,大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示
[3]. 吴忭 、顾小清,教育大数据的深度认知、实践案例与趋势展望——2017年"教育大数据应用技术"国际学术研讨会评述
[4]. 杨现民、唐斯斯、李冀红,教育大数据的技术体系框架与发展趋势——“教育大数据研究与实践专栏”之整体框架篇
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点大数据等于大忽悠吗?
  “大数据”实际上现在是一个非常重要,非常热的词汇。22年前我开了一门课叫“数据分析”,冷的不能再冷了。现在突然热了,甚至热得让人受不了。
  大数据实际上有三个主要的理解:大数据确实带来了大的机会;大数据本身非常像大忽悠;大数据也引来了大风险。我的演讲主题从这三个点上展开。
  大数据带来大机会:各行各业突飞猛进地运用打大数据&  &
  先说大数据。大数据到来之后,包括电子商务,零售企业,交通运输,信息产业,公共卫生,教育以及生产企业对零部件的监测,各个产业实际上都在突飞猛进地运用大数据。在这当中,在全球范围内形成了很多重要的案例,我简单介绍几个。
  在大数据领域做的最好的一个公司叫Target。它用抽样调查和大数据结合,构造了整个智能的广告推送系统,做得非常非常好,后面我会用一个案例来讲。
  有一个在全球范围内影响力非常大的公司叫TESCO,在中国叫乐购。它用的是一个抽样实验加分析,然后进行大数据推送。TESCO能够保证任何一个人只要在这里有了一个完整的消费之后,你出来的那一刹那看到的广告和你进来时是完全不一样的。因为他会根据你的需求来推送完全不同的东西。但是大家也要注意,这当中的前提是实验。TESCO每天都在进行上百个实验。
  另外一个是大家都比较熟悉的服装品牌ZARA。ZARA玩的是一个比较传统的方式。它用视频监测,不仅仅看你是否偷了衣服,更重要的是记录你的行为。每一个店长就是调查员,每天收集几千个数据,找寻消费者的需求,这也可以叫调查。历时很长的话就有数据量的影响。
  在整个信息产业当中,尤其电商中做得比较好的是亚马逊。它在大数据应用中最典型的传统的方式是行为痕迹的建模和文本挖掘的结合,构建它的数据系统。
  还有一个是沃尔玛。它花钱买了一个不到100人的做社交大数据分析的公司Kosmix,同时还建了一个仓储的大数据工具。这是几个非常典型的国外的例子。实际上国内也一样,我本人参与了几个。
  我们理解大数据的时候可能都知道一个概念叫“尿布与啤酒”。实际上这个案例在那个时代还没有大数据的情况下,用零售数据发现了某种规律,然后用传统的思想研究陪伴购物构建出来的。但是现在来应用这种方式,只要我们把这些信息补全之后,构造的连带关系的分析和购物篮的分析要远远超过“尿布与啤酒”。
  我们看下面的案例,假设一个人买了A牌的卫生纸,B牌的护手霜,他买C牌牛奶的可能性是其他人的4.84倍,买某种饼干的可能性是其他人的4.82倍。如果他买了某种牌子的盐,那他买某品牌香烟的可能性是其他人的4.44倍。这只是把它截断出来,实际上这个数据是一个非常长的购物篮技术。在这类分析中,实际上我们会发现它本身依赖的确实有大数据的源头,但是真正在分析当中也会面临其他问题。所以,我今天更重要的是要讲大数据与大忽悠。
  现在“云”很多,到底是浮云还是真正的计算云不好说。如果我们要分析的话,大数据引领的一个时代是一个非常有意思的事情。在没有总结总体性规律的时候,我们直接对个体进行理解,这实际上跟我们常识性的学术研究的逻辑相违背。这种方法简单、实用、粗暴。实际验证的结果不一定有效。后面我拿谷歌的案例来看。
  现在有一本书很重要,叫《大数据时代》。书里有两个非常值得商榷的观点,一个是对抽样的极端蔑视,另一个是无原则地推崇相关。我会在后面把这两个点进行比较详细的展开。
  大数据引来的大风险:到处都是假规律&
  实际上大数据带来了几个非常重要的风险。
  第一是计算速度。现在速度快极了。Hadoop速度非常快,是调取、存储和归整数据的极好的工具。但是对挖掘数据来讲,这个工具并没有那么好。前一段时间,我们做了一个历时半年的900万用户的智能手机使用习惯的研究。在数据建模的时候我们发现,计算速度实际是一个非常大的问题。我们把16台顶级服务器连成一个超级计算机,在这个基础上把模型建好,运算全数据的过程花了整整21天。我相信航天这些的运算速度没有问题,但是学界的,商用的的东西中,计算速度存在着非常大的问题。
  第二,海量数据非常危险。只要玩大数据的人会发现到处都是假规律。我拿一个小数据,比如五千个样本做一个非常简单的线性回归的时候发现有三个变量线性显著。但是没做任何变化,把这个变量复制倍,显著的比例可能五个了,到33万的时候可能所有变量之间的关系都显著了。问题是统计上都显著了,但所有这些结果都是错的。当数据运算量大到大约33万到70万之间时,我们会发现一个非常重要的哲学问题。这个哲学问题是什么呢?——万物都是有联系的。这件事情非常可怕非常麻烦,到底什么是真的规律? 1970年有一个学者安德森说过“多带来不同”,那个时代提出这个观点非常好。但是现在“多”带来的真的是不同吗?带来的是迷茫,自我高潮和假规律。这点非常危险。
  斯坦福大学的Trevor Hastie说了一句著名的话,“在稻草里找一根针”。问题是很多稻草长得跟针是一样的,这是所有大数据研究面临的最大风险。数据太大之后带来的实际上是规律的丧失和失真,所以千万不要忽视了抽样。我们在900万用户的分析中,如果当时直接拿出900万的数据,用6个月的时间,进行移动互联网行为建模,估计到今天我这个模型也建不出来。我们用的事不断探测的过程办法,等于先在里面抽了40万,然后在40万中又抽了2000人做问卷调查,来理解这套数据的逻辑。用40万进行常识性建模,然后再在900万中进行建模,再优化它,形成最后的结果。不要忽视抽样,不要因为我们有了大数据就把传统的知识去掉。&
  第三个风险也是非常重要的。现在的数据是断裂而封闭的。比如腾讯说我有全数据,你是很全,但你到底有没有百度的?有没有京东的?阿里的?如果没有怎么谈得上全呢?最近出现了一个好的形象性的词汇——“数据孤岛”。我们在喊大数据的过程中形成一个个数据孤岛,在这些孤岛没有打破之前,我们基本上谈不上“全”这个词,更甭说这个数据内部的断裂结构。
  第四个风险是缺失。对所有的大数据来讲,分析一个小问题的时候,数据量都不大。几百万,一千万,这个数据量都是可控可选的。对于所有人来讲,要是进行一个全分析时都是缺损永远多于数据。在这种建构过程中,在数学统计学上有两个很重要的词,一个叫技术矩阵,一个叫程序矩阵。单独分析都问题不大,最怕的是这两个混合。微博、微信合在一起一定是容易的。但是微博和一个非常小的技术合在一起,就是一个信息一个技术,怎么分析它?这点难度是极大的。
  大数据时代真的是来了,它教育了一种观念。所以,我觉得《大数据时代》这本书非常好,我要求我的学生必须读,但是在批判的视角下读,因为里面有一些比较危险的结论。
  大数据本身很像大忽悠:精准营销如何变成了精准骚扰?&  &
  第二个要讲忽悠的问题。我们实际上没看明白几个词,数据整理、展示、描述和挖掘是完全不同的概念。整理、描述、展示一个数据,用CRM、ERP很容易,它是简单问题。但是挖掘是一个复杂问题。如果我们整理数据会发现有一些所谓大数据模型是这样的:用一个模型代替重要的发展用户。但是问题是同样一种行为或者同一个人,我们的想法完全不一样,怎么可能用一个模型能够替代了呢?这个实际上你会发现它就是一个空中楼阁一样,因为只见数据不见人是非常危险的。
  数据展示形成一个非常重要的流派叫数据可视化,我对这些朋友心存敬意。因为国外的可视化技术到最后基本上是艺术。漂亮吗?很漂亮,但是得出了什么结论呢?谁粉丝多谁转化率高。于建嵘老师比我粉丝多多了,他的转发量一定比我高,转发率呢?可视化的感受非常好,但它只属于展示,并没有分析内在的规律。
  我们曾经做过一个简单的抽样调查。我们建模分析的是2003年淘宝在全中国运行之后,对中国网络带来的影响。这个时候总共用一张图展现不了,得用16张图展示一个现象。我可能有点儿孤陋寡闻,但现在还没有见到其他研究使用这种比较深入的分析方式。
  真正数据挖掘在国外的经典案例当中,Target的案例最有典型意义。生活改变会导致购物行为的变化,然后会有一些大数据推送方式的变化。营销学、广告学、公共卫生学、心理学、数据分析、数据挖掘,所有这些知识是混合性知识,大数据恰恰需要这种混合才可能做好。
  前两天我买了一个5升的洗衣液,家里人再多,我至少也得用一个月。同时你也要知道我买的时候我是别的什么都没看,直接到那儿下完单就走了,这说明我是品牌忠诚者。你应该做的不是在我一上网的时候就推送一大堆各种品牌的洗衣,你应该告诉我这个品牌洗衣液在什么时间打折,这才叫大数据分析。
  数据挖掘的商业本质要简单不能再简单,但是过程非常复杂。不是简单的CRM、ERP跑一圈儿就给你推送。那是从精准营销蜕变为精准骚扰。
  所以,数据挖掘不是黑箱,不是一个调动数据的方法,也不是整理数据的方法。它实际上需要在思想的基础上做。真正进行跟人相关的大数据挖掘的时候一定要关注人性。很多人说网购起来之后实体店不行了。如果实体店真的不行了,年轻女孩到哪儿挥洒青春?没劲儿了。逛街的核心在逛,不在于买。要了解人性再去建那种模型才会有意义。很多人说乔布斯不相信调查。乔布斯最基本的习惯,经常整天躲在苹果体验店前的灌木丛中看体验店里的人在干嘛。这是典型的观察法,是人类研究问题最早期的研究方法。所以,知觉、体验、灵机一动、体会、内省,所有这些看起来跟大数据无关的东西可能恰恰是大数据的核心,因为它是思想。
  谷歌在2008年的时候开发一个非常重要的东西,叫流感趋势预测,最初它预测的结果比美国疾控中心的预测结果还准,轰动了全球。结果接下来你会发现它那个东西越来越乱,严重高估了流感的状态。为什么?就是因为刚才谈到的维克多·迈尔-舍恩伯格这一流派在谈大数据的时候重相关不重因果。无论真相关假相关,相关就中,正是假相关造就了谷歌的失败。假相关怎么来的?某一次流感发病的时间点,比如跟美国中学生篮球赛那个时间点是完全一致的。你说这俩概念能有关系吗?问题是只要搜索中学生的篮球赛,就构成了流感预测的一个主要的词之一。类似的东西太多了,为什么?因为在谷歌预测的时候,没有找疾控专家。这些东西才是进行大数据预测的一个很重要的前提。
  虽然谷歌不断调整和完善算法,但它一旦把这个事情说出来之后,为了验证一下这件事儿,很多人开始使用这个产品。消费者的好奇心是惊人的,他们一玩儿就使这个数变的非常大。所以,从那以后一次也没有预测准美国的流感。人的行为在这里面的作用实际上是计算机考虑不到的。这里面就是过度拟合、虚假相关和人性这几个问题造就了谷歌的错误。
  这时你也会发现这些商业公司在做的时候,更多是跟商业逻辑相关的一个概念。它真的不是纯的研究,而且我们并不知道它整个计算的完整过程。所以,掌握大数据本身并不等于是拥有良好的数据。这是美国《科学》杂志在系统评估谷歌的时候说出来的一句话。
  大数据只是一个工具,不能替代基础知识&  &
  在实际的商业应用中,现在这个时代,要一揽子把大数据这个概念说透,我觉得神仙也做不到。在现实的应用中,大数据小应用是一个核心方式。前面我提到的五个国外的比较好的成功案例当中,没有一个不包含抽样,没有一个不包含小数据。也就是说大数据不能忽视各个专业的基础知识,比如历史学、法学、政治学、社会学、心理学,大数据本身不构成带来知识的积累,它只是带来一个数的变化。
  算法如果依赖了对这个独立领域的深度理解,再去跟IT、数学的技能连在一起,会做出一个比较好的大数据分析。只靠一个算法得到得那种知识非常快,但是从现来看,错误率也是极高的。算法本身还是依赖于人。所以,人工智能的中文翻译真是挺好的,没有人工,无法智能,所以叫“人工智能”,这是确确实实有道理的一个概念。
  从我个人理解来讲,大数据运算本身构造给大家一个有更多能力的新的算盘,你说算盘有用吗?确确实实有用,但是算盘代表了所有知识吗?不可能。它是给我们提供了一个各个领域都能够用的一个工具。
  商业本质当中,纯IT人员可能真的无法做好挖掘这个概念。能做好整理、展示、调取,但是挖掘很难,可能需要市场研究的、营销方面的专业人员。另外如果是历史就让历史学家同时介入,如果社会就让社会学家同时介入,这个时候可能能把东西做好。
  当然,大数据还有一个小主题就是风险。风险这一块儿很多人在谈,有治安的问题,有侵犯个人隐私的问题。现在尤其在车联网、物联网的发展过程中,甚至以后我们买的任何一个东西,我们的油烟机、冰箱、洗衣机、电视里面都有定位。因为那时一个定位装置可能就十块钱,非常便宜。你的位置,你在这个城市大概的覆盖的逻辑我都知道了,然后我能够传到网络上去。如果我们满屋子都是Wifi的时候,会不会造成公共健康问题?我不是这个领域的人,我真的不知道会不会有。未来如果真的建构出了那种智能性的机器人,说实话,我们在座的这些人合在一起绝对打不过一个机器人。谢谢大家。  &
  (以上是刘德寰教授(北京大学社会学博士,北京大学新媒体研究院教授,北京大学新闻与传播学院副院长)在腾讯思享会上的一个演讲。)
rowCount++;
主办单位:四川省农业厅
承办单位:四川省农业厅信息中心
技术支持:四川凯普顿信息技术有限公司
建议使用 分辨率IE6.0或更高版本浏览器浏览本站
备案序号:蜀ICP备号

我要回帖

更多关于 上海威纳数据有用吗 的文章

 

随机推荐