中国名义利率数据型数据的都有哪些例子

(第九课堂)
(第九课堂)
(第九课堂)
(第九课堂)
(第九课堂)
第三方登录:用关系代数表示数据查询的典型例子_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
用关系代数表示数据查询的典型例子
上传于||文档简介
&&用​关​系​代​数​表​示​数​据​查​询​的​典​型​例​子​,​石​家​庄​学​院
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩2页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢「数据会说谎」的真实例子有哪些?究竟是数据在说谎,还是逻辑在说谎?
「数据会说谎」的真实例子有哪些?究竟是数据在说谎,还是逻辑在说谎?
【曹政的回答(285票)】:
这个话题好。
这也是我频繁强调的,解读是最重要的环节,数据不会说谎,说谎是来自于数据误读;很多公司招聘数据分析只强调数据处理,对数据解读无法评估,就会带来数据误读,从而产生“数据会说谎”的结论。
我也说几个真实案例,来自工作中的真实案例
1. 通过可控的客户端采样监测,得到了一定样本的,包含google搜索url特征的日志记录,得到google的搜索量;同样的样本下,采集到包含google adwords广告url特征的日志记录,得到google的广告点击数。 那么,理所当然&一厢情愿的 用点击数/搜索量,得到点击率。
但是,这个点击率是显著错误的,理由是,google的adwords广告点击,并不只发生在google的搜索结果中! 当时的情况是,点击率被高估了一倍。(其实已经区分了adsense和adwords广告点击的url特征,但是adwords也会出现在其他网站)
对数据逻辑及相互关系的理解不透彻,就会带来错误的解读。
2.反欺诈点击,有一定的点击过滤策略来进行,引入一种新的过滤策略,会带来更加严格的过滤,于是按照新的策略跑一遍旧的日志,得到结论,额外过滤了若干点击,价值若干,会导致收入下降若干。
但是这个结论是彻底错误的。当严格的策略执行之后,客户对该系统信心增加,竞价价格提升,广告预算提升,收入不降反升。
这也是有实际数据佐证的
简单结论是,单方面做数据推算,而忽略了与用户、客户的交互影响,就会做出错误的推断。
3. 某同事,名校计算机博士,算法达人,做了一条曲线,A和B高度相关,得到结论,A会导致B,看一眼结论我就骂人了,狗屎结论,实际上是A和B均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。
4.样本偏差,特典型的就是沉默的大多数现象,简单举例,去IT论坛,发个投票,百度好不好,腾讯好不好,多数人会说不好。但是真正的用户是不会去IT论坛,更不会参与这种无聊的投票;所以这种投票得到的结论,你要真信,你就傻了。
此外,还有比如送礼品的票选,喜欢这种礼品的用户,本身就有倾向性,如果票选内容与礼品有关,那么结论显然是不可靠的。
5.有人提到预测未来,补充一点,就是用户不知道自己的未来。这也是普遍做样本调查容易产生的误区。如果时间前溯10年,你问一个用户,你会去买苹果手机吗?他肯定会说,你是不是疯了。但是当真的很酷的苹果手机放到他手上,他才会有感觉。 这是有真实案例的,十几年前,手机还叫大哥大,还是大款们才特有的玩物,真有调查公司跑到路边采访行人,说你需要买手机吗,行人纷纷表示不需要。他们不知道这玩意对他们人生的改变有多大。10年前,又有类似的事情,上网当时被认为是不务正业的表现,报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害;然后又有媒体去采访,很多人表示,上不上网无所谓。这些都是当年一些新闻电视里出现过的典型场景。如果你相信,你就真完了。
这里的问题是,用户不能预知技术的发展和对人类群体乃至自身的改变;当然,有的人能看到,1997年,还在读书,我一直纠结大学毕业能做什么,第一次接触到了互联网,我坚定,这是改变人类的东西,这是我一辈子的职业。
简单分享,数据解读,要对业务有理解,对交互影响有理解,对数据背后的逻辑有理解,减少误读。数据不会说谎,误读来自于理解错误。
【陈义的回答(72票)】:
说到数据会说谎,最有欺骗性的的例子莫过于学中著名的辛普森悖论('s_paradox)了。
看看来自斯坦福讲义里的一个简单例子()。某大学历史系和地理系招生,共有13男13女报名。
History 1/5 & 2/8
Geography 6/8 & 4/5
University 7/13 & 6/13
历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:
1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。
2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。
【Fenng的回答(39票)】:
一个例子是当年Firefox用户与Mac用户对支付宝重要与否,单从浏览器数据统计看,Firefox访问支付宝的比例太低了。
不过因为支付宝不支持Firefox,所以,这个比例不能用作判断的依据。Mac用户也是一样。
再说一个,支付宝当年代缴水电煤的项目改版之后,发现缴费用户立刻暴增,产品人员欣喜若狂,后来白鸦同学分析一下,哦,原来那几天是每个月水电煤缴费高峰期,周期性的抽风。
其实呢,分析一下我国有关部门发布的数据,你会发现那都是一些说谎的数据。
【斑马的回答(63票)】:
存活者偏差
二战时英国皇家空军邀请美国的统计学家分析德国地面炮火击中联军轰炸机的资料,并且从专业的角度,建议机体装甲应该如何加强,才能降低被炮火击落的机会。但依照当时的航空技术,机体装甲只能局部加强,否则机体过重,会导致起飞困难及操控迟钝。
统计学家将联军轰炸机的弹着点资料,描绘成两张比较表,研究发现,机翼是最容易被击中的部位, 而飞行员的座舱与机尾,则是最少被击中的部位。
作战指挥官由此认为,应该加强机翼的防护,因为分析表明,那里"密密麻麻都是弹孔,最容易被击中"。但是统计学家却有不同观点,他建议加强座舱与机尾部位的装甲,那儿最少发现弹孔-----因为他的统计样本是联军返航的受损飞机,说明大多数被击中飞行员座舱和尾部发动机的飞机,根本没法返航就坠毁了。
所以如LS几位所答,不是数据说谎,而是没注意到沉默的数据(缺少了的样本),需要分析者有足够广的视角和逻辑,才能从数据里挖掘出足够正确的东西。
【talich的回答(11票)】:
其实问题就是在问,统计数据应该怎么用。
错误的方法是用数据支持一个既有的结论。结论已然存在,更多的数据不能让结论变得更正确:只要你想找数据,总是能找到的。
统计和数据分析能干什么?
回答一个现成的问题。这个问题可以清楚的用数学方法表达出来,用统计结果来验证。从现在实验结果中尽可能的压榨出更多的信息,揭示这个世界里存在的更多可能。
统计数据是一盏路灯,你可以把它当一个杆子,在你倒下时扶你一下,不至于摔得太惨,你也可以把它当成路灯,照亮前面的路,路那边有什么,还要你自己不怕摔跤的走过去看。
【郭鑫的回答(12票)】:
数据不会说谎,而是你怎么分析或者你用什么方式组织数据来说表达。
有本书叫《统计数据会说谎》,还有印象的是利用概念偏差来阐述 ,比如,中数、中位数、平均数
还有利用图表的视觉误差来表达,比如数据是原来2倍,却在图表中用面积2倍来表示
【HanHsiao的回答(41票)】:
Numbers don't lie.
最近发现大家对的答案比较关注,表示受宠若惊。最近有点小忙,但作为一名DMer鄙人决定继续分享一些知识来回报各位厚爱。下面是看统计报告时要注意的点。
一、数据来源如何说谎
最简单的层级,在查阅统计报告之前首先应该关注的是报告出处以及数据来源。以工业品和消费品为例主要的数据来源如下所示:
关于数据的来源我们需要注意四点:
(1).数据发布机构是否权威?(代表性)
网上主流的数据资源太多,以下列举一些,不一而足。
:行研报告,各类数据(需要付费T T)。
:宏观数据、金融、教育、行业数据等,包含国家一级、31个省以及200多个市的数据。
》:历年统计年鉴以及普查数据、专题数据等。
:联合国数据库
: 世界银行数据库
:美联储数据库
:美国航空航天局NASA的地球观测系统数据(2).是否是发布机构原版文件?(可信度)
(3).数据采集面向的对象?(调研主体)
举例说明。产品可分为工业类产品和消费类产品,它们在基本属性、购买特征、营销理念等方面有本质的不同,所以需要调研的主体不同。
工业类产品:供需双方一般都是企业,需要了解总产值、总产量、销售总额、销售总量,所以调研主体以企业为主。
消费类产品:面向大众消费者,统计口径一般是零售市场消费总量、总额,所以调研主体以个体消费者为主。
(4).数据是一手数据还是二手数据?(时效性,相关性)
一手数据(Primary data):也称原始数据。指通过人员访谈、询问、问卷、测定等方式直截获得的,时效性和相关性更好。
二手数据(Secondary data):利用文献,统计年报以及数据库等前人统计好的数据资料。优点是获取成本低,且现成可用。一般可以长时间保存,生成数据趋势图方便。
栗子:研究人员希望了解工人在遇到工伤后返回工作的情况。
一手数据:通过电话采访工人,询问他们多久时间能回到工作、以及返回到工作流程等问题。研究人员得出结论,包括返回到工作流程包括提供优惠住宿,以及为什么一些工人拒绝了这样的提议。
二手数据:包括政府,企业的健康和安全记录,例如工人的受伤率,以及工人在国内不同行业的数据。研究人员发现了工伤索赔额度与全职工人工资额度之间的数量关系。
最后将两个数据源相结合,研究人员便能够找到那些能够让受伤的工人愿意马上回到岗位的因素。
通过例子可以看出,一手数据提能够提供量身定制的信息,但往往是需要很长的时间以及昂贵的成本。二手数据通常是能够廉价的取得,而且可在更短的时间内进行分析,但由于数据获取的初始目的可能与研究目的不相关,需要梳理信息来提取您要找的内容。数据研究人员选择的类型时候应该考虑很多因素,包括所研究的问题,预算,技术和可用资源。基于这些因素的影响,他们可能会选择使用一手数据或二手数据,甚至两者兼备。
(5).数据采集方式是什么?(投票方式)
在网络上进行投票还是在现实中分发问卷有很大的不同,两者都有很多细节点需要注意。
网络投票:如何防止机器人,恶意投票以及UI的设计是关键。可以参考推荐系统的用户反馈设计。
现实问卷:如何设计题目(逻辑性、完整性、非诱导性)以及投放方式(时间、地点、对象)是关键。可以参考。
二、数据统计如何说谎
数据统计中常常会出现的谎言,这是因为虽然原始的数据相同,但是数据处理的过程不同。具体情况通常可分为四种:抽样方法、样本量、异常值处理及统计指标。
(1).抽样方法的区别
整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”,从而实现特殊目的。我们知道最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。其中概率抽样方法分为四种:随机抽样(Simple random sampling)方法:将调查总体的观察单位全部编号,再随机抽取部分观察单位组成样本。
优点:操作简单,均数及相应的标准误计算简单。
缺点:总体较大时,难以一一编号。
系统抽样(Systematic sampling,又名机械抽样、等距抽样)
方法:先将总体的观察单位按某一顺序号分成N个部分,再从第一部分随机抽取第k号观察单位,然后依次使用相等间距,从每一部分各抽取一个观察单位组成样本。
优点:易于理解、简便易行。
缺点:总体有周期或增减趋势时,易产生偏差。
整群抽样(Cluster sampling,整体抽样)
方法:总体分群,再随机抽取几个群组成样本,群内全部调查。
优点:便于组织、节省经费。
缺点:抽样误差大于单纯随机抽样。
分层抽样(Stratified sampling)
方法:找到对观察指标影响较大的某种特征,从而将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。
优点:样本代表性好,抽样误差减少。
缺点:抽样过程繁杂。
各种抽样方法的抽样误差一般是:整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。
栗子1:在建立客户流失模型时,使用分层抽样。假如两次调研的抽样样本分别是最近一年未消费流量的客户和最近一年未消费流量但经常收发短信的客户,不用做测试基本上就可以确定后者的流失可能性更小。而如果使用随机抽样则很难得出上述结论,所以数据抽样方法的选择对结论影响较大,实际操作时具体需要深入到SQL查询逻辑的研究。
栗子2:普林斯顿大学的信息技术政策中心(CITP)和北卡罗莱纳州大学教堂山分校(University of North Carolina at Chapel Hill)在2013年发表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field:大数据:一个新兴领域的陷阱、方法和概念》。通过实验对一些市场营销人员发出警告:请首先确认抽样的方法是否能够真正地覆盖的整个市场,不要对从社交媒体渠道(如Twitter和Facebook)收集的消费者数据过于自信。
1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem).
2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path.
3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem).
4.Most big data analyses come from a single platform (hence missing the ecology of information flows).
作者Zeynep Tufekci(博客地址:,北卡罗来纳大学教授)通过描述对果蝇进行生物测试的方法,质疑很大程度上依赖社会化媒体形成的大数据方法论。大多数的大数据集(Big datasets)研究只包含“节点到节点”(Node-to-node)之间的信息互动;然而面对社会中的群体性事件,无论是通过经验分享或通过广播媒体传播,“场”(Field)效应的地位更加重要。一个典型营销活动(Twitter、Facebook上)的用户参与百分比只有10%,只代表一定的细分市场,可能扭曲调查结果。这些市场调差报告不能准确反映市场的数据,所以无法据此制定出可靠的未来计划。
(2).样本抽取的区别
从严格意义上来说统计范围的选择问题并不一定是故意欺骗,因为在数据采集的实践中确实存在样本量失衡的情况,如果遇到这种情况一般使用欠抽样(Oversampling)和过抽样(Under-sampling)进行样本平衡。通常来说样本的问题主要分为以下三种情况:样本抽取的数量。这一点很容易理解,数据样本量差距越大,可比性越小。尤其是在样本分布不均时,数据结果可信度低。样本抽取的主体。为了制造某种统计结果而故意选择对结果有利的样本主体。如针对农村用户和城市用户统计某手机市场占有率,后者结果肯定优于前者。样本抽取的客观环境。比如做运营商网站用户体验分析(User Experience,简称UE),ISO 标准中对用户体验的定义有如下补充说明:用户体验,即用户在使用一个产品或系统之前、使用期间和使用之后的全部感受,包括情感、信仰、喜好、认知印象、生理和心理反应、行为和成就等各个方面。三个影响用户体验的因素:系统,用户和使用环境。如果测试方法都没有完全相同的客观环境,即使选的是相同样本和用户,分析结果可信度依然较低。
更多资料推荐:
(豆瓣版本老,现在有09年新版)
(3).离群值处理方法的区别离群值(Outlier,异常值):指样本中的个别值,其数值明显偏离其所属样本的其余观测值。
离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值600,则Cluster3为离群值。离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值600,则Cluster3为离群值。
目前对离群值(Outlier)的判别与过滤主要采用两种方法:物理判别法和统计判别法。物理判别法:根据人们对客观事物已有的认识来判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果。
统计判别法:给定一个置信概率,并确定一个置信限,凡是超过此限的误差我们就认为它不属于随机误差范围,将其视为异常值过滤。
通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。极值很可能是离群值,此时如何处理离群值会直接影响数据结果。
栗子:某一周的手机销售数据中,存在异常下单行为导致某一品类的销售额和转化率异常高。如果数据分析师选择忽视该情况,结论就是该手机非常热销抓紧供货,但实际情况并非如此。通常需要把会把离群值拿出来,单独做文字说明。
(4).统计方法的区别
我们都知道,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。
平均数在数学中可分为,算术平均数(arithmetic mean),几何平均数(geometric mean),调和平均数(harmonic mean),加权平均数(weighted average),平方平均数(quadratic mean)等。一般人大家所说的“平均数”就是算术平均数,即N个数字相加然后除以N。而“平均数”在统计学中包含三种:算术平均数、中位数、众数,都是用来描述数据平均水平的统计量。
算术平均数(Arithmetic mean):一组数据中所有数据之和再除以数据的个数。
中位数(Median):将所有数值从高到低排列,最中间的数值。
栗子:1,2,3,4;排序后发现有4个数怎么办?
若有n个数,n为奇数,则选择第(n+1)/2个为中位数;若n为偶数,则中位数是(n/2以及n/2+1)的平均数。所以此例中位数为2.5。
众数(Mode):所有数字中出现频率最高的数值。 栗子:1,1,2,2,3,4的众数是1和2。如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4没有众数。
通过公式我们可以看出:算术平均数易受极端数据的影响。中位数不受分布数列的极大或极小值影响,在一定程度上对分布数列的具有代表性。但缺乏数字敏感性,有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。众数不受极端数据的影响,而且具有明显集中趋势点的数值,能够代表整组数据的一般水平。在这三个平均数中,算数平均数是能够取得最大数字的平均数,所以,一般的统计调查都用的是这个做结论,比如平均工资。所以有时候大家会发现自己的工资“被平均”了,或者拖后腿了就是这个原因。
结论:对于不同的统计平均值的方法,得出的数据结论是不一样的。有太多人利用本来正确的统计数据来穿凿附会得出自己需要的结果,有些原始的统计数据往往是由权威机构或人士做出的,只是被其他人赋予了原调查目的之外的其他意义。 所以一般见到平均数后,首先查明使用的是哪种平均数计算方法,然后试着用另外两种分析一下,看看是否有破绽。
更多资料推荐:
三、数据可视化如何说谎
统计数据的表现方法千差万别。虽然数据相同,但表述方式不同,呈现的效果也不同。
(1).图表长宽
由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从1:1拉伸到2:1后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从1:1拉伸到2:1后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。
左图暗示“系统事务平均响应时间在测试场景开始以后快速突破150秒”右图暗示“系统事务平均响应时间随着测试场景执行时间延长逐渐增加”
(2).取值间隔
由上图可知,如果数据的取值间隔划分过大(等比数列1,10,100,)而不是标准等差数列(1,2,3,4),则数据之间巨大差异会被缩小。
左图暗示“湖北、河南、江苏总产值排名前三远超其他省市”
右图暗示“各省市总产值相差并不太大”
(3).数据标准化
数据标准化也是归一化的过程。在数据分析之前通常需要先将数据标准化(Normalization),目的是去除奇异样本数据(相对于其他输入样本特别大或特别小的样本矢量),将数据按比例缩放,使之落入一个小的特定区间。或者去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,而且能保正程序运行时收敛加快。
如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.()
数据标准化常用方法有“Min-max”、“Z-score”、“Atan”和“Decimal scaling”等。
Min-max标准化(Min-max normalization)适用于原始数据的取值范围已经确定的情况,缺点是当有新数据加入时,可能导致Max和Min值变化需要重新定义。设MinA和MaxA分别为属性A的最小值和最大值,将A的一个原始值x通过Min-max标准化映射成在区间
【0,1】中的值,公式为:
Z-score 标准化(Zero-score normalization)
又名标准差标准化。经过处理的数据符合标准正态分布,均值为0,标准差为1。设μ为所有样本数据的均值,σ为所有样本数据的标准差。公式为:
Atan函数转换
使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。所以通过atan标准化会映射在区间
【-1,1】上。
小数定标标准化(Decimal scaling)
通过移动数据的小数点位置来进行标准化,小数点移动多少位取决于属性A的取值中的最大绝对值。这个方法比较容易理解。
一个简单的例子对比如下图所示:
了解更多:
数据可视化经典例子:
四、结束语
数据如同金矿,需要人使用工具来开采、提炼、加工。
所以数据不会说谎,使用数据的人才会说谎;有些人是无意,有些人是蓄意。
祝每一个DMer都挖掘到金矿和快乐:)
参考文献:
[2].(浙江大学《数据统计》)
[3].(TonySong,Webtrekk Business Consultant)
[5].《Asking The Right Questions:A Guide to Critical Thinking:学会提问-批判性思维指南》
[6].《How to Lie with Statistics:统计数字会撒谎》
[10].《Data Mining: Concepts and Techniques》, Jiawei Han and Micheline Kamber
【星尘的回答(5票)】:
数据真冤枉,数据还会说谎。
数据生了病(数据采集不正确),不会哭不会笑,只能任由人评说。
我对数据的理解:1越接近第一手资料的数据越可靠。2.数据本身不能说明正确错误,但数据可以了解以前,预知未来。
【爱民的回答(6票)】:
说个最近的例子。
改版了款wap产品,没做任何推广前提下,发现流量飙升,尤其匿名用户涨了3倍。
因为产品本身用户基数低,所以流量翻了两三倍也算正常。当时估计是SNS的口碑传播导致的。
但最后还是觉得不对劲,查了一下,发现是搜索引擎在抓页面,因为改版了,所以它们要重新抓一次。空欢喜一场。
数字还是那个数字,但背后它到底对应了什么内容,常常被忽略了。
【孙昱的回答(4票)】:
数据是客观产生的,它只能反映问题而不会主动“说谎”。
造成“数据会说谎”的假象的原因我觉得是两点:
1、忽视了误差分析。在获得数据的前后没有注意排除误差干扰,比如抽样的抽样框不齐全、实验忽略了潜在变量的干扰等,造成了得到的数据产生较大偏差;
2、人为地错误解读。有些人是无意误读,有些人是有意为之。前者需要尝试用其他方面的数据来对之前的数据进行佐证。
【梁欢的回答(4票)】:
马库斯·坎比的盖帽数,让他获得了最佳防守球员……
【joegh的回答(5票)】:
其实“数据不会说谎”,数据从某个角度来说是最能反映客观现实的。关键在于怎么去看数据,怎么剥离数据展现的表象,分析和理清问题的本质。
某个网站每天UV百万,貌似挺漂亮的数据,但如果活跃用户只有1W呢?
某个电子商务该月订单数较上月增长了10%,貌似也不错,但如果用户数翻了一番呢?
关键不在于数据本身,而在于看数据的人怎么去看数据。
【黄中旭的回答(1票)】:
简单几条,肯定不全:
1、数据生产环境是否有偏差?
2、数据取样是否完全?
3、数据统计策略是否合理?
4、数据相关性是否存在?
【马顺仁的回答(4票)】:
我也举个实例吧。我们会在游戏中对很多内容或操作做数据监控,然后通过分析数据的提高还是降低,去判断用户对该内容的喜欢程度。
但是单独看数据的提高和降低是没有意义的。例如,我们发现某项物品最近销售数据在下滑,我们可能就会下结论:这个物品受欢迎程度在下降。
但这个结论是不准确的,必须结合着其他的数据一块看,例如DAU。
如果DAU在下降,那么该物品的销售随之下降是正常的,如果结合着比例来看,有可能会发现虽然销售数据在下降,但是比例数据(即销售数/DAU)是在上升的。这样会明白,其实该物品的受欢迎程度并没有下降了,而是DAU下降了。而在DAU下降的同时,销售比例在上升,其实该物品的受欢迎程度反倒是提高了。
因此,其实不是数据在说谎,而是很多数据需要辩证的来看。
【oyeoye的回答(9票)】:
首先数据是客观存在的;
其次数据需要人来解读;
最后单一数据永远无法说明任何问题(这也是KPI的弊端所在);
综上所述:“数据说谎”只有一种可能——解读“有误”;
数据解读错误,很大程度上是因为第三条,因为单一数据往往有很多种解读,从逻辑上来说也都是讲得通的,但却禁不起推敲。推敲某一数据的含义就是不断地找寻更多的数据来验证自己的揣测,不断修正自己的思路。
最容易引起误读的数据有“平均值”,“总量”和“相对值”,这三个数据却又是我们最常用到的数据。“平均值”比较好理解,大家都在骂人均收入扯淡,不就是说明一个富豪将多个平民的平均上去了吗?这个时候使用方差,查看数据的离散程度,一定程度上可以检验数据的真实状况;这类错误的问题在于:目标数据中个体带来的影响超过了总体,从而使得对个体的认识成为了对总体的判断。上面@冯沁原 说的例子 “点击的喜欢个数/(点击喜欢的个数+点击不喜欢的个数)”也可以从这个角度来解释.
“总量”这个数据常常容易让人白白兴奋一场,比如做活动我们拉活跃用户数,活动结束后当月总量很高,活动期间数据的增长也很正常,但事实上的情况是活动结束的下个月这些“数据”又全部流失了,说句题外话就是运营更多时候只是宣传引导手段,重点还是在于产品自身品质。
“相对值”拿什么做对比直接影响对该数据的解读,就不展开讨论了。
最后举个例子吧,一个BtoBtoC的业务,某日做针对B的运营活动,发现销量数据大涨,首先判断是活动效果引起,结果后来调来其他相关数据,发现是部分B在这几日大量进货,再后来发现这部分B习惯在月初或季度初的时候大量进货,所以后来做活动就尽量避免在这个时间段内做。
【程志达的回答(2票)】:
原始数据本身没有任何观点,孤立的数据本身也没有任何自我检查机制。
说的《统计数据会说谎》,一般都是想好了说谎,然后选择原始数据中某一维度符合其逻辑的数字规律。而且对于他观点没有帮助的数据也通通会隐藏起来,这已经不算什么秘密了。如果要检查他的数据到底有没有在说谎,只要看数据是如何得到的,有没有其它佐证的。
【褚跃跃的回答(3票)】:
数据:美女配丑男的几率,远大于美女配帅哥。
结论:所以你要把自己弄的丑一点。
【Lebanner的回答(2票)】:
数据说谎的根源在于:想要准确客观地描述真实情况,很多时候你要提供的数据几乎是无限多的,而人们能够提供的数据只能描述部分情况,加上人为的刻意选择,结果便是真实的数据却成为欺诈的工具。当然数据本身也可以造假(比如统计样本的倾向性选择)
比方说如果你是一个外国人,看到中国政府官方提供的GDP神马的数据,肯定认为中国简直就是个天堂,再看看《参考消息》,上面的文字全是真的,报纸上的任何一篇稿子都没骗你,但最后你还是被骗了~~~
该看的数据还是要看,但如果指望靠数据来认识一个领域一个事物,终究是会失败的。
【AlpLee的回答(5票)】:
“想要得到什么结论,就选取什么数据”和“初步处理的数据与预期相符”这两种是数据比较容易“说谎”的原因。第一种:为了达到某个目的(KPI,忽悠神马的),有目的地选取片面的数据,导致结论不真实;第二种,初步处理后的数据发现凑巧与预期相符,这时极容易忽视各种原因(样本选取失当,异常值没有处理,没有进行显著、正态等检验等)造成的误差和偏差,于是导致结论不真实。
【知乎用户的回答(0票)】:
KK在《技术元素》里面说过:通过网络收集信息,我们可以得到越来越多有关用户的信息,但是关键在于,谁能提出一个好问题。
用在这里,不妨这么说,谁都可以利用数学工具收集数字,整理数据;但是关键在于,谁能够解释这些数据。
发表评论:
馆藏&52110
TA的推荐TA的最新馆藏

我要回帖

更多关于 人民币名义汇率数据 的文章

 

随机推荐