当前位置:首页 > 大数据时代观后感文档
看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。 全体数据的前世今生
上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。
“全体”或许只是指包含了数据库中所有的记录。
即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。
这绝对是小数据时代的故事。也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。
对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。
被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。
全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。全体数据依旧是取样数据,比如说上面案列中的四个月的取样。
谁说取样必须只是随机取样呢? 全体数据的分析误差
迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。那么,有了全体数据,我们的分析结果就一定没有误差了吗?
假定我们确实有关于北京地区吃麦当劳的全体数据。是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本 用不到统计学的概念。可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。我们要用这个全体数据来做更多的 事,比如说预测哪些顾客下次来会购买巨无霸。分析师会给我们一批顾客名单,告诉我们:这些顾客75%的可能下次购买巨无霸。
75%的可能?也就是说这个顾客还有25%的可能下次不买巨无霸。这就是分析误差。
事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。
可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。 全体数据的取样
根据《大数据时代》,用了全体数据,我们就再也不需要取样了。事实果然如此吗?
有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。为什么只是4个月的数据?难道该企业的数据库只有4个月的数据?
当然不是!事实应该是研究人员从企业的数据库里之取样了四个月的数据。那么,为什么即使有了“全体数据”,研究人员还只取了其中四个月的数据?
因为对数据分析来说,绝对不是数据越多越好。即使我们拥有无与伦比的计算速度,过多的数据也会浪费研究人员的时间资源,不必要的数据甚至可能影响分析的结果。何况根据迈尔大叔的介绍,4个月的数据取样已足以得到满意的研究结果了。 看来有了全体数据,也有必要进行数据取样。 更多关于全体数据的取样
就上篇文章中迈尔大叔所举的那个全体数据的例子来说,分析人员只取了数据库中四个月的数据进行分析。为什么?因为分析的任务不是要得到数据库中每个 顾客长期的人脉关系,而是通过一定时期内人际关系的分析,了解拥有不同人际关系的个人对整个社区关系网的影响。因此,适当的阶段性数据的取样就十分必要。
试想一下,如果研究人员采用了数据库中所有的数据,则可能将更多的人际关系发展的变化也包括进来,这反倒可能影响研究的结果。所以说,全体数据不加区别的应用并不一定是最佳的选择。
再举一个对全体数据进行取样分析的例子。早年我曾经做过一个搜索引擎算法分析的应用,原理就是根据随机取样的关键词,到各大搜索
引擎(美国的)上去 爬取搜索结果的网页,分析各种SEO技术对各搜索引擎网页排名的影响。时间长了,我所爬取的网页数据库也就成了迈尔大叔所谓的全体数据。我是不是应该每次 分析时都使用所有的数据呢?当然不是。因为搜索引擎在不断改变其搜索排名的算法,如果我将已经过时的排名网页信息包括在我的搜索引擎排名关键因素的分析 中,那就会适得其反导致分析结果的不准确。
迈尔大叔数次提起的有关飞机票价预测的数据分析,也存在着同样的情况。航空公司可能会改变其机票价格的决定机制。如果在票价预测分析中包含了已经过时的票价决定机制的信息,那分析的结果就会受到干扰而增加误差。
数据并非绝对越多越好。即使是全体数据,也要根据分析任务进行必要的取样。原因可能是多种,适当的取样是优化分析过程和分析结果的一种选择。而且,取样也不只限于随机取样。 全体数据的陷阱
第一个陷阱就是所谓全体数据,在绝大多数情况下并不是“全体”。我们来看看那些绝对重量级的互联网企业,它们最可能拥有所谓全体数据,比如说谷歌、百度、FACEBOOK、淘宝天猫,哪个公司的数据库能够被称为“全体”呢?
一个企业有了数据库,往往更愿意局限于自己的数据库来进行各种分析。有句老话叫做“种瓜得瓜种豆得豆”。这个全体数据分析的陷阱就是:如果你种的是瓜,你就分析不出豆来。
例如某新闻网站经常用很黄很暴力的新闻吸引网友下载它的新闻
共分享92篇相关文档