量化统计之迷思——大数据的谎言与谬误

编辑：夕照寺 | 2016年3月21日 | 会议会展 | 评论已关闭 | 3015

大数据在过去几年里一直是社会上的热门话题。当我们翻看最受追捧的几本关于大数据的书籍，却发现里面充斥着混乱的定义和错误的观念。在业界，一个个宣称带来了巨大商业成功的案例要么被证明是胡说八道，要么已经宣告了失败。

大数据热潮背后的真相到底是什么？

大数据的谎言

1 纸牌屋案例

提到大数据在互联网视频领域的商业应用，业界曾经流传着这样一个谎言——Netflix通过分析3000万北美用户观看视频的行为数据，发现凯文.斯派西、大卫.芬奇和英剧《纸牌屋》3个关键词的受众存在交集，由此预测将三种元素结合在一起的片子将会大火特火，因此成功推出这部剧集。

事实上，翻拍英剧《纸牌屋》的创意来自制片方MRC公司。当时这家电影公司正准备转型拍摄电视剧，并打算用自己手里积攒的电影资源大干一场，碰巧公司的一位实习生在飞机上看了这部英国旧剧集。也就是说，促使《纸牌屋》诞生的决定性因素根本就不是“大数据”，而是影视圈里永恒的关键词——“资金”和“人脉”。

2 啤酒尿布案例

“啤酒与尿布”案例是大数据营销的一个神话，据媒体称是发生在美国沃尔玛连锁店超市的真实案例。根据大数据发现的相关性，沃尔玛决定把尿布和啤酒摆在一起出售，这个奇怪的举措使尿布和啤酒的销量双双增加。按理说，这个了不起的发现应该给所有超市带来启示，大家都应纷纷效仿才对，可实际上，如果我们到超市去认真观察一下，就会发现根本没有类似的物品摆放，相近的都很少。追溯这宗噱头十足的新闻的根源，调查者已经证明，这个江湖传说只是数据分析公司的经理人虚构出来的故事。

3 怀孕的女高中生案例

一个更为耸动的大数据案例是“怀孕的女高中生”。据说Target百货公司通过大数据模型建立“怀孕预测指数”，通过这个指数，Target能够在很小的误差范围内预测到顾客的怀孕情况，因此Target就能早早地把孕妇优惠产品的广告寄发给顾客。《纽约时报》甚至报道了Target的这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他的高中生女儿怀孕了。但在这个成功的营销事件的背后，是这些优惠广告只是随机的发送给用户，其中大量收到优惠广告的妇女并非孕妇，当然她们只是把广告扔进垃圾桶，不会为此闹上门找Target公司理论。

检视另外一些著名的大数据案例案例，我们已经知道波士顿市“颠簸的街道”项目失败了，谷歌流感趋势预测也失败了。其他很多宣称成功运用大数据分析、发现前所未见的规律、取得重大商业成就的案例也都似是而非。

今天，宣告成功应用了大数据的案例还在不断诞生，人们对此已经开始冷静思考。我们要问的是：这些项目中采用了什么样的判别标准？吹嘘大数据神话的人凭什么认定，运用这种又全又大的定量统计新方法更好，而用传统的抽样量化方法或定性方法做研究肯定不如它？

大数据的谬误

1 “数据”概念谬误

对数据概念理解的错误反映了大数据专家们思维的混乱。数据概念有两种含义。一种含义的数据在历史上早就在使用，这是人们拿来比较、衡量大小、多少的概念——即量值、数值、数目字。两本大数据“宝典”（舍恩伯格等人写的《大数据时代》和涂子沛写的《大数据》）或者围绕这个老概念谈数据，或者无知地把这个老概念和另一个数据的新概念混淆。

新的比特数据的概念到了20世纪才诞生。这个基于比特的数据概念是信息科技的独特产物——即数据是比特的集合，数据是结构化的比特团、组。这是对我们当今社会真正重要的一种数据的含义。

如果把比特看作原子，数据就对应着分子，比特和数据是赛博空间里的基本单元，就像原子和分子是实体空间里的基本单元那样。比特形态数量有限，只有两种，具体的数据对象则千姿百态，是比特的无穷无尽的排列组合。与之相对应，原子的数量只有180来种，而原子所可能组成的分子种类则是无限的。

2 “量化”谬误

从旧概念出发，基于量值统计的大数据成为红得发紫的显学。大数据把“量化”研究方法拔高到了无以复加的地位。这种以“数”服人的恶劣风气发端于北美，是从美国向世界各地蔓延的一种传染病——数目字崇拜症。

尼尔.波茨曼早在上世纪六十年代就指出，单纯用量化方法对人进行界定存在严重缺陷。当时在美国用IQ值来测定人的智商曾经非常流行。把活生生的、有丰富侧面的、不断变化着的人简单地用数目字评价会导致认识的异化。今天的大数据虽然描述人的参数很多，其数量种类远远超过当年单一的IQ值，仍然只是对某一时刻、少数侧面的个人属性的抽象概括。以为通过最大限度地量化就能洞悉关于个人和人群的一切，这是一种理性的谵妄。

痴迷于极致的量化将导致我们走向“还原主义”的歧途。就算我们能够用尽当前科技的所有手段，用所有传感器收集人的所有方面的所有数据，那又如何？拿到数据越多的人就越正确吗？拿到了这些全面的数据就能自动掌握真理吗？就像把一个活人分解成同样重量、种类的一堆原子，把这堆原子交给你，你能管这堆东西叫一个人吗？

3 “历史”谬误

过去积攒的统计数据是历史、是浮云，记录下来的旧数字再多、花样再丰富，对未来趋势的预测能力也非常有限，不能太当真。那个著名的关于猪的寓言，就是用来说明这个道理的：

一头生活在猪圈里的猪注意到每天都有饲养员喂它食物，它收集了99天的完备数据，基于大数据统计作出预测：未来每天都有免费的食物提供给自己。在第100天，它的预测得到了证实，一个光彩夺目的大数据成功案例诞生了！但在第101天，它被送进了屠宰场。

大数据许诺通过收集历史数据预测未来。很多自我膨胀的量化统计专家迷信，收集越多越全的数据，就越能保证发现重大的规律，对未来的预测就越准确，越能创造爆炸性的商业成功，越能让企业立于不败之地。

但是这些头脑热到发昏的专家们忘记了，历史都是人的历史。他们没有理解索罗斯根据卡尔.波普尔对历史主义的批判提出的反身性原理——人都是有主观能动性的、易变的。无论是个人还是大范围的群体，一旦他们了解了你作出的预言，他们行动的转向往往会让你的预言破产。谷歌流感趋势预测失败的一个可能原因就在于此。

从那些失败案例人们已经开始认识到，大数据的肤浅预测的作用是可疑的，它根本无法应对黑天鹅事件。就像全世界顶尖的数学天才聚集的华尔街金融机构那样——他们曾经根据各种统计数据成功预测市场走势，并持续挣钱盈利。但时间拉到足够长，一旦发生一个房贷债券市场崩盘这样的小概率事件，数据统计专家们就落得满盘皆输，一次就把之前多年挣到的钱赔光，甚至陷入负债、破产的境地。

4 “大”谬误

“大”方向的错误影响更为深远，也更加致命。大数据反复强调数据量大、数据全，上帝视角的叙事在召唤一种集体潜意识：即只有有权有钱的超级机构才有能力、有资格汇聚一切信息。很显然，大数据所隐喻的，仍然是僵化腐朽的金字塔式的、封建层级化的社会结构。

想想现在，别人许诺在互联网时代提供给你的人人平等的地球村、对等网络和扁平的世界哪去了？想想当年，前苏联的计划经济委员会里的少数精英掌握着每种商品的全部信息，小到火柴和肥皂的产量、库存、运输、成本和售价、销量等等，结果怎么样呢？我们要问，大数据是不是催生了棱镜计划？为什么个人不能保存电缆门（Cablegate）的全部资料？为什么黑客不能获取麦迪逊网站所有用户的邮箱？为什么网民不能随时查阅汽车牌照信息数据库？

量化统计大数据的“大”和“统”背后隐含的观念，是数据必须向一个中心全面集中，是壁垒森严的超级关系数据库、数据中心，是欢欣鼓舞地打造一座赛博世界的全景式监狱，是信息为少数顶尖精英严格控制以保障“隐私和安全”，是排斥随便哪个阿猫阿狗染指数据库的任何副本，以防其图谋不轨——网络草根们存在的意义，只是向大核心贡献自己的所有信息数据。一盘散沙的个人既不该被允许查阅别人的任何信息，甚至也不能了解自己的那些数据被收集和记录。

请对大数据多留几分小心。

本文作者:姜浩,中国传媒大学教师，博士，从事创新教学及数据理论研究。