"大数据"这词不火了是不是因为没当年说的那么好

来源：网易科技报道|0 | 2017-10-19 11:08:38

10月19日消息，国外媒体Slate刊文指出，“大数据(Big Data)”一词已经变得没有以往那么红火了，为什么会这样呢?“大数据”的问题并不在于数据或者大数据本身很糟糕，而是在于盲目迷恋数据，不加批判地使用，那会引发灾难。数据也不一定完全反映你想要了解的事情的实际情况。

以下是文章主要内容：

5年前——2012年2月——《纽约时报》刊文高呼人类的一个新纪元的到来：“大数据时代”。该文章告诉我们，社会将开始发生一场革命，在这场革命中，海量数据的收集与分析将会改变人们生活的几乎每一个方面。数据分析不再局限于电子数据表和回归分析：超级计算的到来，伴随着可持续记录数据并将数据传送到云端的联网传感器的不断普及，意味着迈克尔·刘易斯(Michael Lewis)2003年的棒球书籍《Moneyball》所描述的那种先进数据分析有望被应用于各行各业，从商业到学术，再到医疗和两性关系。不仅如此，高端的数据分析软件还有助于鉴定完全意想不到的相关性，比如贷款方用尽额度和他债务违约的可能性之间的关系。这势必将会催生会改变我们思考几乎一切事物的新颖见解。

《纽约时报》并不是第一个得出这一结论的企业机构：它的文章引用了麦肯锡咨询公司2011年的一份重大报告，其观点也得到了2012年瑞士达沃斯世界经济论坛题为“大数据，大影响”的官方报告的支持。但这种宣言仿佛就是标志大数据时代开启的里程碑。在之后的一个月里，巴拉克·奥巴马(Barack Obama)的白宫成了一个2亿美元的国家大数据项目，疯狂热潮随即袭来：学术机构、非盈利组织、政府和企业都争相去探究“大数据”究竟是什么，他们可以如何好好利用它。

事实证明，这种疯狂没有持续很长时间。5年后，数据在我们的日常生活中扮演重要很多的角色，但大数据一词已经不再流行——甚至让人觉得有些讨厌。我们被允诺的那场革命究竟发生了什么呢?数据、分析技术和算法现在又在往什么方向发展呢?这些问题值得回头去思考。

科技咨询公司Gartner在它2015年相当有名的“技术成熟度曲线”报告中不再使用“大数据”一次，之后该词再也没有回归。该公司澄清道，这并不是因为企业放弃挖掘巨量数据集获得洞见的概念。而是因为那种做法已经变得广为流行，以至于它不再符合“新兴技术”的定义。大数据帮助驱动我们的动态消息、Netflix视频推荐、自动化股票交易、自动校正功能、健康跟踪设备等不计其数的工具背后的算法。但我们现在不大使用大数据一词了——我们只是将它称作数据。我们开始将数据集能够包含无数的观察结果，先进软件能够检测当中的趋势当做理所当然的事情。

大数据引发的严重错误

虽然该词仍有被使用，但它更多地带有一种不好的意味，比如凯茜·奥尼尔(Cathy O’Neil)2016年的著作《数学杀伤性武器》(Weapons of Math Destruction)或者弗兰克·帕斯夸里(Frank Pasquale)2015年的《黑箱社会》(The Black Box Society)。匆忙执行和应用大数据，即进行所谓的“数据驱动型决策”，带来了严重的错误。

有的错误相当惹人注目：塔吉特(Target)曾向一位没跟任何人说过自己怀孕的少女的家庭派送婴儿用品优惠券;Pinterest曾恭喜一位单身女性即将结婚;谷歌照片(Google Photos)也曾引发轩然大波，该公司被大肆吹捧的AI将黑人误以为是大猩猩，原因是它的训练数据不够多元化。(值得指出的是，至少在该事件中，“大数据”还不够大。)

其它的错误更为微妙，或许也更加阴险。当中包括奥尼尔在她的重要著作中记录的那些不透明的数据驱动式制度性模型：被法庭用来判决罪犯的、带有种族偏见的累犯模型，或者那些基于可疑的测验分数数据解雇备受爱戴的教师的模型。大数据出错的新案例可谓层出不穷——比如Facebook算法明显帮助俄罗斯通过针对性的假新闻影响美国总统大选的结果。

盲目迷恋数据与误用

“大数据”的问题并不在于数据本身很糟糕，也不在于大数据本身很糟糕：谨慎应用的话，大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特(Julia Rose West)在最近给Slate撰写的文章里所说的，盲目迷恋数据，不加批判地使用，往往导致灾难的发生。

从本质来看，大数据不容易解读。当你收集数十亿个数据点的时候——一个网站上的点击或者光标位置数据;大型公共空间十字转门的转动次数;对世界各地每个小时的风速观察;推文——任何给定的数据点的来源会变得模糊。这反过来意味着，看似高级别的趋势可能只是数据问题或者方法造成的产物。但也许更重大的问题是，你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。

例如，民意调查被广泛用作衡量人们在选举中的投票意向的指标。然而，从汤姆·布拉德利(Tom Bradley)1982年在加州州长竞选中败北，到英国脱欧公投，再到特朗普的当选，数十年来结果出乎意料的选举一再提醒我们，民意测验和人们实际的投票意向之间并不总是完全一致。Facebook以往主要通过用户有没有点赞来估量他们对特定的帖子是否有兴趣。但随着经过算法优化的动态信息开始大量出现标题诱饵、点赞诱饵和婴儿照片——导致用户满意度明显下降——该公司的高层逐渐意识到，“点赞”这事并不一定意味着用户真的喜欢特定的内容。

指标和你实际上要估量的东西之间的差别越大，过于倚重它就越危险。以来自奥尼尔的著作的前述例子为例：学区使用数学模型来让教师的表现评估与学生的测验分数挂钩。学生测验分数与不在教师控制范围内的无数重要因素有关。大数据的其中一个优势在于，即便是在非常嘈杂的数据集里，你也可以发现有意义的关联性，这主要得益于数据量大以及理论上能够控制混杂变量的强大软件算法。例如，奥尼尔描述的那个模型，利用来自多个学区和体系的学生的众多人口结构方面的相关性，来生成测验分数的“预期”数据集，再拿它们与学生的实际成绩进行比较。(由于这个原因，奥尼尔认为它是“大数据”例子，尽管那个数据集并不够大，没达到该词的一些技术定义的门槛。)