大数据时代的数据

2020年5月31日 · 1160 字 · 3 分钟 · #读书看报

大数据开启了一次重大的时代转型。

随着互联网的发展,大量数据的产生,人与人之间的可以通过数据产生联系。

大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。

今天分享《大数据时代》给我们带来的一些改变,如思维改变、商业改变以及管理改变。本书的作者舍恩伯格 被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。

不是随机样本,而是全体数据

记得中学的时候,我们学习概率、样本、抽样调查等,样本是观测或调查的一部分个体,总体是研究对象的全部。例如要调查北京地区 8000 个程序员中有对象的情况,样本就是 8000个程序员的视力情况。

大数据时代不一样,我们可以拥有全部的数据体量。我们可以利用所有的数据,而不再仅仅依靠一小部分数据。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。

如果你无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。

所以,我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的数据。我们需要足够的数据处理和存储能力,也需要最先进的分析技术。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。

不是精确性,而是混杂性

对「小数据」而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。

「大数据」通常用概率说话,而不是板着「确凿无疑」的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。

大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的「钉是钉,铆是铆」。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。