大数据时代
# 《大数据时代-生活、工作与思维的大变革》
这是一本十年前的书,但是一直没读过,翻出来重新读了一遍。
# 笔记
# 第一部分,大数据时代的思维变革。
这块主要确定大数据时代的三大思考原则:
- 更多,不是随机样本,而是全体数据
- 更杂,不是精确性,而是混杂性
- 更好,不是因果关系,而是相关关系
原则一,不是随机样本,而是全体数据。大数据时代的特征之一就是海量数据,从而可以获得全体数据。在之前,只能通过抽样的方式来贴近真相,而大数据时代,由于获得全体数据的可能性,从而使样本=总体。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
原则二,不是精确性,而是混杂性。大数据更关注数据的数量,而不是质量。允许数据存在混杂性,即接受数据的混乱和部分的不准确,这是大数据时代不可避免的问题。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。大数据时代更关注的是数据的数量。
原则三,不是因果关系,而是相关关系。这一点很重要。人类的思考方式之一就是事情的因果,但是大数据时代需要关心的是相关关系。大数据下知道”为什么“并不重要,知道”是什么“就够了。相关关系的核心是量化两个数值间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加,这就是强相关关系。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化,这就是弱相关关系。通过给我们找到一个现象良好的关联物,相关关系就可以帮助我们捕捉现在和预测未来。例如,沃尔玛通过数据分析注意到,当季节性飓风来临之前,蛋挞的销量也会随之增加,因此沃尔玛就把库存的蛋挞放在靠近飓风用品附近的位置。这就是利用数据发现相关性,利用相关性,二不用去关注分析背后的因果性。建立在相关关系分析法基础上的预测是大数据的核心。即,”是什么“,而不是”为什么“。
# 第二部分,大数据时代的商业变革。
这一部分主要讲怎么利用大数据做出商业变革。
数据化。大数据时代的基石是数据化,只有先数据化,后续才有可能。数据化是指一种现象转变为可制表分析的过程。注意,是数据化而不是数字化,数字化指的是把模拟数据转变成用0和1表示的二进制码。只有前期的数据化,才能有后续的大数据分析。
价值。在大数据时代,数据的价值从它最基本的用途转变为未来的潜在用途。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。关于数据的创新,有以下几种方式:
- 数据的再利用
- 重组数据
- 可扩展数据
- 数据的折旧值,即使数据用于基本用途的价值会减少,但潜在价值缺依然强大。
- 数据废气,是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
- 开放数据 收集信息固然重要,但更重要的是数据的使用,而不是占有本身。
角色定位。大数据价值有三种来源:数据本身、技能与思维,分别出现了三种大数据公司。
- 第一种是基于数据本身的公司,例如Twitter
- 第二种是基于技能的公司,通常是咨询公司、技术供应商或者分析公司
- 第三种是基于思维的公司,通过数据挖掘获得独特的想法 这就是大数据价值链的构成。 所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
# 第三部分,大数据时代的管理变革。
这一部分内容比较少,主要讲了大数据主宰下的风险和怎么更好的掌控大数据。
风险,让数据主宰一切的隐忧。大数据时代会带来隐私被利用的威胁,也有可能未来会因为大数据时代的预测而不是因为真实所做而受到惩罚。
掌控,责任与自由并举的信息管理。从以下几方面带来管理变革:
- 个人隐私保护,从个人许可到让数据使用者承担责任
- 个人动因VS预测分析,大数据时代依然要因为行为而非倾向负责。
- 击碎黑盒子,大数据算法师的崛起,“算法师”考察和分析结果相关的运算法则、统计方法以及数据集
- 反数据垄断大亨
# 思考
十年后,再来看这本书,我认为是比较适合作为大数据概念入门的一本书,快速了解大数据下的思考原则和整个商业价值链。十年前应该认真读一读,看了或许当时就能劝一劝老台入门搞大数据,命运的齿轮或许就会有不一样的方向。不过或许大概率还是因为年轻,看了也只是一晃而过。本书带来的立即行动点:要坚持看书,获取基本概念与认知。