简介
有多少人买了书真正看完了?
你朋友的酒量有他说的那么大吗?
父母是否暗自喜欢男孩儿多于女孩儿?
电影里暴力镜头增多会导致犯罪率升高吗?
种族歧视在现如今的美国还严重吗?
特朗普的胜利有征兆吗,什么促成他赢得了大选?
……
你知道问题的答案吗,直觉会怎样告诉你?
作者赛思·斯蒂芬斯--达维多维茨是一位前谷歌数据科学家和专栏作家。他的研究发现,世界充满了谎言,人类或出于善意或出于恶意,无时无刻不在说谎。对于以上以及类似的很多问题,传统的统计调研方法得出的结论很多是错误的,误导了我们的认知。
但是,人们往往在一个地方放下戒备、吐露心声,那就是互联网。每一次搜索、每一次点击、每一次停留、每一次关闭……在线生成了大量的数据,暴露着你的真实想法、欲望、恐惧和职业,而海量的数据形成的真实而庞大的数据宝库会总结出意想不到的结论和趋势。
在这本应时的力作中,作者从一个个备受关注的话题切入,用他独特的数据分析方法得出了很多颠覆认知的结论。很多问题的答案正暗藏于看似没有关联的因素中,很多直觉和经验给出的答案与事实相差千里,大数据被合理使用其实比数据库的大更重要……作者广博的知识面将从多个层面拓展我们的认知边界;书中生动有趣的描写让你不想错过任何一个细节。
作者介绍
赛思·斯蒂芬斯--达维多维茨《纽约时报》的-专栏作者,沃顿商学院客座讲师,前谷歌数据科学家。他在斯坦福大学获得哲学学士学位,并以美国大学优等生的身份毕业,之后获得哈佛大学经济学博士学位。他用新的大数据源揭示了不为人知的行为和态度,这一研究发现登上了《公共经济学》杂志和其他著名刊物。现居纽约市。
部分摘录:
如果你已经33岁,连续参加了好几个感恩节派对都没有带伴侣,那大家就会开始关心你的择偶问题了。几乎每个人都有自己的看法。
“赛思应该找一个疯女孩,和他一样。”我姐姐说。
“你疯了吧!他该找个正常的女孩,和他互补。”我弟弟说。
“赛思才不疯呢。”我母亲说。
“你是真疯了!赛思当然很疯!”我父亲说。
说话温柔又腼腆的祖母在整个晚餐过程中一言未发,此刻却突然发话了。在座的纽约人瞬间噤声,所有人的目光都集中在这个留着黄色短发、带着一丝东欧口音的小老太太身上。“赛思,你得找个好姑娘。她不用很漂亮,可得聪明伶俐,待人友善;她得懂社交应酬,这样你才能专心做自己的事;她得有幽默感,因为你也是个有趣的人。”
为什么这个老太太的建议会受到全家人的关注和尊重呢?88岁高龄的祖母比餐桌上其他人都见多识广。一直以来,她关注过许多婚姻,有成功的,也有不成功的。在过去的几十年里,她把成就幸福婚姻的特质做了分类。于是,就在这个感恩节餐桌上,针对择偶问题,祖母开始在她巨大的数据点集里搜寻答案。我的祖母就是一个大数据。
在本书中,我想简化数据科学。不管我们是否喜欢,数据正在我们的生活中扮演越来越重要的角色——其影响力将会越来越大。如今的许多报纸总有整版整版的内容在谈数据,许多公司都拥有专门负责数据分析工作的团队,许多投资人都愿意拿出几千万美元投资持有更多数据的创业公司。即使从未学过如何进行回归分析(社会科学家用来梳理多种因素影响的方法)或计算置信区间,你也会遇到大量数据——读书时会遇到,参加商务会议时会遇到,去饮水机那儿接水时听到的办公室八卦中也会遇到。
许多人对这一发展感到不安。他们惧怕数据,很容易在这个数字的世界中迷失自我,手足无措。他们觉得这种对世界的量化认知是少数左脑发达的天才的事,与他们无关。一旦碰到数字,他们就立马翻页、结束会议或转移话题。
我从事数据分析工作已有10年,且有幸同该领域的许多“大咖”合作过。在此期间,我学到的最重要的一课便是:好的数据科学远没有人们想象的那么复杂。事实上,最好的数据科学便是一种出乎意料的直觉。[1]
为什么数据科学可以凭直觉感知呢?数据科学的核心在于发现不同模式以及预测一个变量如何影响其他变量。人们一直在做这类事情。
只需看看我祖母给出择偶建议的方式就会明白这一点。她利用了自己大脑中的情侣关系大数据库,这个数据库在她近百年的生命中持续更新,包括她从她的家人、朋友及熟人那里听到的许多故事。首先,她把自己的分析限定在某个情侣关系样本中,这个样本中的男性和我有着很多共同特质——敏感、孤僻、幽默;其次,她把目光锁定在女性的重要特质上,比如是否善良、是否聪明、是否漂亮;再次,她把女性的这些重要特质和前述情侣关系中的某个重要特质联系起来,看看是否合拍;最后,她得出自己的结论。换句话说,她辨识出许多模式并且预测一个变量如何影响其他变量。我的祖母就是一位数据科学家。
你也是数据科学家。小时候,你注意到自己一哭,妈妈就会关注你,这就是数据科学。成年后,你发现如果总是抱怨,人们就会渐渐疏远你,这也是数据科学。当人们渐渐疏远你时,你会发现自己越来越不开心。当你越来越不开心时,就会变得越来越不友善。当你变得越来越不友善时,人们就更不愿意和你来往了。数据科学!数据科学!还是数据科学!
因为数据科学太出于本能了,所以我发现,几乎任何一个聪明点儿的人都可以理解最好的大数据研究。如果你无法理解某项研究,那问题或许在于研究本身,而不是你。
想要证明大数据科学的直觉性倾向吗?最近,我偶然发现一项研究,这项研究算得上过去几年展开的最重要的研究之一了,也是我见过的最具直觉性的一项研究。我想让你考虑的不仅是这项研究的重要性,而且包含其体现的本能和直觉特性。
该研究是由哥伦比亚大学和微软共同组成研究团队携手推进的。该团队希望发现什么样的症状可以预示胰腺癌。[2]这种癌症的存活率极低(只有3%的概率能活过5年),但如果发现得早,患者的存活率就会翻番。
研究人员用了什么办法呢?他们利用了必应和谷歌搜索引擎内数万名匿名用户的数据信息。他们总能锁定近来刚被确诊为胰腺癌患者的用户,因为这些用户曾有过明确的搜索,比如“刚刚被确诊为胰腺癌”或“医生说我患胰腺癌了,我还能有什么指望”。
接下来,研究人员对健康症状的搜索进行了研究,他们选取了少量后来被确诊为胰腺癌患者的用户和那些未被确诊的用户进行对比。那么,在短短几周或几个月内,什么样的症状可以预示一个用户将会被确诊为胰腺癌患者呢?
结果令人惊讶。事实证明,先后搜索“背部疼痛”和“皮肤发黄”这两个词条的用户最终都被确诊为胰腺癌患者,而只搜索“背部疼痛”的用户则不太可能得这个病;同样,搜索“消化不良”和“腹痛”这两个词条的用户都被确诊为胰腺癌患者,而只搜索“消化不良”则意味着此人不太可能罹患此病。研究人员可以识别5%~15%的案例,几乎没有误报。尽管这也许算不上很大的概率,但如果你是胰腺癌患者,即便只有10%的概率可以使你的存活率翻番,也算是上天的恩赐了。