• 欢迎访问热点图书网

女士品茶-电子书下载

人文社科 2022年7月14日

简介

统计学之所以被滥用、误用,其实是因为它太有用,在某种程度上,可以说改变了世界上处理问题的方式。
这是一部统计学的史诗。一百多年来,统计学从无到有,以至于蔚为壮观。一部统计学的发展史,就是一部不断革新现有科学体系的历史。本书深入浅出地描绘了这一历程,为读者奉献了一场思想的饕餮盛宴。
这是一部关于叱咤风云的统计学学霸的传奇故事书。回望那段波澜壮阔的时代,一张张脸孔水一样掠过。在英国剑桥的某个午后,有位女士声称,把茶加到牛奶里,和把牛奶加到茶里,两种方法调出来的下午茶喝起来味道不同。在座的科学家都对她的说法嗤之以鼻,但有位来访的瘦小绅士,R. A. 费希尔,提议要用科学的方法,来检验这位女士的假设……本书以这位喝下午茶的英国女士为起点,带领读者一一回顾“统计”这门应用范围最广的科学,了解若干重要理论的发展过程与应用,亲近那些隐身幕后的统计学家,看看统计究竟为今天这个世界,带来了什么样的改变。
这是一部大数据时代不容错过的实用之书。大数据时代,一切以数据说话,如何解读数据便与每个人的日常生活息息相关。统计学的本质就在于解读数据,读懂了本书,你就是大数据时代的明白人。

作者介绍

戴维·萨尔斯伯格(David Salsburg),康涅狄格大学统计学博士,原辉瑞公司资深统计研究员,美国国家统计学会(ASA)会员,先后任教于哈佛大学公共卫生学院、康涅狄格大学、宾州大学、罗德岛学院及三一学院,著有多部统计学专著,本书是其代表作。

部分摘录:
《生物统计》的计划 包括高尔顿、皮尔逊、韦尔登在内的一群充满干劲的英国科学家正在研究如何利用一位杰出同胞——查尔斯·达尔文的思想。达尔文的进化论认为,生命形式在环境压力下会发生改变。他认为,变化的环境能让更适应新环境的随机生物获得微弱优势。渐渐地,随着环境的变化和生命形式的不断随机突变,一个更加适合在新环境下生存繁衍的新物种就会出现。这种思想简称为“适者生存”,它对社会学产生了不利影响,因为傲慢的政治学者将其搬到了社会生活中,宣称在经济博弈中获胜的富人比失败的穷人更适合生存。适者生存理论为猖狂的资本主义提供了一个合法证明,富人得以心安理得地鄙视穷人。
在生物学领域,达尔文的思想似乎具有很强的合理性。达尔文指出,亲缘物种的相似性表明这些现代物种源自某个相同的早期物种;居住在不同岛屿上、差异很小的鸟类物种在结构上有许多相同点。他还指出,不同物种的胚胎具有相似性,包括最初长有尾巴的人类胚胎。
美中不足的是,达尔文无法举出一种在人类历史上产生的新物种。达尔文认为新物种产生的原因是适者生存,但是他并没有证据。他只能指出现代物种非常“适应”它们的环境。达尔文的观点看起来可以解释我们已知的事实,而且拥有迷人的逻辑结构。不过,犹太人有一句古话这样说——“举例并不是证明”。
皮尔逊、高尔顿和韦尔登在新期刊中试图弥补这个缺点。根据皮尔逊将现实看作概率分布的观点,达尔文雀(他在书中使用的一个重要例子)并不是科学研究的对象,真正的对象是某个雀鸟物种所有个体的随机分布。如果能测量出某个雀鸟物种所有个体的喙长,就能得到这些喙长的分布函数的四个参数,而这四个参数就代表了该物种的喙长。
皮尔逊说,假设某种环境力量能够让某些特定的随机突变获得生存优势,进而改变某个物种。我们可能无法在有生之年看到新物种出现,但我们也许可以看到四个分布参数的变化。在创刊号中,三位编辑宣布,他们的新期刊将收集来自全世界的数据,以确定分布参数,希望最终能看到与环境变化相关的参数变化。
他们将新期刊命名为《生物统计》。这份期刊得到了高尔顿成立的生物统计学信托基金的慷慨资助。资助可谓非常慷慨,因为该期刊是第一份刊印全彩照片并带有复杂绘图的半透明折页期刊。它使用优质碎布纸,并且用到了极其复杂昂贵的排版技术,以便将最复杂的数学公式刊登出来。
接下来的25年,《生物统计》刊登了记者发来的各种数据。有的记者深入非洲丛林,测量当地生物的胫骨和腓骨;有的记者在中美洲热带雨林捕捉鸟类,测量其喙长;还有的记者造访古墓,挖出人类头骨,倒入铅弹,测量颅容量。1910年,该期刊登载了几幅全彩照片,这些照片上俾格米男人裸身躺在地上,松弛的生殖器旁还摆着量尺。
1921年,年轻的女记者朱莉娅·贝尔(Julia Bell)描述了她试图对阿尔巴尼亚军队招收的新兵进行人体测量时遇到的麻烦。她离开维也纳,千里迢迢来到阿尔巴尼亚的一个军事据点,相信能找到讲德语的军官帮助她。结果,那里仅仅有一位会说三个德语单词的军士。朱莉娅并不气馁,她取出青铜测量杆,然后咯吱那些年轻人,结果他们像她希望的那样抬起了手和脚。士兵们终于理解了她的意图。
对于每一组数据,皮尔逊和他的计算员们都会算出四个分布参数。他们会在文章中展示拟合程度最好的分布图像,并就这种分布与其他相关数据的分布有何区别发表见解。现在想来,我们很难看出所有这些活动对证明达尔文的理论有什么帮助。在浏览《生物统计》期刊时,我感觉到这些活动很快变成了一种为了计算而计算的工作,除了估计出一组给定数据的参数外,没有其他实际作用。
期刊中还夹杂着其他一些文章。有些涉及理论数学,用于解决伴随概率分布的发展而产生的问题。例如,1908年,不知哪位作者以“学生”为笔名,提出了“学生”的“t检验”,这一检验至今仍然在几乎所有现代科学工作中发挥着重要作用。我们在后面几章还会提到这位匿名作者,讨论他在卡尔·皮尔逊和罗纳德·费希尔之间不成功的调解工作。
高尔顿死于1911年,而韦尔登之前已死于阿尔卑斯山的一场滑雪事故。这让皮尔逊成了《生物统计》的唯一编辑和信托基金的唯一使用者。接下来的20年,《生物统计》成了皮尔逊的个人期刊,只刊登皮尔逊认为重量级的文章,不刊登皮尔逊认为不值一提的文章。期刊中充斥着皮尔逊撰写的评论,他在评论中运用丰富的想象力涉猎了各个领域的问题。人们在翻修一座古老的爱尔兰教堂时,在墙壁中发现了白骨,皮尔逊通过对这些骨骼进行测量以及复杂的数学推理,以判断它们是否是某个中世纪圣徒的骨骼。有人发现了一个头骨,称这是奥利弗·克伦威尔(Oliver Cromwell)的头骨。皮尔逊在一篇精彩的文章中对此进行了研究。文章描述了当时已知的克伦威尔尸体的可能遭遇,然后比较了根据克伦威尔油画得到的测量结果与头骨的测量结果。②在其他文章中,皮尔逊研究了古罗马君主的在位时间和古罗马贵族的衰落,还涉猎了社会学、政治学、植物学,所有这些都用到了复杂的数学工具。
临终前,卡尔·皮尔逊发表了一篇短文,名为《论犹太人与非犹太人的关系》。他在文中分析了来自世界各个地区的犹太人和非犹太人的人体数据,认为国家社会主义党人(即纳粹党人的正式称呼)的种族理论没有任何意义,世界上并不存在犹太种族或雅利安种族。这份遗作体现了他思路清晰、条理分明、推理严谨的一贯风格。
皮尔逊用数学方法研究了人类思想的许多领域,不过很少有人会认为这些领域属于正常的科学范畴。通读他在《生物统计》中撰写的文章,我仿佛看到了一个兴趣广泛的人,这个人拥有一种出众的本领,能够发现任何问题的本质并找到一个解决问题的数学模型。通读他的文章,我仿佛又看到了一个意志坚定、固执己见的人,这个人将下属和学生看作自己意志的一种延伸。我想我愿意跟卡尔·皮尔逊待上一天——前提是我和他不会发生思想上的冲突。
他们证明了达尔文的适者生存进化论吗?也许吧。通过比较古墓中头骨的颅容量和现代人的颅容量,他们证明了人类在数千年的历史中一直保持着稳定的特征。通过证明澳大利亚土著的人体测量结果与欧洲人的人体测量结果具有相同的分布,他们推翻了澳大利亚人关于土著不属于人类的论断。在这项工作中,皮尔逊提出一种被称为“拟合优度检验”的基本统计工具,这是现代科学不可缺少的一项工具。科学家可以通过它判断一组给定的观测值是否符合某个数学分布函数。在第10章,我们将会看到皮尔逊的儿子如何用这种拟合优度检验将其父亲的大部分工作成果推翻。
随着时间的推移,《生物统计》的文章越来越多地关注数理统计中的理论问题,很少再去关注具体数据的分布。当卡尔·皮尔逊的儿子埃贡·皮尔逊(Egon Pearson)继任编辑时,这份期刊已经完全转移到了理论数学领域。今天,《生物统计》仍然是该领域的一份杰出期刊。
他们到底是否证明了适者生存理论呢?最接近答案的一次探索发生在20世纪早期。在那时韦尔登设计了一项大型实验。由于18世纪英国南部瓷器工厂的发展,一些河流淤积了大量黏土,普利茅斯和达特茅斯的港口也因此发生了改变,内港区的淤泥含量高于外港区。韦尔登在这些港口捕捉了几百只螃蟹,将它们放入单独的玻璃罐中,其中一半的玻璃罐使用内港区富含淤泥的水,另一半的玻璃罐使用外港区淤泥含量较少的水。过了一段时间,他对活下来的螃蟹的甲壳进行测量,以确定在清水中和泥水中幸存的两个螃蟹群体的分布参数。
正如达尔文预测的那样,在泥水中幸存的螃蟹的分布参数发生了改变!这是否证明了进化论呢?遗憾的是,韦尔登还没来得及整理实验结果就去世了。皮尔逊在对数据的初步分析中描述了这个实验及其结果,但最终分析结果一直没有出来。英国政府作为实验经费的提供者,要求他们提交一份最终报告,但这份报告一直没有出现。既然韦尔登已经去世,实验也就只能不了了之了。
对细菌和果蝇等短命物种而言,达尔文的理论被证明是真实的。通过这些物种,科学家可以在短时间内对数千代个体进行实验。现代DNA研究,作为遗传的基石,已经为物种之间的联系提供了更有力的证据。如果我们假设基因的突变速度在过去1000万年或更长的时间里保持稳定,我们就可以通过研究DNA来估计灵长类物种和其他哺乳类物种诞生的时间范围。至少,它们已经有数十万年的历史了。目前,大多数科学家都相信达尔文的进化论是正确的。除了进化论,没有哪个理论能够与所有已知事实匹配得如此完美。科学家对此很满意,没有人再去尝试通过分布参数的变化证明生物在短时间内发生了进化。
皮尔逊掀起的这场革命为我们留下了一份宝贵的思想遗产,那就是,科学研究的对象不是可以观察到的事物,而是描述观测值概率的数学分布函数。今天,医学研究用精妙的数学分布模型确定各种治疗方法可能对患者产生的长期影响;社会学家和经济学家用数学分布来描述人类社会的行为表现;物理学家在量子力学中用数学分布描述亚原子粒子。没有哪个科学领域能够躲过这场革命。有些科学家认为使用概率分布只是暂时的权宜之计,最终我们一定有办法回归19世纪的科学决定论。爱因斯坦(Einstein)的名言“我不相信上帝在宇宙中掷骰子”就是这种观点的一个例子。其他人则相信宇宙的基础是随机的,唯一的现实存在于分布函数之中。不管你持有哪种观点,你都不得不承认,皮尔逊关于分布函数和参数的思想统治了20世纪的科学,而且这种趋势在21世纪初依然没有衰退的迹象。

下载地址

下载