女士品茶:统计学如何变革了科学和生活
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第6章 “百年一遇的洪水”

有些洪水顺流而下,来势凶猛,非常罕见,一百年才能出现一次。有什么能比这种“百年一遇的洪水”更加难以预测呢?谁能为这类事件制定计划呢?我们如何对如此罕见的洪水峰值进行估计呢?如果现代科学统计模型处理的是许多观测值的分布,那么这些统计模型如何处理这些没有人见过或者只出现过一次的洪水问题呢?L. H. C. 蒂皮特找到了一种解决方法。

伦纳德·亨利·凯莱布·蒂皮特(Leonard Henry Caleb Tippett)1902年出生于伦敦,在帝国理工学院学习物理学,1923年毕业。他说,他之所以迷上物理学,是因为物理学“强调准确测量……而且对当时的科学争议持有谨慎的态度”。回顾年轻时代的热情,蒂皮特感叹道:“我们往往认为一个假设要么是正确的,要么是错误的,将重要实验看成是增长知识的主要工具。”他有机会做实验时,会发现实验结果永远无法和理论预测值完全吻合。他说,根据经验,“我发现改善采样技术(他在这里指的是统计分布)比抛弃理论的做法要好”。蒂皮特发现,他所钟爱的理论仅仅提供了关于参数的信息,并没有提到关于每个观测值的信息。

于是,L. H. C. 蒂皮特(他在发表的论文中就是这么署名的)通过自己对实验的理解,加入到了统计革命中。毕业后,他在英国棉纺织工业研究协会(俗称锡莱研究所)担任统计学家。当时这家研究所正在研究如何通过现代科学方法改善棉线和布料的制造。一个最让人头疼的问题与新纺出的棉线强度有关。对于不同棉线来说,拉断一股棉线所需要的力量差异很大,即使是在相似环境下纺出的线也是如此。蒂皮特做了一些细致的实验,用不同的拉力拉动棉线后,将棉线放在显微镜下研究。他发现,棉线的断裂取决于其中最弱一根纤维的强度。

最弱的纤维?如何为最弱一根纤维的强度建立数学模型?蒂皮特无法解决这个问题。1924年,他请了一年的假,去伦敦大学学院高尔顿生物统计实验室跟随卡尔·皮尔逊学习。关于这段经历,蒂皮特写道:

在伦敦大学学院的时光是激动人心的。卡尔·皮尔逊是个非常了不起的人,我们能感受到他的伟大之处。他工作勤奋,充满热情,不断对员工和学生给予鼓励。我在那里学习的时候,他仍然在从事研究工作,而且会在讲座上激动而充满热情地将新鲜出炉的研究成果公之于众。他的研究方向当时有些过时,但他的讲座依然十分精彩……他的兴趣非常广泛,例如,有一堂课的题目是“17和18世纪统计学史”……他喜欢与人争辩……他曾发表一系列文章,题为《今日争论问题》……他过去那精力旺盛、喜欢争论的性格仍然弥漫在那里的空气中。统计系的墙壁上装饰着格言和卡通……有一个……由“斯派”画的卡通漫画,讽刺的是“圆滑的萨姆”——即1860年在英国学会上与T. H. 赫胥黎(T. H. Huxley)就达尔文学说进行著名辩论的威尔伯福斯(Wilberforce)主教。这里还陈列了过去数十年发行的出版物,从《人类遗产宝库(人类身体、灵魂和病理特征的谱系)》和《达尔文学说、医学进步与优生学》这些题目,你可以看出统计系的兴趣之广。在一次系年度晚宴上,皮尔逊炫耀了他与高尔顿的亲密关系,当时他在一份报告中总结了一年的工作,并表示,如果高尔顿还活着,他就会把这份报告提交给高尔顿。我们都向这位“逝去的生物统计前辈”敬了酒。

这就是处于人生中最后几年活跃时期的卡尔·皮尔逊。不久之后,皮尔逊的大部分科学成果就会被费希尔和他自己的儿子扫进历史的垃圾堆,被人们遗忘。

尽管皮尔逊的实验室有种种激动人心之处,蒂皮特在此学到的数学知识颇丰,但最弱纤维的强度分布问题始终没有解决。回到锡莱研究所以后,蒂皮特发现了一些伟大的数学发现背后隐藏的一个简单的逻辑道理。他发现了一个看似简单的方程式,这个方程式可以将极值分布与样本数据分布联系起来。

写出方程式是一回事,求解又是另一回事。蒂皮特去请教皮尔逊,但是皮尔逊也帮不了他。在之前的75年里,工程界发现了大量方程式及其解法,散布在大量文献资料里。不过,蒂皮特在这些文献中并没有找到他想要的方程式。

于是,他像高中代数课上表现不好的学生那样,猜了一个答案——结果这个答案真的解开了方程。它是方程的唯一解吗?是这个问题的“正确”答案吗?蒂皮特去请教费希尔。费希尔推导出了蒂皮特猜出来的解,还得到了另外两个解,而且证明该方程式只有这些解。它们被称为“蒂皮特的三条极值渐近线”。