极值理论:不同寻常的预测
从毁灭性的自然灾害到惊人的田径运动纪录, 乃至124岁的寿命——统计学家正在预测一些近乎不可能的事件的几率。
现在,一部分统计学家确信,他们用数学工具能做到看来似乎不可能做到的事:预测以往从来没有发生过的事件的几率。闻名的极值理论乃是70年前开拓性研究的结果,但它的惊人威力,直到今日才被认识。它可帮助保险统计师预测破坏性足以威胁保险公司生存的、极为罕见的事件的可能性。工程师可利用极值理论估算出桥梁、船舶或钻机应建造得经受什么程度的严酷条件。极值理论在学术研究中已被用来探索人类寿命的奥秘。
极值理论的核心是这样一个权威的统计概念,即随机过程的出现率遵守称作“频率分布”的数学法则。例如,测定整个运动场的足球迷的身长时,就会发现很矮的成年人只有几个,“长脚杆”也只是极少数,而绝大部分球迷的身长处于二者之间。不同身长的出现率遵循称作正态分布的钟形曲线。“正态分布”于200多年前就首次由概率论导出,今日已成为现代统计学的支柱。
包括现代统计理论的奠基者、英国数学家R·A·菲舍在内的一些统计学家于20年代发现,不光是像身长这类一般的现象遵循可预测的频率分布。他们发现,诸如一组身高中最高和最矮这样的极值,同样遵循它们本身特有的曲线族。而且同样可从基本的概率论推演出这种曲线的形状。
其概念是这样的:当新的极值出现时——如一次创纪录的暴雨——通常会改变迄今所观察到的所有极值的平均值,但极值曲线的形状却依然保持不变。由概率论从数学上可以说明,只有三种曲线具有此种性质。它们是冈贝尔、弗雷谢和韦布尔分布曲线,它们能给出精确的定量说明,而不是像“愈是极端事件,发生的可能性愈小”云云的模糊概念。
更大的洪水
这三种分布曲线之适合于极值理论,正如正态分布之适合于日常过程:它们能提供严密的数学方法分析过去的档案,如分析极端猛烈的洪水的记录,从而可预测下世纪将要遭遇的更大的洪水的风险率。
听起来这么简单而诱人,但为何这么多年来极值理论却销声匿迹了呢?按照极值理论的主要倡导者之一、北卡罗来纳大学的R·史密斯的说法,早先曾认为,应用该理论需要大量的数据,结果方始可靠。“这就意味着仅当有了千百万个已知数据点时,该理论方能奏效,因而那时看来似乎排除了实际应用的可能”,史密斯说。“但是近来的研究表明,只要有数百个已知数据点就相当奏效了”。统计学家也因早期的极值理论研究曾假定极端事件彼此无关而烦恼过。然而从地震到金融市场的许多现象,均显示出对过去事件的一定的“记忆力”。过去的地震或许预示着一场大地震的发生,而行业破产则可使经纪人数年坐立不安。“为挣脱上述假定的束缚,费了不少时日”,史密斯说“现在终于挣脱了这一束缚,人们有可能把极值理论用于股票市场的波动等时间序列的数据上”。
现在,这一基本理论已得到了清理,正开始显示出它的威力。荷兰鹿特丹的伊拉斯姆斯大学的D·哈恩和他的同事们对极值理论具有极大的兴趣,是理所当然的。荷兰国土几乎有一半处于海平面以下, 预测极端猛烈的洪水是生死枚关的大事,哈恩说,“伊拉斯姆斯大学就处于全国最低的地区”。对于千百万荷兰人来说, 如果围不住海面的高度就是灾难。例如,1953年2月,猛烈的狂风巨浪突破了海防,造成1800人死亡。打从那时起, 荷兰当局一直极端关心用最新的统计方法指导对海湾的防护工作。
1953年灾害后,组成了专家小组委员会,着手分析洪水纪录,提出能经受得住预期一万年仅遇一次的极端猛烈的风浪的海堤设计方案。很快就弄明白,1953年的洪水——高出海平面3.85米——在袭击该国的洪水中,并不是最猛烈的。1570年万圣节(11月1日)的洪水就超出海平面4米。用简单的曲线拟合这些不多的数据,专家小组估计出海拔5米左右的海堤即可满足一万年一遇的指标。然而荷兰人对这个数字究竟有多大的信任呢?
自80年代末以来,哈恩及其同事们尝试借助极值理论来解答这个问题。他们用计算机把极值理论分布曲线拟合历史上的数据,然后根据分布曲线的形态估计出在今后一万年可能一遇的洪水的最极端高度。巧得很, 由于原来专家小组用的是以极值理论的简单的分布曲线模拟原始数据的方法, 因而用完备的极值理论得到的高度标准仅略高于此推荐值。哈恩说, 其客观效果是,对极值理论的结果可能有更多的信任,因为它是建立在关于极端过程特性的稳固的数学法则基础上的。“目前它已被正式采用,用于新的和现有的构筑物中”,他说。
英国政府也十分重视极值理论。最近委任兰开斯特大学的统计学家用极值理论评估英国东海防护设施抵挡来自北海的海潮不断猛烈冲击的能力。
建立在坚实基础上的极值理论的估测能力,似有可能使它在金融部门获得大范围的应用。就极端事件来说,每年支付给保险公司100多亿英镑的支票,对付灾害的秘诀似乎纯粹靠经验。苏黎世瑞士联邦理工学院的P·恩布雷希茨及其同事们正在用极值理论让保险统计师夜里能睡得更安稳一些。保险统计师老是担心,在他们的保险业务的风险部门潜伏着若干很危险的区域, 一次“冲击”,就足以使整个保险业务库变空。
“保险统计师正在用各种概测法来估计保险业务的危险程度”,恩布雷希茨说。“其中之一即所谓20-80法则,即理赔总量的80%以上是由20%个别保险业务的索赔造成的。用极值理论即可在应用20一80法则时把它定得更精确些”。
巨额的索赔
为此,保险统计师可把极值理论分布曲线与包括某保险业务整个范围的历史数据相拟合。所得曲线即可揭示出,存在着一次意外事件即可导致财政崩溃的区域,可说明该保险业务的危险程度。20-80法则对航运等一类保险业务相当适用,能够吐出巨大的索赔。但是它根本不适于其他部门。例如,对飓风数据作极值理论分析,显示适用0.1-95法则。换言之,保险公司可以美美地过上数年,然后就发觉被千次一遇的飓风击中,可一下子吞没掉全部保额的95%。
恩布雷希茨确信,极值理论将使保险公司有更充分的信心给地震、风暴等高风险区域保险,减轻了在“一次巨大打击”中得不到补偿的危险。“这就给产业部门提供了一个坚实、完善的理论,据此可算出对灾难性事件办理保险的保险费,”他说。
最令人感兴趣的极值理论的应用,集中在生物学家和保险统计师均感兴趣的人类寿命这一主题上。关于年龄与死亡率之间关系的数学说明,一向采用英国保险统计师B·冈拍茨于1985年首次提出的概算法。他指出,大体上,人愈老, 预期寿命愈短。“冈拍茨曲线”记录了预期寿命随年龄而下降的精确状况。看来该曲线似乎与人类寿命的经验数据十分吻合,保险统计师根据冈拍茨曲线拟订人寿保险的保费已有多年了。
人能长生不老吗
对于生物学家来说,这一成功有着引人人胜的意义——冈拍茨曲线可简单地永远继续延伸,这就表明人类寿命没有极限。能够相信这一显然耸人听闻的结论吗?当代生物学关于衰老的理论过于简陋,还不足以给出确定的回答。然而由已知量推出未知量,是极值分析法的拿手好戏,哈恩和他的学生阿尔逊在伊拉斯姆斯大学用极值分析理论探究了人类极限寿命的问题。
他们发现,冈拍茨经验曲线具有一定的数学合理性。原来它是极值分布的一个特例。它能否很好适合所有已知数据呢?就以荷兰人的死亡率数据来说,阿尔逊和D·哈恩发现,尽管冈拍茨曲线的确适用于大部分居民,但不适于处理极端状态。计算机分析表明,“最老的老人”的数据适用于完全不同的极值分布曲线。关键在于要有一个最终能预测人类最高寿命的数学形式。少量数据难于定出精确的值,D· 哈恩说。“实际情况还不是太清楚,但可以估计,置信界限较好的选择为113至124。”
尽管这仅仅是根据荷兰人的寿命数据得出的结果,但无疑与人类寿命的观察实际完全吻合迄今为止,还没有人活到超过由该极值理论分析得出的年龄上限。史密斯认为,对于在朦胧的学术领域摸索可靠的答案来说,这些结果突出了极值分析理论的重要性。他说“极值分析法充分利用了所有极端过程的数据。”
这些极端过程——从自然灾害到股票市场破产——具有巨大的吸引力,因而极值分析理论迟早会成为争议的焦点, 种迹象已正在出现。
去年,兰开斯特大学的M·鲁滨逊和J·托恩用极值理论来分析近年来一个最有争议的体育运动成绩——中国田径运动明星王军霞的惊人世界纪录。1993年9月12日,她在北京全国锦标赛中,以8分12秒跑完了3000米,比九年以前的纪录快了10秒43。
第二天,她又刷新了她自己的纪录,又快了6秒多。王军霞的惊人成绩在西方世界引起了轩然大波,照例也有关于服用兴奋剂的非难,中国当局则指出药检阴性,予以反驳。
鲁滨逊和托恩决定察看极值分析理论能否提供解决该争议的线索。他们用过去女子3000米的纪录推算出最佳拟合的极值理论分布曲线,用它估算目前有可能达到的最极端——即最快——的时间。分析揭示,王军霞的速度诚然是不寻常的,但却不是不可能的。根据极值理论分析, 3000米的极限时间差不多可以肯定处于8分3秒至8分17秒之间。王军霞的纪录正处于这一范围内。
法律上的抗辩
这一研究结果,开创了把基于极值理论的论据用于解决法律争端的可能性。“可以看到把它用于法庭的情况”,托恩说。“例如,提出运动员服用兴奋剂的根据时,可用极值理论把该根据定量化,从而有助于说明以过去的纪录为基础的所谓“显而易见”的作弊的根据实际上是站不住脚的。”
托恩说,要说明的是:极值理论并不会变魔术——而只是能比根据经验的曲线拟合和推测做得更好些。“对怀疑论者的回答是:如果人们不用像极值理论这样的很有根据的方法,那么就只能用含糊的方法了。”
New Scientist
1996年10月12日