友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
第三电子书 返回本书目录 加入书签 我的书架 我的书签 TXT全本下载 『收藏到我的浏览器』

女士品茶-第32部分

快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!

ademy of Science)赞助了一项研究,研究在法院中使用统计方法作为裁决依据是否合理。这项研究的主持者是卡内基梅隆大学(Carnegie Mellon University)的斯蒂芬?菲恩伯格(Stephen Fienberg)和明尼苏达大学(the University of Minnesota)的塞缪尔?克里斯洛夫(Samuel Krislov)。这个研究小组在1988年发表了他们的研究报告。研究报告中的许多论文批判了将显著检验用于歧视性案件的作法,所持的论点类似于费歇尔在反对吸烟导致癌症的证据时所使用的理由。如果最高法院想在诉讼中使用显著性检验,它必须确定产生概率的事件空间。
如何找出柯尔莫哥洛夫事件空间?第二种方法来自于样本调查理论。当我们希望通过一个随机样本去判断整个群体的某些事时,我们要精确地确定要研究的人群总体,确立一个选取样本的方法,并且根据该方法进行随机抽样。在实验的结论中存在不确定性,我们可以使用统计方法来量化这一不确定因素。不确定性产生的原因,是因为我们处理的是样本而不是所有人群。我们研究的宇宙现象的真实数值是固定不变的,例如,支持总统施政政策的美国选民的百分数是确定的,只是他们不知道。能够使用统计方法的事件空间,是所有可能的随机样本的集合,同样,这是一个有限集合,它的概率分布是可以计算出来的。概率在现实生活中的含义清楚地建立在抽样调查之上。
当统计方法应用于天文学、社会学、流行病学、法律或者天气预报等观测研究中时,事件空间就不好确定。在这些领域之中的很多争论,通常都是因为不同的数学模型会产生不同的结论。如果我们不能确定可进行概率计算的事件空间,那么就不能说某种模型比另外一种更适用。就像在很多法律案件中所显示的那样,两个统计专家分析同一组数据却得不到统一的结论。当统计方法越来越多地被政府和社会团体应用到观察研究和解决社会问题时,这个基本问题的存在,即不可能算出确切概率的事实,将使人们对这些统计方法的有效性产生怀疑。

人们真的懂得什么是概率吗?
概率在现实生活中还有一个含义是“个人概率”。美国的L?J?萨维奇和意大利的布鲁诺?德费奈蒂是倡导这种观点的先驱。其先驱地位的确定是因为萨维奇1954年出版的《统计学基础》(The Foundations of Statistics)一书。在这种观点下,概率是一个广泛的概念,人们很自然地使用概率来支配生活。在进行冒险前,人们总会本能地根据可能产生结果的概率根据可能产生结果的概率进行决策,如果预想危险的概率很高,人们就会采取回避的态度。对萨维奇和德费奈蒂来说,概率是一个普通的概念。人们不必去联系柯尔莫哥洛夫的数学概率,我们所要做的就是建立一些一般性的规则,将个人概率与生活联系起来,因此,我们只要假设人们在判断事件的概率时所遵照的规则是一致的就可以了。萨维奇在这一假设下提出了一些关于内部一致性的规则。
按照萨维奇和德费奈蒂的方法,个人概率对每个人来讲是独特的。对同样的数据进行同样的观察,有的人会判断降水概率是95%,有的人则会判断是72%,这样的事情是极有可能发生的。利用贝叶斯定理,萨维奇和德费奈蒂向人们展示了具有相同个人概率的两个人如果分析的是同一序列数据,最终他们会得到相同的概率估计。这是一个令人满意的结论:人看起来都是不同的,但却都是理性的。如果提供了足够的数据,理性的人们会最终求得共识,哪怕最初他们是存在意见分歧的。
约翰?梅纳德?凯恩斯在1921年发表的题为《关于概率的讨论》(A Treatise on Probability)的博士论文中,对个人概率提出了不同的看法。凯恩斯认为,概率是在某一文化教育背景下的人们,对其既定情况的不确定性的测量,概率的判断不仅是个人内心的直觉,还与个人的文化背景有关系。如果我们想在72%和68%之中作出哪一个更准确的选择,用凯恩斯的方法就会很困难,因为人们的总体文化水平很难达到精确的同一程度。凯恩斯指出,如果只是为了做决定,我们很少或根本不必去知道这些事件确切的概率数值,只要将事件进行排序就足够了。根据凯恩斯的理论,我们只要知道哪一事件更可能发生就可以了。明天下雨比下冰雹的可能性要大,或者说明天下雨的可能性是下冰雹可能性的两倍。凯恩斯指出,概率可以是部分排序(partial ordering)。不必要把每件事与其它事情进行比较。我们可以忽视某些概率关系,如根本不必要把扬基队得总冠军的概率与明天下雨的概率联系起来。
照这样,关于概率含义的两个结论取决于人类对不确定性量化的愿望,或者至少是大致的量化的要求。在凯恩斯的《关于概率的讨论》中,他为他的个人概率的部分序列设计出了一个正式的数学结构。他的做法比柯尔莫哥洛夫为数学概率建立基础理论还要早。他所做的工作没有借鉴柯尔莫哥洛夫的理论。凯恩斯声称,他的概率的定义有别于1921年提出的概率数学的一系列数学计算公式。为了使凯恩斯的概率定义得到应用,使用者还必须符合萨维奇的一致性原则。
凯恩斯的定义提供了关于概率的一种观点,它是用统计方法进行决策的基础。这种观点认为概率不再以事件空间为基础,而是产生于所涉及人员的个人感觉的数值。接着希伯来大学(Hebrew University)的两个心理学家——丹尼尔?卡内曼(Daniel Kahneman)和阿莫斯?特韦尔斯基(Amos Tversky)开始了他们关于个人概率的心理学研究。
在20世纪70年代和80年代间,卡内曼和特韦尔斯基研究了个体理解概率的方式。他们的研究成果编入了由P?斯洛维奇(P。 Slovic)编辑的《不确定情况下的判断——启发与偏见》(Judgment under Uncertainty: Heuristics and Biases)一书中。他们为大学生、大学教员和一般的市民提出了许多概率场景,他们发现没有人符合萨维奇的一致性原则,相反,大多数人对不同概率数值的含义甚至没有一个一致的观点。他们所发现最好的一点就是人们对50:50和“几乎肯定”的含义有着一致的认识。通过卡内曼和特韦尔斯基的研究,我们可以得出结论:天气预报员尽力想区分降雨概率90%和75%间的不同,但实际上他们根本不可能说清楚,而那些预报的收听者也不可能真的说清楚这两者间的区别。
1974年,特韦尔斯基在皇家统计学会的一次会议上宣布了他的研究结果。在随后的讨论中,斯坦福大学的帕特里克?苏佩斯(Patrick Suppes)提出了一个简单的概率模型,符合柯尔莫哥洛夫的公理,并且也模拟卡内曼和特韦尔斯基的发现。这意味着用这个模型的人在他们的个人概率方面应该是一致的,在苏佩斯的模型中只有五个概率值:
必然为真
为真的可能性大
为真的概率为一半
为真的可能性小
必然为假
这导出了一个很无趣的数学理论。大概只有六个理论可由此模型导出,并且它们的论证几乎是不言而喻的。如果卡内曼和特韦尔斯基是对的,那么惟一有用的个人概率将对奇妙的抽象数学理论十分不利,并且由此产生的统计模型极基有限。事实上,如果苏佩斯的模型是惟一适合个人概率的模型,许多标准统计分析方法就毫无用处了,因为它们算出的差异水平低于人类感觉的水平。

概率真的必要吗?
统计革命背后的基本观点是:科学真实的主体是数字的分布,这个分布可以通过参数来描述。将概念溶入概率理论并处理概率分布,这是数学的方便之处。将数字的分布看作是概率数学理论的元素,这样就可以建立参数估计量的最优化标准,然后,去解决用数据描述分布时遇到的数学问题。因为概率看起来与分布的概念的关系是与生俱来的,许多人做了很多工作,试图让人们理解概率的含义,努力将概率的含义与现实生活联系起来,并且使用条件概率这一工具去解释学实验和观测的结果。
分布的思想可以存在于概率理论之外。事实上,许多“非正常分布”(improper distributions)(因为这些分布不符合概率分布的所有要求)已经应用于量子力学和一些贝叶斯方法中。排队论(queuing theory)(指两次排队间的平均间隔时间等于在队伍中等候的平均时间)的发展,推导出一个非正常的分布——描述一个人加入队伍必须要等候的时间。这正是一个将概率论的数学理论应用于实际生活,同时却将我们带离概率分布集合的一个例子。

21世纪将会发生什么事?
柯尔莫哥洛夫表现出来的最后的聪明才智,是他用一组有限符号序列的特性来描述概率。在这个描述中,信息理论不是概率计算的结果,而是概率本身的起源。也许在将来,某个人会继续他的工作,并且发展一个新的分布理论,而在新的分布理论中数字计算机的特性会被带入哲学理论的范畴。
谁知道呢?也许在什么地方有另外一个费歇尔,正工作于科学的最前沿,并在不久的将来,会以其前所未有的见识和观念打破目前的书面?也许在中国的内地,另一个吕西安?勒卡姆已经在一个没有文化的农家出生了;或者在北美,另一个乔治?博克斯只上了初中就休学了,现在正在做机修工,正在努力自学;也许另一个格特鲁德?考克斯将要放弃当传教士的愿望,被科学和数学的谜团深深吸引;或者另一位威廉?S?戈塞特正在努力寻找方法去解决啤酒发酵问题;或者另一个奈曼或皮特曼正在印度某个偏远的地方学院里教书,并且思考着深奥的问题。谁知道下一个伟大的发现将发生在什么地方?
当我们进入21世纪的时候,统计革命在科学领域取得了胜利,除了极少数的角落,它已经征服了科学界几乎所有领域的决定论观点。统计观点的应用如此广泛,以至于其基本假设已经成为西方世界通俗文化的一部分,就如同一尊泥菩萨一样立在那里,洋洋得意,而在未来的某个隐蔽的角落,另一场科学革命正在孕育,而那些即将发起这场革命的男男女女,可能正生活在我们中间。










作者后记
在写这本书之前,我已经将那些对统计发展有贡献的女士和先生们分成了两组,一组是我在书中提及到的,一组是我没有提及的。第一组人可能对我在书中只提及他们一小部分的工作而感到不满意,第二组人可能会因为我根本就没有提及他们的工作而表示抗议。。为了表达我对他们的敬意,我有必须解释一下我取舍的原则。
对第一组取舍的原因在于:现代科学的范畴太大了,任何人都不可能知道它所有的支派。因此,在有些研究领域,统计方法的应用可能非常广泛,但是我却不知道。在20世纪70年代,我曾查找过关于计算机在医学诊断中应用的资料。在查找过程中,我发现有三个互相独立的支派,在任何一个支派内人们互相引述论文,并且都发表在同一份期刊内,但是,不同派别的科学家却很少了解其他派别的人在做什么。这还只是在医学界这样一个小小的相关领域中的情形,在更广阔的科学界,可能有很多人群在应用统计方法,并且可能有一些成果在我从来没听过的期刊中发表。我对统计革命结果的认识,来自于对一些数理统计主流期刊的阅读。不阅读这些主流期刊或者不在这些期刊中发表文章的统计学家,就像发展模糊集合论(fuzzy set theory)的工程师,他们可能做了很多值得记载的工作,但是因为他们不在我知道的科学或数学期刊上发表文章,那么他们的工作就不会被包括进来。
有些东西我是知道的,但还是被省略了。我不想写一本关于统计方法论发展的全面的历史书,因为这本书的读者定位是一些不懂或者略懂数学的人,所以我不得不选择一些能用文字而不是用数学符号来解释的例子,这就更进一步限定了我的选择。另外,我还想让这本书读起来比较流畅,如果我用了数学符号,我可能就可以说明了众多主题间的关系了。但是没有数学符号,这本书很容易退化为一种观念的介绍,这些观念间没有什么关系。这本书需要一条主线将各个主题组织起来,我所选择的贯穿20世纪统计学复杂理论的主线是与别人不一样的,一旦这条主线确定了,我就不得不忽视了统计学的很多方面,而实际上,我对它们同样非常感兴趣。
在我的书中,很多人我都没有提及到,这并不代表他们的工作不重要,更不代表我认为他们的工作不重要。仅仅是因为本书的结构限制,我没有办法将他们的研究写进来,只好放弃。
我希望读者读了本书后能有所启发,去进一步了解统计革命的内涵。我希望有人在读后甚至能钻研这个题目,加入统计研究的行列。在参考书目中,我选择了一些供没有数学学习背景的人阅读的图书和文章。在这些书中,其他许多统计学家尝试向我们解释了统计所学带给他们的乐趣,那些想进一步了解统计革命的读者将会喜欢其中的一些书。
我要感谢W。 H。 Freeman出版的公司相关人员在本书出版过程中所做的工作。感谢Don Gecewicz细致的校对与编辑;感谢Eleanor Wedge和Vivien Weiss最后文字定稿和进一步的校对;感谢Patrick Farace对本书潜在价值的肯定;感谢Victoria Tomaselli、Bill Page、Karen Barr、Meg Kuhta和Julia Derosa对本书的美术制作工作。






大事年表
年份 事件 人物
1857 卡尔?皮尔逊出生 K?皮尔逊(Karl Pearson)
1865 圭多?卡斯泰尔诺沃出生 G?卡斯泰尔诺沃(Guido Castelnuovo)
1866 格雷戈尔?门德尔从事植物杂交实验 G?门德尔(Gregor Mendel)
1875 弗朗切斯科?保罗?坎泰利出生 F?P?坎泰利(Francesco Paolo Cantelli)
1876 威廉?西利?戈塞特出生 W?S?戈塞特(“学生”)(William Sealy Gosset)
1886 保罗?利维出生 P?利维(Paul Lévy)
1890 罗纳德?艾尔默?费歇尔出生 R?A?费歇尔(Ponald Aylmer Fisher)
1893 普拉桑塔?钱德拉?马哈拉诺比斯出生 P?C?马哈拉诺比斯(Parasanta Chandra Mahalanobis)
1893 哈拉尔德?克拉美出生 H?克拉美(Harald Cramér)
1894 耶日?奈曼出生 J?奈曼(Jerzy Neyman)
1895 发现偏斜分布 K?皮尔逊
1895 埃贡?S?皮尔逊出生 E?S?皮尔逊(Egon S。 Pearson)
1899 切斯特?布利斯出生 C?布利斯(Chester Bliss)
1900 格特鲁德?M?考克斯出生 G?M?考克斯(Gertrude M。 Cox)
1900 重新发现格雷戈尔?门德尔的成果 W?贝特森(W。 Bateson)
续1
年份 事件 人物
1902 《生物统计》(Biometrika)第1期出版 F?高尔顿(F。 Galton)、K?皮尔逊、R?韦尔登(R。 Weldon)
1903 安德烈?尼古拉耶维奇?柯尔莫哥洛夫出生 A?N?柯尔莫哥洛夫(Andrei Nikolaevich Kolmogorov)
1906 塞缪尔?S?威尔克斯出生 S?S?威尔克斯(Samuel S。 Wilks)
1908 《平均数的可能误差》(“The probable Error of the Mean”)“学生”t检验(student’s ttest) W?S?戈塞特
1909 弗洛伦斯?南丁格尔?大卫出生 F?N?大卫(Florence Nightingale David)
1911 弗朗西斯?高尔顿爵士去世 F?高尔顿(Fran
返回目录 上一页 下一页 回到顶部 0 0
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!