——评纳特·西尔弗《信号与噪声》
⊙潘启雯
人们对未来的憧憬远远大于对历史的回望,为了探寻“下一刻会发生什么”,在民间流传的“预言书”也就不可避免地充满了极大的诱惑力,比如中国的《推背图》和《烧饼歌》,西方的《诸世纪》和《圣经启示录》等。美国统计学家纳特·西尔弗(Nate Silver)对社会各种突出而棘手的问题,就始终抱有浓厚的关切和大胆的预测。他的处女作《信号与噪声》涉及的预测话题,不仅涵盖信息技术和科学进步,也包括自由市场、商业竞争以及观念革新。不过,他的预测建立在统计学理论之上,有综合多种知识的严谨分析之法,所以,他的著述,与中国和西方“预言书”传递着迥然不同的“预测理念”。
在2012年美国总统大选时,西尔弗就曾以“大数据”为基础,成功预测了几乎每个州的选情和最后的胜出者。当时奥巴马和罗姆尼的选情很接近,评论员们都无法预计谁会获胜,西尔弗以主要民调机构在各州不断更新的访查结果为基础,计算出“真实”情况,认定两者并非旗鼓相当。在投票当天他成功预测奥巴马将有90.9%的机会获得大多数选票,最后他对美国50个州投票结果的预测全对了。而在2008年美国总统大选时,50个州的投票结果,西尔弗预测对了49个。
被称为“神奇小子”的西尔弗早年既没有从哈佛、耶鲁辍学的经历,也没有从实验室建造改写历史记录和数学模型的成绩,但他是扑克游戏和棒球高手,曾靠在网上玩扑克游戏赚得40万美元,也曾一夜间输掉7.5万美元。扑克游戏和棒球点燃了西尔弗对数据的热情,由此他的政治选情分析被美国政治评论圈认为达到了“前所未有的水平”,但又因为他所使用的“预测理论”是被学界称为“巫术统计”的贝叶斯定理(也称贝叶斯推理,它建立在主观判断的基础上,可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为其主观性太强,曾遭到许多统计学家的诟病),所以也招惹来频率学派和一些保守统计科学家的质疑。
在美国,做选情预测的统计员不计其数,西尔弗之所以能成为数据超人,皆因他在每次大选“似是而非”或“似非而是”的节骨眼上证明了大多数时政评论员的“无用”,同时他在纽约时报网站的博客,也让众多企业看到了大数据应用的真实性和可视化、行业化的希望。
在金融行业流行的一句与预测相关的名言是:重要的不仅是预测下雨,还要建造诺亚方舟,从这个意义上说,旨在回答如何才能从海量数据中筛选出真正的信号,摒弃噪声的干扰,做出接近真相的预测的问题的《信号与噪声》,提供了面对海量数据预测时建造用于预测的“诺亚方舟”的一些思路和方法,其论述与美国阿姆赫斯特马萨诸塞大学随机科学系教授纳西姆·尼古拉斯·塔勒布的《黑天鹅》的观点有异曲同工之妙。
西尔弗用七个章节的大篇幅,从失败的预测里提炼出三条准则:
其一,必须要有足够的信息,这是一切预测的大前提。早些年,天气预报一直被人诟病其不够精确,很大程度上还是因为信息太少。再比如,恐怖袭击杀伤性的分布符合幂律分布。幂律分布的特点是“没有最大,只有更大”。也就说,美国遭到“9·11”恐怖袭击之后,会有万人以上死亡级别的恐怖袭击,只是不知道什么时候。
其二,预测需要一个适当的方法或模型,用来处理第一阶段收集到的大量信息。早在2008年美国金融危机前,就有大量经济学家以及评级机构在处理信息后发现,房地产泡沫的危险系数非常高,然而他们因种种原因放过了这个结论。如西尔弗所言:“他们只是不想让‘音乐’停下来罢了”,于是就有了这第三个准则:以客观理性的态度对待那些信息以及经过处理后所呈现的数据,譬如1997年5月在超级电脑“深蓝”与人类有史以来最伟大的国际象棋名家卡斯帕罗夫对决中,“深蓝”就完美诠释了什么是客观与理性。
在有关概率的解说中,贝叶斯定理能告诉人们如何利用新证据修改已有的看法。贝叶斯定理看似很简单,就一个计算公式,但这个公式对于“先验概率”的初始值给予的权重非常之高,认为新证据的出现会修正原先的概率,但幅度不会那么大。相反,“先验概率”如果非常之强的话,对最后“后验概率”的影响会更大。这和亚当·斯密的“无形之手”有些相似之处。亚当·斯密强调人类由于缺少认识全局的信息,只能根据新近获取的知识来确定对事物价值的看法,通过人与人之间无数的交易活动修正这种看法,从而形成供需平衡的价格信号。西尔弗则认为,市场机制作为一种预测机制,是将个人的独立决策整合为群体决策,所以是预测价格的最优机制。
如果说信息稀缺制约着预测,西尔弗则认为“信息越多,问题越多”:“一旦信息增长的速度过快,而我们处理信息的能力不足,情况就很危险。过去40年的人类历史表明,把信息转变为有用的知识可能还需要很长时间,一不小心,我们就有可能倒退回去”;“信息不再那么稀有,我们拥有的信息多到无法下手,有用的信息却寥寥无几,我们主观地、有选择地看待信息,但对信息的曲解却关注度不够,我们以为自己需要信息,但其实我们真正需要的是知识”。
这并非危言耸听,据国际商业机器公司(IBM[微博])估计的数据,现在我们每天生成的数据高达250兆亿字节,超过以往两年内生成的数据总量的90%。面对过量信息时,人们会本能地选出喜欢的,忽略其他的。“虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。这就好比对恺撒密码解码一样,我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。要提高数据分析的质量,首先要对我们自身提出更高的要求。”
当然,西尔弗完全不赞同“根本不存在客观真理”这一虚无缥缈的说法。相反,他认为要做出准确的预测,首要前提就是坚信客观真理的存在,并且执着地追寻。而预测者的另一个承诺,就是要认识到他无法穷尽对客观真理的认知。“预测之所以重要,是因为它连接着主观世界与客观现实”——当代西方最有影响的哲学家之一卡尔·波普尔也早就意识到了这一点。对波普尔来说,假设并不科学,可证伪的假设才是科学的。然而,“令我们裹足不前的是,经过验证的那些为数不多的想法的实际作用并不大,而且许多想法未经过检验,或者根本就无法检验。在经济领域中,验证失业率预测的准确性要比验证刺激消费政策的效果的论断容易得多。”
科学研究往往强调客观性。但物理学家和哲学家迈克尔·波兰尼在他的《个人知识》中质疑:从科研工具的制造到科研过程的深入,每个阶段都有人的主观性介入;英国经济学家阿尔弗雷德·马歇尔在《经济学原理》中也有类似的观点,即经济学假设都内涵人的主观判断。西尔弗也坦言:“预测之所以难做与其之所以重要的原因是一样的:预测是主观事实与客观事实交汇的产物。从噪声中区分信号既需要科学知识,也需要自知之明。”从这个意义上说,《信号与噪声》是波兰尼和马歇尔前述思想更为通俗的表达。西尔弗发现,预测的困难来自于预量,而预量可分为易观察的、不易观察的,前者受人的主观性影响较小,而后者的预量更多要依靠人的想象力和创造力。但预测成功的关键在于有没有承认人的无知,而不是对采用的模型和方法的科学性、客观性过于自信。对工具本身过于自信,就不容易识别出噪声,从而失去正确的预测信号;而只有承认自己的无知,下结论时遵循贝叶斯式的概率思维,才能时刻警惕噪声的存在,发现真正的信号。
无论是美国的珍珠港事件、“9·11”事件、次贷危机,还是雪灾、地震、流感等,概莫能外。人们似乎习惯了(也擅长)以自身有限的生活经验和不堪一击的信念来解释不可预测的事件,并自信于能把握趋势、洞察未来。然而,在生命、世界和大自然面前,人是显得多么渺小、脆弱和无知。由此,西尔弗认定:只有正确运用统计学工具的人,正确区分预测中哪些是主观现实、哪些是客观现实,哪些是干扰预测的噪声、哪些是有价值的信号,或许才能提供意想不到的启发性视角,做出准确的预测。