数据发掘为什么诞生不了“股神”?
作者头像
  • 星小海
  • 2020-01-10 08:10:23 0

所评图书:

书名:《错觉:AI如何通过数据挖掘误导我们》

作者:加里·史密斯

译者:钟欣奕

出版社:中信出版集团

出版日期:2019年12月

人们总是渴望成为股市的高手。因此,大家不断寻找能够解释过去股市趋势的新奇规则,并借助数据挖掘技术来验证这些规则。

例如,有人声称,当大多数女性喜欢穿高跟鞋时,市场会向好发展;相反,当女性偏好低跟鞋时,市场可能会下跌。数据挖掘还发现,男性系细领带时市场会上涨,而系宽领带时市场会下跌。此外,数据挖掘还列举了一些看似与股市相关的因素,如太阳黑子的分布、北美五大湖的水位、阿司匹林和黄色油漆的销量等。一些研究甚至指出,在以数字5结尾的年份,股市表现较好,而另一些观点认为,以数字8结尾的年份股市表现更佳。

德崇证券的分析师曾表示,如果纽约等美国城市在平安夜降雪,那么下一年的平均收益可能比不下雪的年份高出约80%。这个说法引起了诸多质疑。

尽管有人对股市之外的数据与股市行情的相关性持怀疑态度,但他们却对仅基于股市数据的分析结果深信不疑。例如,在美国股市,头五个交易日的走势在全年上涨的可能性高达82.9%。

加里·史密斯是美国经济学家,波莫纳学院经济学教授,弗莱彻琼斯基金奖得主。他撰写过多本揭露数据迷信及其误导性统计的书籍。中信出版集团近期引进出版了他的著作《错觉:AI如何通过数据挖掘误导我们》。这本书揭示了更多计算能力和数据并不意味着更多智能的道理,并对大数据应用带来的误导进行了尖锐批评。

对于书中提到的一些神奇的“投资法则”,史密斯认为它们毫无价值。有些法则只是顺理成章的结论,而另一些则是通过对数据的过度解读得出的无用结果。例如,关于美国股市在头五个交易日的走势决定了全年走势的研究,就忽略了像1929年这样的大萧条年份。

史密斯指出,随机噪声也可以生成模型,然后从这些模型中挑选出一个与股市走势相符的模型,但这并不代表该模型能够真正帮助我们预测未来的市场走向。就像我们找32个人,分成两组,一组猜测硬币正面,另一组猜测反面;猜对的人进入下一轮,直到产生一个五次都猜对的人。这个人接下来的五次猜硬币比赛是否能获胜?他的生活习惯,如是否喜欢吃香菜或是否喜欢吃甜豆腐脑,与猜硬币的成功率有关系吗?《错觉:AI如何通过数据挖掘误导我们》一书指出,数据挖掘软件找到的股市预测“秘诀”,其实和猜硬币高手的生活习惯一样,没有任何实际价值,只是运气和概率的结果。

有趣的是,这本书还分析了美国公共广播公司《每周华尔街》提供的10项技术指标。这些指标是基于数据挖掘得出的,但正如史密斯在书中所述,这些指标只是人为构建出来的,与过去数据相吻合的模型。当这些模型不再适用时,人们会改变模型;当模型有效时,人们又会创造新的模型。这种过程可以概括为“捏造模型—测试—改变模型”,循环往复。这实际上是社交媒体和分析机构制造股市秘籍(模型)的常见手法,书中还展示了如何利用纽约等美国城市的天气指数来创建(伪造)一个气温影响股价的模型。

《错觉:AI如何通过数据挖掘误导我们》一书认为,计算机程序(无论现有技术多么先进、程序设计多么复杂)并不具备人类的智慧和常识,也不具备处理陌生情况、模糊规则、含糊甚至相互矛盾目标所需的普遍智能。这意味着,将计算能力和算法简单地称为人工智能,会导致误导性和欺诈性结果。

大数据并不总是“更多”基础上的“更好”数据。人类有能力识别“坏数据”,但机器和人工智能往往不能。例如,机器和人工智能可能无法合理解释基于“自我选择偏见”产生的结果差异。比如,英国某家医院在公共假期期间出院的患者,在七天内因病死亡的概率比平时出院的患者高出48%。这是否意味着假期值班的急诊医生比平时上班的医生更差?但基于生活常识,我们可以清楚地看到,公共假期期间去医院急诊的患者往往面临生死攸关的情况;而人们在假期内出行更加频繁,饮酒更不节制,可能更容易光顾危险场所或从事某些危险的娱乐活动,这也导致公共假期期间出院患者的病情更为严重。然而,这些因素难以被机器和人工智能考虑进去。又如,如果只从死亡地点来看,死于卧室、床上的人数可能远多于死于急诊室、车祸现场或战场的人数,这是否意味着卧室和床比其他场所或物品更危险?

几个世纪以来,新赫布里底群岛的岛民相信,体虱有助于保持身体健康。岛民的智慧其实源自数据挖掘的结果,因为他们发现,患病的人身上没有体虱。但这个结论是完全荒谬的,因为新赫布里底群岛的重病患者体温很高,会驱走体虱。这种关联性却让岛民得出了错误的因果关系。

数据挖掘难免会出现“数据优先,理论其次”的现象,这可以概括为“得州神枪手错误”:某人自称为神枪手,他在墙上布满瓶子,然后用击中其中一个来炫耀自己的枪法,对于其他瓶子则闭口不提。这很好地说明了数据挖掘的缺陷甚至荒谬之处。20世纪80年代,世界顶级医学期刊《新英格兰医学杂志》发表了一份哈佛公共卫生学院院长布莱恩·迈克马宏领导的研究,发现喝咖啡与胰腺癌密切相关。这个发现实际上就是“得州神枪手错误”的表现:迈克马宏首先调查了饮酒、吸烟与胰腺癌的关系,没有发现任何关联,然后继续寻找,最终发现胰腺癌患者喝的咖啡更多。具体来说,研究对比了患有各种癌症的患者的习惯,结果是,其他很多疾病的患者,尤其是癌症患者的胃肠道功能已经受损,因此自然不再喝咖啡,而胰腺癌患者并没有停止喝咖啡。因此,正确的结论应该是,喝咖啡不影响胰腺癌的治疗,而不是喝咖啡会导致胰腺癌。

几年前,中国某家数据挖掘软件也得出了一套显示贷款申请人信用风险较小的证据组合:使用安卓手机,不总是立即接听电话,呼叫电话不总是有人接听,电池不总是保持满电状态。据说,这些证据分别表明,安卓手机价格便宜,说明客户花钱谨慎;不总是立即接听电话,说明客户忙于工作;呼叫电话不总是有人接听,说明客户的亲友也很忙碌;电池不总是保持满电状态,同样说明客户专注于工作。《错觉:AI如何通过数据挖掘误导我们》的作者指出,我们也可以用类似的牵强逻辑来解释这些证据组合是信用风险较大的迹象:说明客户买不起更贵的手机;不总是立即接听电话,说明客户试图躲避债主;呼叫电话不总是有人接听,说明客户人际关系不佳;电池不总是保持满电状态,说明客户不负责任。书中指出,这些所谓的证据组合,其实都是随机噪声,无法说明任何问题,即使我们编造出一些看似合理的统计学解释。

    本文来源:图灵汇
责任编辑: : 星小海
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
发掘诞生为什么数据不了
    下一篇