电脑并没有主宰你三月份疯狂的办公室...然而
  • 发表时间:2018-06-24

到了三月疯狂的时候,男子NCAA篮球赛还剩三场,大部分的括号都被打破了。我的失败,通常是我用心去挑选。(密歇根州一路走来!)但是即使对于那些在支架构建方法上冷静、计算、痴迷统计的机器人来说,也很难准确猜测连续63场篮球赛的结果。真的很难。

这很有道理。斯基德莫尔学院统计学助理教授迈克尔·洛佩兹说:“你正在处理一场由20岁少年打的40分钟篮球赛,比赛由有偏见的裁判主持。”。有太多的事情可能发生——事实上,的确有太多的事情发生——任何人最终都会在75 %以上的时间里站在正确的一边。

即使是一个复杂的算法设计来检查历史上每一场三月疯狂的游戏,也有其局限性。因为,一场篮球比赛不能完全简化为数字。而且:从统计的角度来看,一年63场比赛是一个很小的数字。“这意味着即使一组概率比另一组概率更精确,在这么小的游戏样本中也很难发现任何差别。”洛佩兹告诉我。所以,即使是一个被编程为数字运算篮球天才的机器人,也不会比现有的更简单的模型有太大的改进。反正不是我们现在使用的数据。

洛佩兹花了很多时间思考这种事情。去年,他和另一位统计学家写了一篇关于大学篮球潜在概率的论文,以确定运气到底有多大。答案是:很多。他说,上周末密西根州战胜路易斯维尔和肯塔基州战胜圣母院的两场八强赛的结局就是很好的例子,因为罚球失误和三分球的击中可能会改变两种情况的结果。洛佩兹告诉我说:「全国各地的NCAA游泳池都被这两枪击中。」选择肯塔基州和密西根州的人选得更好吗?圣母院和路易斯维尔的人是不是做坏事了?我认为,这些最后的一击只是最终决定胜负的一系列硬币翻转中的最后一击。在某种程度上,肯塔基州和密西根州的人们并没有做出更好的选择,他们只是做出了更幸运的选择。而且一次又一次的运气真的很难。 (最好的办法是留意拉斯维加斯的赌局。或者,正如洛佩兹对我说的那样,“经营体育书籍的人不要让人们在体育上下注,除非他们知道从长远来看他们会赚钱。 )

那么为什么运气会超过75 %呢?根据2013年一篇关于使用机器学习预测比赛结果的论文,这是关于大学篮球以及职业篮球、职业足球、职业足球和大学足球中预测精度的上限。

很难确定为什么会这样,该论文的作者写道。也许,他们猜测,这是统计人员倾向于使用的数据类型的限制,通常不考虑经验、领导力或运气等品质。但是,也有可能是大学篮球比赛的剩余部分比较大,也就是说,从最真实的意义上说,是不可预测的。

第二种可能性似乎更有可能出现在2013年论文的合著者之一Albrecht Zimmermann身上。齐默尔曼告诉我说:「我相信基本上有(相对)很强的机会。」而更为复杂的是,从数据科学家的角度来看,很难——如果不是不可能的话——探索替代方案。齐默尔曼说:「我们很少能回去再打同一场比赛。」但也许还有更好的数据要收集。NBA的游戏追踪系统SportVU准确记录了球员如何在球场上移动,并在一些球队仍在制作纸笔击球图时产生了令人难以置信的数据宝库。格兰特兰的柯克·戈德贝里第一次打开SportVU文件时是这样解释的:

我所能看到的是一个由小数点、尾随数字和数百个偶尔交错的XML标记组成的海洋。很明显,这是我见过的“最大”数据。我总是记得我的惊讶,当我想到我屏幕上的每一件事只相当于从一场比赛的四分之一开始的几秒钟的玩家动作。根据今年麻省理工斯隆运动分析会议上发表的一篇关于职业篮球防守指标的论文的作者所说,这种系统最大的承诺之一是它可以让人们以激动人心的新方式评估防守表现。把一个队的防守翻译成便于统计的数字,只能让你一窥他们的实际技能。

而steals、拦网和篮板确实为防守技术提供了一些有用的代理,它们代表了防守战术永久广播中的小的离散信号。因此,依赖这些事件类型的特征容易受到许多形式的不确定性的影响——简言之,这种特征是不可靠的。Zimmerman告诉我,

鉴于球队统计数据基本上是球员统计数据,任何改进都应该对预测准确性有所帮助...说球员跟踪数据将彻底改变篮球分析有点陈词滥调,但这并没有降低这一说法的真实性。

与此同时,我们坚持使用了很长时间的不坏但不保证的预测模型。Lopez在他的研究中总结说:「无论一个人建立的预测模型有多好,赢得NCAA锦标赛池也需要大量的运气。」

也就是说,选择密歇根州7号来赢得今年的冠军可能并不流行。但这并不意味着他们不会