NCAA比赛:种子赛的噪音?

把这篇文章放在下面,“我一个月前就打算发表了,但是忘了。”Anyway ... In2005年3月我抱怨人们对最后一支被排除在NCAA篮球锦标赛之外的球队的关注,而真正的问题在于种子队。我的建议是:种子队1-4,然后对96支队伍进行随机抽签-入轮,另外48个地点的种子随机分配给-入轮的获胜者。NCAA 5-12支球队的种子球队似乎更多地依赖于联盟成员或知名度,而不是表现能力的真正差异。在过去的几年里,越来越多的“一了百了”的球员来到NBA,这更加深了我的怀疑。

来自竞争激烈的2011年世锦赛的数据强烈表明,5号和11号种子的差异是建立在微小的差异之上的,如果不是完全不存在的话。事实上,种子4-13几乎没有什么信息内容。如果所有的第一轮比赛都用上了,种子赛看起来还不错。以下是播种对分数差异的简单回归的结果:

分数差异= 4.0 - 1.7xSeed差异(分数差异解释= 36%)

事实上,在预测样本内的分数方面,种子差值(36% - 32%)比维加斯线略好一些:

分数差异= -1.8 + 1.0xVegas利差(分数差异解释= 32%)

在这个设置中,Vegas行显示了与分数差异的1比1关系。在非线性效应的解释能力中,种子差异和维加斯线都上升了10%。评选委员会和维加斯的赔率者们似乎找到并利用了有用的信息。

然而,将样本种子切成4-13会产生非常不同且粗略的结果:

分数差异= -2.8 - 0.05xSeed差异(分数差异解释= 0.2%)

分数差异= -5.3 - 0.7维加斯差距(分数差异解释= 7%)

虽然维加斯“解释”了更多的分数差异,但效果的方向是错误的——更大的差距,更小的分数差异。这两种模型在处理非线性效应时都做得稍微好一些,但也不是很好。种子差异增加到只有4%。除了得分差异之外,两者在预测获胜者方面都表现不佳。在20场比赛中,高种子队输了7场,拥有分差优势的球队输了9场。

13号种子球队与15号和16号种子球队之间存在着巨大的差距,这给了头号种子球队一个巨大的优势,因为他们取消了一轮比赛。尽管这一场比赛“再见”,即使是1和2种子队是非常脆弱的,一旦真正弱的球队筛选。

当然,一年的数据几乎不能证明任何事情,但这也暗示着NCAA选拔委员会花了无数个小时寻找方法来解释那些包含更多噪音而不是信号的数据。