21个地块上种7种不同的种子,成了世界数学难题,具有非凡的意义

康托的天堂 2023-04-18 11:01:19

区组设计(Block Design)的历史可以追溯到20世纪初,英国统计学家、生物学家和遗传学家罗纳德·A·费舍尔(Ronald A. Fisher)对其进行了深入的研究和发展。费舍尔是现代统计学的奠基人之一,他对实验设计和方差分析的贡献具有重要意义。

在20世纪20年代和30年代,费舍尔在罗斯林研究所工作时开发了区组设计的基本概念。费舍尔在这里进行了大量农业实验,他认识到土壤和环境因素可能对试验结果产生混杂作用。为了解决这个问题,他引入了区组设计,将实验区域划分为相似的区组(block),并在每个区组内进行不同处理。这种方法使得试验中的处理可以在不同区组内进行比较,从而减少由于区组内的变异引起的误差。

举例来说,我们需要在21个地块上种植7种不同的种子品种。为了确保每个品种在不同农场之间的差异被考虑在内。在这个设计中,我们将每个农场看作一个区组,每个区组包含3个地块。然后,我们使用以下种植顺序:

第一个农场种植品种1,2,3

第二个农场种植品种1,4,5

第三个农场种植品种1,6,7

第四个农场种植品种2,4,6

第五个农场种植品种2,5,7

第六个农场种植品种3,4,7

第七个农场种植品种3,5,6

在图中,每个农场都用一条线表示,共有7条线。每个线段表示一个农场(区组),在同一区组内的三个点代表三个地块。在每个点上,我们种植一种特定的品种。当一个点位于三条线的交点时,这意味着这三个农场都有一个地块种植了相同的品种。

通过这种设计方法,我们确保了每个品种都在不同的农场进行了种植,从而使我们能够更准确地评估品种之间的差异。

这样的安排称为一个平衡不完全区组设计(balanced incomplete block design)。"区组"是指种在各个农庄里的品种的集合。说它们是"不完全的"是指每一个农庄并没有都种了所有的品种,例如上图最左的一条边,这是一个农庄,就只种了1,2,3三种。然而这个试验是"平衡的",因为每一对品种在各个农庄出现的数目是相同的。这是一个(7,3,1)设计,共有7 个品种、每个区块包含3个品种、每一对品种若出现在一个区块里,只出现1次。它也是有限射影平面的例子。因为它与几何学的联系,所以品种也就叫做"点"。

数学家已经发展了关于“平衡不完全区组设计”和其他有关的设计类型的广泛理论。事实上,这种研究开始出现的时间比它们在统计学中的应用还要早。1847年,寇克曼证明了:一个(v,3,1)试验当且仅当v≡1或3 mod 6时存在。这种试验现在称为一个施泰纳(瑞士数学家)三元组,虽然他到1853年才提出了存在性问题。

寇克曼还提出过一个较难的问题,用他自己的话来说,就是

十五个中学女学生一连七天每天出去散步都是三人一排,要求每天的排队,使得没有两个女生会两次同排一列。

这就是著名的寇克曼女生问题。当时只是作为"休闲数学"的问题征解,但是参加的人不少,例如英国的大数学家凯莱、西尔威斯特都在内。寇克曼自己给出的解如下(英文字母代表着15个女生):

这个解答需要一个(15,3,1)施泰纳三元组,15个品种即15个女生;每个区组就是去散步的一排女生,包含3个女生(品种);每一对女生只能同排一次,还有一个附加的要求,就是35个区组(每天出去5排女生,共7天,所以区组总数是35)要分成7个集合,成为7个"复本",而每一个复本,就是每天出去的5个区组,要构成35个点的集合的一个分割,就是所有的女生都得每天出去散步。寇克曼当时就给出了一个解,但是直到1960年Rau-Chauduri和威尔逊(Richard Wilson)才证明了满足这个条件的(v,3,1)设计当且仅当v≡3 mod 6时才有解。

对于哪些v,k,λ,才存在这样的设计?用穷举法可以证明,给定了k,λ后,只有限制在某些同余类中,这种(v,k,λ)试验才存在,我们在上面已经指出,一个(v,3,1)试验当且仅当v≡1 或 3 mod 6时才存在。威尔逊发展了一种渐近的存在理论,证明了对于每一组k,λ,这种必要条件除了有限多个例外,也是试验存在的充分条件。

设计的概念已经有了进一步的推广。一个t-(u,k,λ)设计具有如下的性质:任意t个点包含在恰 λ个区组中。Luc Teirlinck 证明了对于任意的t都有非平凡的t设计存在。但是,当t>3时,这种例子是很少见的。

统计学家的观点却稍有不同。在开始的例子中,如果只有6个农庄,就不能用平衡不完全区组设计作试验了,但是可以找可能最"有效的"设计(即允许从试验结果中获得最多信息的试验)。如果平衡不完全区组设计存在,它就是最有效的,但在其他情况,我们所知甚少。

还有其他类型的设计,这些设计可能对于统计学很重要,而且也引导到新的数学。举一个例子,下面是一个正交阵列(orthogonal array),如果取这个矩阵的任意两行,而得出一个2×9矩阵,则从(0,1,2)中任取两个符号所成的有序对都恰好作为一列出现在其中:

如果我们有4个不同的处理,每一个都可以在3个不同水平上来实施,而又有9个地块供试验之用,就可以利用这种设计。

设计理论与其他组合学的主题,如纠错码,有密切的关系。事实上,英国统计学家费希尔在汉明(美国数学家在计算机科学和通讯方面有重大贡献)发现以他命名的纠错码前5年,就为一个设计“发现”了它。其他有关的问题还有填充与覆盖问题特别是有限几何学许多经典的几何学的有限版本都可以看成是设计。

5 阅读:116

康托的天堂

简介:科学如此美妙,我想让你知道