1信息可以被计算创造。
2顺序影响可学习的结构量。
3模型能学到比数据生成过程更多的东西。
4文本数据的信息复杂度(论文提出了一个新的信息度量)远远高于图像,所以其实更适合训练更聪明的模型。
5最后的话:这篇论文本质上可能在揭示一种对偶性(算力 vs 有价值的信息):Computation ⟷ Accessible Structure。
而算力,可能永远是不够的,要揭示全部信息需要的算力可能就是无穷大(物理中类似的对偶性都有类似的特征)。
同一个数据,对不同算力的观察者而言,是完全不同的东西。
而同一个数据,到算力无限的神明手里。。。就是道生一,一生二,二生三,三生万物。。。
网页链接