我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息
然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上
也就是说:在 AI 眼里,图像和视频可以比文本更精简
这是反常识的,人类需要适应
我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息
然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上
也就是说:在 AI 眼里,图像和视频可以比文本更精简
这是反常识的,人类需要适应