如果不给大模型指定任务和话题,只给个中性的开头(如 “Actually,” “Let’s think step by step,” ),让模型自由思考,会发生什么?together ai做了这项蛮有意思的研究。
GPT-OSS 更容易谈论编程和数学,两者加起来超过输出的一半;Llama 更偏文学和叙事性文本,技术内容相对少;DeepSeek 生成宗教相关内容的比例显著更高;Qwen 经常生成带选项的选择题,好像在出考试题。
另外模型偶尔会陷入重复、无意义的文本,这种情况下:GPT-OSS 往往重复代码块分隔符等短格式片段;Qwen 会输出长篇对话式语句、表情和中文文本;Llama 有时会生成指向真实个人社交账号的链接。
全文:www.together.ai/blog/what-llms-think
HOW I AI
