03 | 推理模型——o1、R1 和 test-time compute 到底在做什么

解释推理模型(o1/o3、DeepSeek-R1)的工作原理:test-time compute、内部思维链、强化学习训练,以及它和传统 CoT Prompt 的本质区别。

2026年7月5日 · 2 分钟 · 380 字 · Latent