Kimi k1.5

Kimi k1.5 的开发涉及多阶段过程，包括预训练、监督微调 (SFT) 和强化学习 (RL)。该模型的训练方法侧重于有效的 RL 扩展和多模态集成，无需依赖蒙特卡洛树搜索、价值函数或过程奖励模型等复杂技术即可实现卓越结果。这种简单的方法已被证明非常有效，使 Kimi k1.5 在长链和短链思维 (CoT) 推理任务中都表现出色。

Kimi k1.5 的一项关键创新是它能够处理长上下文扩展，该模型在 RL 生成期间能够处理长达 128k 个标记的上下文。这种扩展的上下文窗口使模型能够处理更复杂和更细微的任务，从而提高其在各种应用中的性能。Kimi k1.5 背后的团队采用了部分推出来提高训练效率，重复使用之前轨迹的大部分内容，以避免每次迭代生成全新轨迹的计算成本。

Kimi k1.5 在短链思维 (CoT) 性能方面尤其出色，在数学、编码、视觉和多模态任务中的表现远远超过 GPT-4o 和 Claude Sonnet 3.5 等最先进的模型。在某些情况下，性能裕度高达 550%，展示了该模型的卓越效率和提供简洁、准确响应的能力。

Kimi k1.5 的多模态特性使其从众多竞争对手中脱颖而出。该模型可以处理文本和图像，从而能够针对不同类型的输入得出结论。这种能力使其在 MathVista 和 MMMU 等多模态基准测试中获得了令人印象深刻的分数，证明了该模型在处理复杂、多格式信息方面的多功能性。

Moonshot AI 开发了两个版本的 Kimi k1.5 - 一个用于详细推理的长 CoT 版本和一个用于简洁答案的短 CoT 版本。长 CoT 版本擅长逐步介绍其思考过程，而短 CoT 版本则力求简洁而不牺牲准确性。这两个版本在各种基准测试中都表现出色，通常可以匹敌或超越该领域领先模型的能力。

截至 2025 年 1 月 25 日，Moonshot AI 已通过 Kimi.ai 上的免费网络版本向公众开放 Kimi k1.5。此版本包括对英语交互的支持，但该公司指出语言支持仍在微调中。网络版本提供对 k1.5 全部功能集的访问，且无使用限制，包括跨 100 多个网站的实时网络搜索、同时处理多达 50 个文件的能力以及改进的推理和图像理解功能。

Kimi k1.5 的主要功能包括：

在长链和短链思维推理任务中均具有一流的性能
多模态功能，可同时处理文本和图像
长上下文扩展，最多 128k 个 token
改进的策略优化，实现稳健学习
简单而有效的强化学习框架
在 AIME、MATH 500、Codeforces 和 MathVista 等复杂基准测试中表现出色
高效的长到短上下文训练方法
跨众多网站的实时网络搜索功能

Subscribe to the AI Search Newsletter