Kimi k1.5 的开发涉及多阶段过程,包括预训练、监督微调 (SFT) 和强化学习 (RL)。该模型的训练方法侧重于有效的 RL 扩展和多模态集成,无需依赖蒙特卡洛树搜索、价值函数或过程奖励模型等复杂技术即可实现卓越结果。这种简单的方法已被证明非常有效,使 Kimi k1.5 在长链和短链思维 (CoT) 推理任务中都表现出色。
Kimi k1.5 的一项关键创新是它能够处理长上下文扩展,该模型在 RL 生成期间能够处理长达 128k 个标记的上下文。这种扩展的上下文窗口使模型能够处理更复杂和更细微的任务,从而提高其在各种应用中的性能。Kimi k1.5 背后的团队采用了部分推出来提高训练效率,重复使用之前轨迹的大部分内容,以避免每次迭代生成全新轨迹的计算成本。
Kimi k1.5 在短链思维 (CoT) 性能方面尤其出色,在数学、编码、视觉和多模态任务中的表现远远超过 GPT-4o 和 Claude Sonnet 3.5 等最先进的模型。在某些情况下,性能裕度高达 550%,展示了该模型的卓越效率和提供简洁、准确响应的能力。
Kimi k1.5 的多模态特性使其从众多竞争对手中脱颖而出。该模型可以处理文本和图像,从而能够针对不同类型的输入得出结论。这种能力使其在 MathVista 和 MMMU 等多模态基准测试中获得了令人印象深刻的分数,证明了该模型在处理复杂、多格式信息方面的多功能性。
Moonshot AI 开发了两个版本的 Kimi k1.5 - 一个用于详细推理的长 CoT 版本和一个用于简洁答案的短 CoT 版本。长 CoT 版本擅长逐步介绍其思考过程,而短 CoT 版本则力求简洁而不牺牲准确性。这两个版本在各种基准测试中都表现出色,通常可以匹敌或超越该领域领先模型的能力。
截至 2025 年 1 月 25 日,Moonshot AI 已通过 Kimi.ai 上的免费网络版本向公众开放 Kimi k1.5。此版本包括对英语交互的支持,但该公司指出语言支持仍在微调中。网络版本提供对 k1.5 全部功能集的访问,且无使用限制,包括跨 100 多个网站的实时网络搜索、同时处理多达 50 个文件的能力以及改进的推理和图像理解功能。
Kimi k1.5 的主要功能包括:
- 在长链和短链思维推理任务中均具有一流的性能
- 多模态功能,可同时处理文本和图像
- 长上下文扩展,最多 128k 个 token
- 改进的策略优化,实现稳健学习
- 简单而有效的强化学习框架
- 在 AIME、MATH 500、Codeforces 和 MathVista 等复杂基准测试中表现出色
- 高效的长到短上下文训练方法
- 跨众多网站的实时网络搜索功能