DR Tulu 从一个强大的基础模型开始,经过多个阶段的训练,包括提示策划、使用教师生成的轨迹进行监督微调以建立基础研究技能,以及使用演化奖励框架的强化学习,重点是提高工具使用、综合质量和引用行为。该模型旨在与灵活的智能体堆栈集成,使其能够动态地在各种搜索和浏览工具中进行选择,从而提高其从不同来源有效收集和综合信息的能力。
DR Tulu 最显著的特点之一是其模块化和可扩展性;它包含一个名为 dr-agent-lib 的智能体库,提供多工具、异步调用框架来有效管理并发和缓存。这使用户能够使用自己的自定义工具堆栈部署智能体,通过易于访问的训练方案和检查点实现可重现性,并通过插入特定领域的检索系统来扩展模型的能力,而无需重新训练。DR Tulu 表现最佳的 80 亿参数模型在严格的基准测试中展示了相对于更大的专有系统的显著改进,同时保持了成本效益和部署灵活性。

