Bloom by Safety Research

Free 评估模型测试

网站推广

关键功能

由可配置的“种子”文件驱动的脚手架评估系统。

四阶段管道：理解、构思、执行和判断。

支持目标行为和示例对话记录的灵活配置。

构思代理中的智能批处理，以提高生成速度。

支持扩展的思考/推理努力级别，用于模型分析。

用于浏览生成的对话记录和分数的交互式基于网络的查看器。

通过 LiteLLM 实现与各种 LLM 提供商交互的统一界面。

在评估期间隐藏或显示目标模型身份的选项。

Bloom 的操作流程结构化为四个独特的、顺序的管道阶段，确保了一个严格而全面的评估过程。它始于理解代理（Understanding Agent），它解释目标行为和示例，以掌握潜在的科学动机。接着，构思代理（Ideation Agent）创造性地生成旨在引出目标行为的各种评估场景，并利用智能批处理来提高效率。然后，执行代理（Rollout Agent）针对指定的靶模型执行这些生成的交互。最后，判断代理（Judgment Agent）和元判断代理（Meta-Judgment Agent）严格对目标行为和任何配置的次要质量的结果进行评分，其中元判断综合了关于发现的全面报告。

该系统在评估过程中提供了极大的灵活性和控制力，能满足各种研究需求，从快速的本地调试到通过 Weights & Biases 管理的大规模实验。用户通过一个中心的 `seed.yaml` 文件配置整个运行，指定参数，如目标模型、评估多样性、最大对话长度，以及在场景生成过程中是否使用扩展的推理努力或网络搜索功能。此外，Bloom 支持与外部工具的无缝集成，包括一个用于浏览结果的交互式基于网络的查看器，并利用 LiteLLM 实现跨多个 LLM 提供商的统一 API 交互，从而促进模型比较和可重现性。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

Bloom by Safety Research

关键功能

Subscribe to the AI Search Newsletter