Bloom 的操作流程结构化为四个独特的、顺序的管道阶段,确保了一个严格而全面的评估过程。它始于理解代理(Understanding Agent),它解释目标行为和示例,以掌握潜在的科学动机。接着,构思代理(Ideation Agent)创造性地生成旨在引出目标行为的各种评估场景,并利用智能批处理来提高效率。然后,执行代理(Rollout Agent)针对指定的靶模型执行这些生成的交互。最后,判断代理(Judgment Agent)和元判断代理(Meta-Judgment Agent)严格对目标行为和任何配置的次要质量的结果进行评分,其中元判断综合了关于发现的全面报告。
该系统在评估过程中提供了极大的灵活性和控制力,能满足各种研究需求,从快速的本地调试到通过 Weights & Biases 管理的大规模实验。用户通过一个中心的 `seed.yaml` 文件配置整个运行,指定参数,如目标模型、评估多样性、最大对话长度,以及在场景生成过程中是否使用扩展的推理努力或网络搜索功能。此外,Bloom 支持与外部工具的无缝集成,包括一个用于浏览结果的交互式基于网络的查看器,并利用 LiteLLM 实现跨多个 LLM 提供商的统一 API 交互,从而促进模型比较和可重现性。

