PersonaPlex 使用两个输入来定义对话行为:一个捕获声音特征、说话风格和韵律的声音提示,以及一个描述角色、背景信息和对话上下文的文本提示。这些输入被联合处理以创建连贯的人格。该模型基于 Moshi 架构构建,拥有 70 亿个参数,采用双流配置,允许监听和说话同时发生,从而实现自然的对话动态。
PersonaPlex 经过真实和合成对话的混合训练,包括来自 Fisher 英语语料库的 7,303 次真实对话和 39,322 次合成助手角色对话。该模型在文本提示方面表现出强大的泛化能力,即使是超出其训练分布的提示,也能在长时间的交互中保持与文本提示一致的人格。在问答助手和客户服务角色中,PersonaPlex 在对话动态、响应和打断延迟以及任务遵循度方面优于其他对话式人工智能代理。

