Conformer2 与其前身相比的主要进步之一是其模型大小增加,从 Conformer1 中的 2.7 亿个参数扩展到 4.5 亿个参数。这种扩大使模型能够捕捉语音数据中更复杂的模式,从而在各种指标上获得更好的性能。训练过程采用了一种称为嘈杂学生-教师训练的技术,该技术结合了标记和未标记数据,以提高训练输入的质量和数量。该方法采用多个教师模型来生成高质量的伪标签,确保模型不会过度拟合,同时仍能从广泛的数据集中学习。
Conformer2 在对有效语音识别至关重要的特定领域表现出了显著的改进。例如,它在识别字母数字方面实现了 31.7% 的改进,这对于涉及数字(如信用卡信息或订单号)的应用至关重要。此外,它的专有名词错误率降低了 6.8%,抗噪性提高了 12%,使其更适合背景噪音会干扰清晰度的真实音频条件。这些增强功能对于依赖准确转录进行客户服务互动或内容创建的行业尤其有益。
该模型还通过引入一项名为“语音阈值”的功能来强调用户对转录成本的控制。这允许用户在处理音频文件进行转录之前设置其最短持续时间。通过根据文件长度优化处理,用户可以在处理各种类型的音频内容(例如音乐或空录音)时有效地管理成本。
Conformer2 已经作为默认语音识别模型集成到 AssemblyAI 的 API 中,这使得希望将高级 ASR 功能合并到其应用程序中的开发人员可以轻松使用它。用户可以获得免费的 API 令牌并访问全面的文档,以方便集成到他们的产品中。
Conformer2 的主要功能:
- 增强的模型大小:参数从 2.7 亿增加到 4.5 亿,以提高性能。
- 广泛的训练数据:经过 110 万小时的英语音频训练,具有强大的识别能力。
- 嘈杂的学生-教师训练:利用半监督学习技术来提高数据质量和数量。
- 改进的识别指标:在字母数字 (31.7%)、专有名词错误率 (6.8%) 和噪声鲁棒性 (12%) 方面取得了显着的提升。
- 语音阈值:允许用户通过根据音频持续时间设置最低处理要求来控制转录成本。
- 真实世界应用重点:旨在在电话和播客等各个领域表现良好。
- 无缝集成:可通过 AssemblyAI 的 API 获得,通过免费 API 令牌和详细文档轻松访问。
Conformer2 代表了自动语音识别技术向前迈出的重要一步,为多个行业的用户提供了更高的准确性和灵活性。它能够适应现实世界的挑战,对于任何需要精确的语音转文本解决方案的人来说,它都是一个有价值的工具。