/ 语音

语音 AI

寻找最新最佳的语音人工智能。浏览最全面的AI数据库，每日持续更新。

Gemini Live Translate

Gemini Live Translate 是 Google 基于 Gemini 提供的近实时语音翻译体验，面向自然口语对话。公告称它可通过 Google AI Studio、Google Translate 和 Google Meet 使用，重点在于流畅的语音翻译，而不只是文本字幕。

该功能为低延迟听说场景而构建，希望译后的语音

GPT Realtime 2

NewPaid语音大语言模型

GPT Realtime 2 是 OpenAI 的实时语音模型，用于构建实时对话代理，这些代理可以在对话仍在进行时进行聆听、推理、说话和使用工具。它专为需要语音界面来完成实际工作的产品团队而设计，例如客户支持、日程安排、行程变更、车载辅助、教育和免提生产力。与简单的语音到文本加聊天机器人管道不同，GPT Realtime 2 是围绕单一实时代理体验中的

Scenema Audio

NewFreemium音频语音

Scenema Audio 是一种富有表现力的音频生成模型，适用于零样本语音克隆、情感语音、歌唱和表演驱动的语音合成。它的设计目的不仅是生成文字，还可以通过节奏、呼吸、笑声、叹息、情感和声音效果来进行声乐表演。该产品将语音识别与情感传递分开，因此简短干净的参考剪辑可以定义音色，同时提示控制性能。

该模型提取自 LTX 2.3，并使

Wondercraft

NewFreemium视频人工智能

Wondercraft 是一家 AI 视频工作室，旨在帮助创作者和业务团队将想法、文档和脚本转化为精美的、适合业务的视频内容。该平台汇集了视频、头像、图像、语音、音乐、声音和文本的现代人工智能模型，因此用户可以从粗略的概念转变为最终的输出，而无需将一堆单独的工具拼接在一起。它的构建是为了减少制作有用内容的麻烦，同时保持工作流程对于非技术用户来说也易于理

AnySpeech

NewFreemium语音语音生成

AnySpeech 是一款先进的文本转语音生成器，旨在从书面文本中生成高度自然逼真的口语音频。它通过提供超过 100 种不同的声音选择，涵盖 50 多种不同语言，在市场上脱颖而出，使其成为全球内容创作和无障碍需求的极其多功能的工具。该平台设计易于使用，允许用户快速有效地将文本转换为高保真音频，支持从营销材料到教育模块的广泛应用。

ElevenCreative

NewFreemium制作媒体创作

ElevenCreative 被定位为终极的、统一的创意平台，旨在简化从初始概念到最终本地化交付的整个内容制作生命周期。这个全面的工作空间将音频、语音、音乐、音效、图像和视频的先进生成模型集成到一个单一环境中，从根本上改变了内容团队的运作方式。它被设计用来取代分散的工具，提供端到端的工作流程，使用户能够快速生成高质量的素材，在工作室中精确地完善它们，然

Universal-3 Pro by AssemblyAI

NewFreemium语音语音模型

Universal-3 Pro 代表了语音语言模型的重大飞跃，它引入了直接通过提示控制转录输出格式和内容的能力。这项创新允许用户将有关术语、名称、主题和所需输出结构的特定上下文直接注入到处理管道中。对于临床评估等专业领域，这意味着只需指示模型精确捕获药物名称和剂量，同时记录每一个填充词或不流畅的表达以供深入分析，通常这需要大量的后期处理或自定义模型训练

VibeVoice-ASR

NewFree语音识别软件

VibeVoice-ASR 是一个统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频，生成包含“谁 (Who)”、“何时 (When)”和“何事 (What)”的结构化转录。它支持自定义热词和 50 多种语言，使其成为各种应用的强大工具。该模型联合执行 ASR、说话人分离和时间戳标记，生成一个指示谁在何时说了什么的结构化输出。

Qwen3-ASR-1.7B

NewFree语音识别模型

Qwen3-ASR-1.7B 是一款利用 Safetensors 的自动语音识别模型。该模型获得了 271 个赞，并由拥有 67.3k 粉丝的 Qwen 维护。模型的详细信息，包括其配置和性能指标，都有详尽的文档记录。

Qwen3-ASR-1.7B 模型在 apache-2.0 许可下授权，确保了其在各种应用中的可访问性和可用性。模

Pocket TTS

NewFree语音文本处理

Pocket TTS 是一款轻量级的文本转语音应用程序，专为在 CPU 上高效运行而设计。它能以低延迟从文本生成音频，并能处理无限长的文本输入。该应用程序支持 Python 3.10 及更高版本，需要 PyTorch 2.5+，但不需要 PyTorch 的 GPU 版本。

该应用程序的模型大小很小，只有 1 亿参数，仅使用 2 个

VibeVoice-Realtime-0.5B

NewFree语音文本生成

VibeVoice-Realtime 是一款轻量级的实时文本转语音模型，支持流式文本输入和强大的长篇语音生成。它可用于构建实时 TTS 服务、叙述实时数据流，并允许不同的模型从其第一个 token 开始发声。该模型在大约 300 毫秒内产生初始可听语音，使其适用于实时应用。

该模型采用交错的、带窗口的设计，在持续进行基于扩散的声学潜

VibeVoice

NewFree语音语音合成

VibeVoice 是一款先进的开源文本到语音模型，擅长生成具有上下文感知的、富有表现力的语音。它旨在捕捉自发情感和歌唱的细微差别，从而实现高度自然和动态的语音输出。这种能力使得 VibeVoice 能够生成听起来更像人声、情感更丰富的语音，适用于需要表达性语音合成的应用，如播客、有声读物和互动媒体。

该模型支持跨语言能力，包括无缝

Uni-MoE-2.0-Omni

NewFree多模态大模型

Uni-MoE-2.0-Omni 是一个基于强大的 Qwen2.5-7B 核心构建的先进全模态大型模型。它代表了对先前版本的重大重建和改进，融入了旨在增强多模态理解和生成能力的新架构和训练范式。该模型无缝集成了多种模态，如音频、语音、图像、文本和视频，能够对各种类型的输入数据进行全面的处理。

该模型引入了多项关键进步，包括统一的语音

FireRedTTS2

NewFree语音文本转语音

FireRedTTS-2 是一个用于多说话人对话生成的长篇流式 TTS 系统，可提供稳定的、自然的语音，并具有可靠的说话人切换和上下文感知的韵律。它目前支持 3 分钟、4 个说话人的对话，并且可以通过扩展训练语料库轻松扩展到更长的对话和更多说话人。该系统还支持多种语言，包括英语、中文、日语、韩语、法语、德语和俄语。

该系统建立在新的

OpenAudio S1

NewPaid语音语音合成

OpenAudio S1 是 Fish Audio 推出的先进文本转语音 (TTS) 模型，旨在提供高度自然和富有表现力的语音合成。该模型基于对超过 200 万小时音频数据的大规模训练，实现了与专业人类配音演员几乎无法区分的语音输出。该技术针对视频旁白、播客和游戏角色配音等应用，提供流畅、逼真的语音，捕捉细微的情感差异，使其非常适合专业和创意音频制作。

IndexTTS 2

MoCha

New动画片角色动作

MoCha 是一款先进的人工智能系统，旨在根据文本描述生成全身角色动画，并使其具备同步的语音、自然的手势和唇部动作。与早期主要专注于面部动画的模型不同，MoCha 能够从多个摄像机角度捕捉上半身的动作和互动，包括特写镜头和中景镜头，从而制作出逼真的视频。其创新的“视听窗口注意力”机制通过限制每个视频帧对特定音频数据的访问来实现精确的唇部同步，这反映了人

Text to Speech.im

New语音文本转语音, 语音合成

Text to Speech.im 是一款基于网络的应用程序，可将书面文本转换为语音，满足教育工作者、内容创作者和阅读困难人士等不同受众的需求。该平台利用先进的人工智能技术，生成与人类语音模式非常相似的高质量语音。用户可以通过网络浏览器轻松访问该服务，使其成为任何希望将文本转换为音频格式的人的便捷工具。

Text to Spee

XTTS by Coqui

音频语音克隆, 多语言生成

XTTS-v2 由 Coqui 开发，是一种先进的文本转语音 (TTS) 模型，支持 17 种不同语言的高质量语音生成和克隆。该模型允许用户仅使用一段 6 秒的音频片段即可克隆语音，效率极高且易于使用。XTTS-v2 支持多语言语音生成，并提供情感和风格转换等功能。它比其前身 XTTS-v1 有了显著的改进，在扬声器调节和整体音频质量方面都有所增强。<

Millis AI

语音语音代理, 低延迟

Millis AI 是一个多功能语音 AI 平台，旨在促进各种应用（从个人项目到企业级解决方案）的低延迟语音代理的开发。该平台专注于提供自然流畅的语音交互，非常适合希望创造引人入胜的对话体验的开发人员。Millis AI 注重低延迟和无缝集成，旨在重新定义用户与语音技术的交互方式。

Millis AI 的主要功能是使用户能够构建