寻找最新最佳的数据集人工智能。浏览最全面的AI数据库,每日持续更新。
最新
AnchorWorld 是一个具身第一人称世界模拟框架,支持基于视图的演化定制。它利用人体动作控制和与姿态关联的锚点视图,让智能体或玩家能够以第一人称视角探索定制化世界。
每个锚点视图都提供 RGB 图像、用于空间定位的 3D 姿态,以及说明场景应如何变化的演化提示。该方法结合了混合视角的人体动作控制、可演化的锚点视图定制和渐进式
VibeVoice-Realtime 是一款轻量级的实时文本转语音模型,支持流式文本输入和强大的长篇语音生成。它可用于构建实时 TTS 服务、叙述实时数据流,并允许不同的模型从其第一个 token 开始发声。该模型在大约 300 毫秒内产生初始可听语音,使其适用于实时应用。
该模型采用交错的、带窗口的设计,在持续进行基于扩散的声学潜
PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集,系统地涵盖五个基本维度:绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源,从而促进能够生成物理可信资源的 3D
HoloTime 是一个框架,它集成了视频扩散模型,可以从单个提示或参考图像生成全景视频,并结合了 360 度 4D 场景重建方法,将生成的全景视频无缝转换为 4D 素材,为用户带来完全沉浸式的 4D 体验。该框架旨在解决现有扩散模型主要专注于建模静态 3D 场景或对象级动态的问题,从而限制了它们提供真正沉浸式体验的能力。
为了
RealisDance-DiT 是一款先进的开源模型,旨在实现在各种现实场景中可控的角色动画。RealisDance-DiT 基于 Wan-2.1 视频基础模型构建,引入了一种精简的架构,能够基于姿势和外观引导,实现高度逼真且物理一致性的角色动画。该模型的核心创新在于对基础模型进行了精简但有效的修改,并结合了低噪声预热和高效批处理等先进的微调策略。这种
LiveCC 是一个先进的视频大型语言模型 (Video LLM) 平台,专注于实时评论和流式语音转录。它旨在突破传统视频语言模型的局限性,这些模型严重依赖昂贵的人工标注或专有 API 来训练数据。LiveCC 利用自动语音识别 (ASR) 转录,根据时间戳将 ASR 词汇与视频帧紧密交织。这种流式方法使模型能够学习时间对齐的细粒度视觉-语言关系,从而
Mangio-RVC-Fork 是一个专注于语音转换技术的开源软件项目。它是原始的基于检索的语音转换 (RVC) 项目的一个分支,开发人员 Mangio621 对其进行了增强和修改。该软件允许用户使用人工智能和机器学习技术将一种声音转换为另一种声音。
此分支旨在通过添加新功能和优化来改进原始 RVC 存储库。需要注意的