/ 数据集

数据集 AI

寻找最新最佳的数据集人工智能。浏览最全面的AI数据库，每日持续更新。

ViDiHand

NewFree3D视觉开源

ViDiHand 是一种视频扩散模型，用于从第一人称和复杂视频中重建手部运动。它面向 4D 手部恢复，在真实世界操作序列中具备遮挡鲁棒性、准确的姿态与位置估计，以及时间上平滑的运动表现。

该方法在保持基础 DiT 冻结的同时，通过手部叠加渲染微调 VACE 分支。一个轻量级双分支解码器读取共享的中间 VACE 特征，以预测 MAN

Brain2Qwerty

NewFree神经技术开源

Brain2Qwerty 是 Meta 的非侵入式脑到文本研究系统，用于从脑活动中解码输入语言。Brain2Qwerty v2 被描述为一种端到端流程，可在不植入外科设备的情况下，接近实时地从脑磁图记录中解码句子。

该系统直接从原始神经信号中学习，而不是依赖手工设计的事件检测流程。Meta 表示，v2 在来自 9 名志愿者的大约

AnchorWorld

NewFree世界模型数据集

AnchorWorld 是一个具身第一人称世界模拟框架，支持基于视图的演化定制。它利用人体动作控制和与姿态关联的锚点视图，让智能体或玩家能够以第一人称视角探索定制化世界。

每个锚点视图都提供 RGB 图像、用于空间定位的 3D 姿态，以及说明场景应如何变化的演化提示。该方法结合了混合视角的人体动作控制、可演化的锚点视图定制和渐进式

VibeVoice-Realtime-0.5B

NewFree语音文本生成

VibeVoice-Realtime 是一款轻量级的实时文本转语音模型，支持流式文本输入和强大的长篇语音生成。它可用于构建实时 TTS 服务、叙述实时数据流，并允许不同的模型从其第一个 token 开始发声。该模型在大约 300 毫秒内产生初始可听语音，使其适用于实时应用。

该模型采用交错的、带窗口的设计，在持续进行基于扩散的声学潜

PhysX-3D

NewFree模拟 3D建模

PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集，系统地涵盖五个基本维度：绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源，从而促进能够生成物理可信资源的 3D

HoloTime

NewPaid沉浸式虚拟现实

HoloTime 是一个框架，它集成了视频扩散模型，可以从单个提示或参考图像生成全景视频，并结合了 360 度 4D 场景重建方法，将生成的全景视频无缝转换为 4D 素材，为用户带来完全沉浸式的 4D 体验。该框架旨在解决现有扩散模型主要专注于建模静态 3D 场景或对象级动态的问题，从而限制了它们提供真正沉浸式体验的能力。

为了

RealisDance-DiT

New动画片角色控制

RealisDance-DiT 是一款先进的开源模型，旨在实现在各种现实场景中可控的角色动画。RealisDance-DiT 基于 Wan-2.1 视频基础模型构建，引入了一种精简的架构，能够基于姿势和外观引导，实现高度逼真且物理一致性的角色动画。该模型的核心创新在于对基础模型进行了精简但有效的修改，并结合了低噪声预热和高效批处理等先进的微调策略。这种

LiveCC

New视频转录

LiveCC 是一个先进的视频大型语言模型 (Video LLM) 平台，专注于实时评论和流式语音转录。它旨在突破传统视频语言模型的局限性，这些模型严重依赖昂贵的人工标注或专有 API 来训练数据。LiveCC 利用自动语音识别 (ASR) 转录，根据时间戳将 ASR 词汇与视频帧紧密交织。这种流式方法使模型能够学习时间对齐的细粒度视觉-语言关系，从而