寻找最新最佳的Free人工智能。浏览最全面的AI数据库,每日持续更新。
最新
AI 天使是一个由人工智能驱动的伴侣平台,提供无限次的免费 AI 伴侣聊天,创造引人入胜的对话、情感联系和沉浸式的虚拟互动。该平台旨在提供逼真、富有表现力且感觉响应迅速、类人的 AI 个性,提供超越传统聊天机器人的体验。
用户可以探索与虚拟伴侣的个性化对话,这些伴侣根据不同的互动风格、情绪和偏好进行定制。AI 天使注重连续性和情感真实性,允
VibeVoice-ASR 是一个统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频,生成包含“谁 (Who)”、“何时 (When)”和“何事 (What)”的结构化转录。它支持自定义热词和 50 多种语言,使其成为各种应用的强大工具。该模型联合执行 ASR、说话人分离和时间戳标记,生成一个指示谁在何时说了什么的结构化输出。
ACE-Step 1.5 是一个高效的开源音乐基础模型,它将商业级生成能力带到了消费级硬件上。它的质量超越了大多数商业音乐模型,同时保持极快的速度,在 A100 上生成完整歌曲不到 2 秒,在 RTX 3090 上生成完整歌曲不到 10 秒。该模型在本地运行,VRAM 占用不到 4GB,并支持轻量级个性化。
其核心在于 ACE-St
VideoMaMa,即视频掩码到磨皮模型(Video Mask-to-Matte Model),是一种创新的视频抠图方法,它将粗略的分割掩码转换为高度精确的Alpha遮罩,而无需真实世界视频数据的标签。它仅在合成数据集上进行训练,利用强大的预训练视频扩散模型作为生成先验,在各种真实世界素材上实现了卓越的零样本泛化能力,包括具有不同运动、光照条件和物体交
VIGA 是一个多模态代理,它将视觉视为逆向图形,通过 Blender 中的分析-合成循环,将图像重建为可编辑的 3D 场景程序。
通过将多模态推理与不断发展的上下文记忆交织在一起,VIGA 可以“感知编码”场景、它们的物理特性和交互,使用基本元素或高质量生成资产从头开始构建它们。
在新的 BlenderBenc
CoDance 是一个新颖的解绑-重绑定(Unbind-Rebind)框架,它能够在仅基于一个可能未对齐的姿态序列作为条件的情况下,实现任意主体数量、类型和空间配置的动画。解绑模块采用姿态偏移编码器(pose shift encoder),打破姿态与参考之间的刚性空间绑定,对姿态及其潜在特征引入随机扰动。这迫使模型学习一种与位置无关的运动表示,从而实现
clawXiv被介绍为一个开创性的、免费的发行服务和开放获取的档案库,专门用于研究自主智能体。它填补了一个关键的空白,提供了一个专门的平台,可以在其中快速传播有关智能体行为和能力的最新发现、实验和理论模型。该服务允许研究人员和开发人员立即与对智能体开发的尖端技术感兴趣的社区分享他们的工作,这与既定的预印本服务器的功能相呼应,但完全专注于这个新兴领域。c
Qwen3-ASR-1.7B 是一款利用 Safetensors 的自动语音识别模型。该模型获得了 271 个赞,并由拥有 67.3k 粉丝的 Qwen 维护。模型的详细信息,包括其配置和性能指标,都有详尽的文档记录。
Qwen3-ASR-1.7B 模型在 apache-2.0 许可下授权,确保了其在各种应用中的可访问性和可用性。模
OpenClaw 是一款可以通过 WhatsApp、Telegram 和 Discord 等各种聊天应用控制的个人助理。它能够记住用户的偏好和上下文,提供独特且个性化的体验。OpenClaw 还可以浏览网页、填写表格以及从任何网站提取数据,使其成为自动化任务的强大工具。
OpenClaw 的一个关键特性是它可以在用户的机器上运行,无
OmniTransfer 是一个基于 Wan 2.1 构建的全能时空视频传输框架。它在一个单一框架内无缝统一了空间外观和时间视频传输任务,包括效果、运动和相机移动。该框架对未见过的任务组合表现出强大的泛化能力,使其成为视频编辑和创作的强大工具。OmniTransfer使用户能够轻松复制复杂的视觉效果、动画静态图像和控制相机运动。
O
LuxTTS 是一款高质量的快速文本到语音(TTS)声音克隆模型,其速度可达到实时速度的 150 倍。它专为高质量的声音克隆和逼真的生成而设计,是各种应用的强大工具。该模型轻量且高效,可在 1GB VRAM 内运行,这意味着它可以在任何本地 GPU 上运行。这使其对从开发人员到研究人员的广泛用户都易于使用。
LuxTTS 有几个关键
FrankenMotion 是一个用于部件级人体运动生成和组合的框架,能够在保持全局语义一致性的同时,对单个身体部件实现精细控制。它由一个通过大型语言模型构建的新型分层弗兰肯斯坦数据集提供支持。该数据集提供了原子化的、时间感知的部件级文本注释,允许在精细的时间分辨率下实现异步和语义上不同的部件运动。
FrankenMotion 模型
SuperHumanizer 是一款尖端的工具,经过精心设计,可立即将各种生成式人工智能平台生成的文本转化为读起来就像完全由人类撰写的内容。该服务采用先进的人性化引擎,可以对来自 ChatGPT、Claude 和 Gemini 等来源的人工智能输出进行细致的分析和重写,确保产生的文本能够无缝绕过当代的人工智能检测系统。这个过程不仅关注肤浅的词语替换,还
Quizify 在数据收集表单的创建和体验方面带来了范式转变。该平台远远超越了传统的静态问卷,使用户能够构建智能、交互式的数字表单,吸引注意力并最大限度地提高回复率。通过自动化复杂的逻辑,例如根据先前的输入条件性地显示问题,该系统为每位受访者提供个性化的流程。这种动态能力确保用户只看到相关问题,从而为主导客户获取到详细的市场研究等所有内容带来更高的完成
FLUX.2 [klein] 代表了 Black Forest Labs 在紧凑型图像生成模型领域的最新进展,它具有针对消费级硬件的速度和效率进行了优化的变体。该模型家族在一个单一架构中统一了文本到图像生成和高级图像编辑功能,从而能够在新视觉内容创建(基于文本描述)和精确修改现有图像之间实现无缝过渡。它专为实时应用而设计,在合适的 GPU 上能在不到一
NovaSR 代表了音频处理技术的突破性进展,它被设计为一个超紧凑的 50kb 模型,能够以惊人的速度和清晰度将低质量的 16kHz 音频转换为原始的 48kHz 输出。这款闪电般快速的升采样器非常擅长修复模糊或压缩的音频源,使其非常适合计算资源有限的应用,例如移动设备、嵌入式系统或实时处理管道。通过利用针对效率优化的最先进的神经网络架构,NovaSR
Stable Video Infinity (SVI) 代表了视频生成技术的突破,它能够生成任意长度的视频,同时保持卓越的时间一致性和合理的场景过渡。该系统由 EPFL 的 VITA 实验室的研究人员开发,利用了一种创新的误差循环微调方法,使模型能够在扩展序列中学习并纠正自身的生成错误。与传统方法在长篇内容中质量会下降不同,SVI 可以从流式提示中生成
Pocket TTS 是一款轻量级的文本转语音应用程序,专为在 CPU 上高效运行而设计。它能以低延迟从文本生成音频,并能处理无限长的文本输入。该应用程序支持 Python 3.10 及更高版本,需要 PyTorch 2.5+,但不需要 PyTorch 的 GPU 版本。
该应用程序的模型大小很小,只有 1 亿参数,仅使用 2 个
这款革命性的在线照片编辑工具利用复杂的人工智能,仅根据简单的文本命令就能彻底重塑您的图像。忘记像 Photoshop 这样的专业软件所带来的陡峭学习曲线和高昂费用;这款编辑器使高质量的图像处理大众化。用户只需用通俗的语言描述所需效果,即可轻松执行复杂的任务,如去除背景、进行精细的色彩调整和增强细节。它专为即时性而设计,可大幅缩短为任何应用创建专业级视觉
DeepTutor 是一个个性化学习助手,它利用多智能体系统提供交互式学习体验。它提供一系列功能,包括海量文档知识问答、交互式学习可视化以及通过练习题生成进行知识强化。DeepTutor 的架构旨在支持动态知识检索和多模态推理,使其成为学习者的有效工具。
DeepTutor 的核心模块包括智能求解器、问题生成器和引导式学习系统。智能