/ 推理

推理 AI

寻找最新最佳的推理人工智能。浏览最全面的AI数据库，每日持续更新。

Claude Sonnet 5

Claude Sonnet 5 是 Anthropic 的 Sonnet 系智能体模型，面向编程、推理、工具使用、知识工作以及浏览器或终端工作流。Anthropic 将其定位为一款成本更低、但在若干智能体任务上接近更大 Opus 4.8 模型性能的产品。

该模型能够制定计划、使用工具、在 Claude Code 中运行，并通过 e

Seed2.1

NewFreemium智能体LLM

Seed2.1 是字节跳动 Seed 面向真实生产力场景的下一代模型家族，提供 Pro 和 Turbo 两种规格。它面向通用智能体、代码工程、办公工作、研究流程、多模态理解和视频理解。

该模型家族提升了规划、文件处理、工具使用、编码、调试和验证等多步任务执行能力，也增强了知识、推理、视觉理解、空间推理、长上下文处理以及长达数小时视

LTX-2 Trainer

NewFree视频开源

LTX-2 Trainer 是 Lightricks 的 LTX-2 音频-视频生成模型的训练和微调包。它提供了用于 LoRA 训练、全面微调以及跨视频、音频和联合音视频工作流程的灵活调节的工具和脚本。

该软件包涵盖文本到视频、文本到音频、图像到视频、视频扩展、音频扩展、视频修复、音频修复、视频修复、IC-LoRA 参考、音频到

MolmoAct 2

NewFree机器人开源

MolmoAct 2是Ai2的开放式机器人基础模型，旨在帮助机器人以更强的感知和动作推理能力执行现实世界的操纵任务。它重点关注语言模型智能和物理世界执行之间的差距，其中机器人必须解释场景、理解任务意图、3D 推理，并产生随着时间的推移保持稳健的动作。该模型适用于构建机器人策略的研究人员，这些策略需要的不仅仅是简单的视觉识别或脚本控制。

GPT Realtime 2

NewPaid语音大语言模型

GPT Realtime 2 是 OpenAI 的实时语音模型，用于构建实时对话代理，这些代理可以在对话仍在进行时进行聆听、推理、说话和使用工具。它专为需要语音界面来完成实际工作的产品团队而设计，例如客户支持、日程安排、行程变更、车载辅助、教育和免提生产力。与简单的语音到文本加聊天机器人管道不同，GPT Realtime 2 是围绕单一实时代理体验中的

Anima v3

NewFree图像开源

Anima v3 是 ModelScope 上托管的动画和插图生成模型。它专为想要专门用于风格化角色艺术、视觉概念和插图工作流程的模型的创作者而设计。该模型对于需要可通过 ModelScope 生态系统探索、微调或部署的公共模型资源的用户非常有用。

该模型通过 ModelScope 进行分发，ModelScope 提供模型发现、推

Grok 4.3

NewPaid大语言模型推理

Grok 4.3 是 xAI 的推理模型，适用于需要长上下文分析、工具感知工作流程以及通过 xAI API 进行经济高效的模型访问的开发人员。它专为需要比基本聊天模型更深入推理的任务而设计，包括多文档分析、代理工作流程、技术故障排除和结构化指令遵循。该模型位于更广泛的 Grok 开发者生态系统中，支持现代 API 功能和工具集成。

Mimo v2.5 pro

NewFree大语言模型开源

Mimo v2.5 pro是MiMo家族中的小米型号版本，旨在实现高级推理和实用的AI助手工作流程。它被定位为更强大的 Pro 变体，适合需要在编码、推理、指令遵循和复杂问题解决方面具有可靠性能的用户。该产品符合小米为开发人员和研究人员提供高性能人工智能模型的更广泛努力。

该模型对于需要简短聊天响应的工作流程非常有用。它可以支持技

Step3-VL-10B

NewPaid智能多模态

Step3-VL-10B 是一款紧凑而前沿的多模态智能模型，旨在重新定义效率与性能之间的平衡。仅拥有 100 亿参数，它在视觉感知、复杂推理和人类对齐方面取得了卓越的成果。该模型超越了同类模型，并能与更大的模型竞争，是该领域的重大突破。

Step3-VL-10B 的成功归功于其两大核心设计：高质量的多模态预训练和大规模多模态强化学习

Qwen3-Omni

NewFree多模态语言模型

Qwen3-Omni 是一款前沿的多语言全模态基础模型，旨在原生处理文本、图像、音频和视频等广泛的输入。它不仅能以文本形式提供实时流式响应，还能以自然语音提供响应，为用户带来交互式、多功能的 AI 体验。该模型采用了先进的架构升级，旨在提高性能和效率，在多个模态上实现了最先进的结果，同时不牺牲单模态的文本和图像能力。

Qwen3-O

Nebius Token Factory

NewFreemium推理模型服务

Nebius Token Factory 是一项企业级推理解决方案，旨在最大限度地提高运行最先进的开源模型的性能和效率。通过利用优化的服务管道和专用端点，用户可以实现亚秒级的延迟和可预测、经济高效的运行，而无需承担通常与机器学习操作相关的开销。该平台专为无缝可扩展性而设计，允许应用程序从初始原型阶段直接发展到高流量生产环境，同时消除了对速率限制或复杂

Managed AI Delivery Platform

NewFreemium解决方案自动化

托管式人工智能交付平台提供了一种革命性的人工智能实施方法，可在数天内提供量身定制的实用解决方案。与传统的人工智能项目不同，这些项目常常因结果不准确、成本不断攀升以及应用受限而停滞不前，而该平台则优先考虑实用价值和快速部署。它以“说出用例，获得解决方案”为基础，专注于解决切实的业务挑战，避免常见的复杂性和延迟。该平台的核心原则是数据安全；不共享任何数据，

ThinkSound

NewPaid声音的视频编辑

ThinkSound 是一个新颖的框架，它利用思维链 (CoT) 推理实现视频的逐步交互式音频生成和编辑。该方法将整个过程分解为三个互补的阶段：创建语义连贯音景的基础拟音生成、通过精准的用户交互进行以对象为中心的交互式细化，以及由自然语言指令引导的定向编辑。在每个阶段，多模态大型语言模型都会生成与上下文对齐的 CoT 推理，以指导统一的音频基础模型。<

SkyReels-V2

NewFree视频电影创作

SkyReels-V2 是由 Skywork AI 开发的先进开源视频生成框架，能够创建具有高视觉和运动质量的无限长电影级视频。该模型支持多种应用，包括文本转视频生成、图像转视频合成、故事生成、摄像机引导以及元素转视频合成。其架构集成了用于深度视频理解的多模态大型语言模型、多阶段渐进式训练策略、用于增强运动真实感的强化学习，以及用于无缝生成长视频的扩散

Video-T1

New视频一代

Video-T1 是一个开创性的框架，它将测试时间缩放 (TTS) 引入视频生成领域，显著提升了生成视频的质量和一致性。与仅依赖模型大小和训练数据的传统方法不同，Video-T1 在推理时利用额外的计算资源来优化视频创建过程。通过将视频生成视为搜索问题，Video-T1 探索了更广泛的可能视频轨迹，从而生成与用户提示更加一致且视觉保真度更高的输出。这种

UniAnimate-DiT

New动画片人体运动

UniAnimate-DiT 是一个先进的人体图像动画开源框架，利用大规模视频扩散变换器生成视觉冲击力强且时间一致性高的动画。UniAnimate-DiT 基于强大的 Wan2.1 视频扩散模型，引入了一种精简的方法，利用低秩自适应 (LoRA) 进行高效微调，显著降低了内存开销，同时保持了较高的生成性能。该系统旨在根据一系列目标姿势为单个参考图像制作

UI-TARS

Flux Controlnet Collections

图片图像生成, 神经网络

Flux ControlNet Collections 是 Black Forest Labs 的 FLUX.1-dev 模型的 ControlNet 检查点存储库。ControlNet 是一种神经网络架构，允许进行条件图像合成，使用户能够根据特定提示或条件生成图像。Flux ControlNet Collections 提供了一组预先训练的 Cont

MarketMind

办公市场分析, 竞争分析

MarketMind 是一款人工智能市场分析工具，可简化市场研究流程并提供实时的全面见解。MarketMind 旨在满足希望快速做出明智决策的企业的需求，大大减少了传统研究方法通常所需的时间。该平台根据特定的业务和研究需求量身定制分析，旨在提供可增强战略决策能力的高效解决方案。

MarketMind 的突出功能之一是其竞争分析功

Lexi

数据数据分析, 用户体验

Lexi 是一款人工智能伴侣，旨在增强 Lexer 客户数据平台 (CDP) 中的数据分析和任务管理。作为一款主要面向企业的工具，Lexi 可帮助用户更有效地浏览数据，提供见解并简化各种分析流程。通过利用自然语言处理和机器学习，Lexi 使用户无需大量技术专业知识即可执行复杂的数据任务。

Lexi 的主要功能之一是它能够在 Le