关键功能

提供一个专注于推理密度的 8B 级专家混合语言模型。
在推理期间使用不到十亿个活跃参数,以实现高效服务。
面向复杂推理、数学和编码基准测试。
在 AMD Instinct MI300 硬件上完成预训练、中期训练和监督微调。
通过 Zyphra 和 Hugging Face 资源提供开放模型访问。
支持对高效 MoE 架构进行实验。
帮助开发者在更严格的计算预算下评估高能力 LLM。
作为适用于研究、编码和技术推理工作流的紧凑模型选项。

该模型在 AMD Instinct MI300 技术栈上完成了预训练、中期训练和监督微调,因此作为一款由 AMD 训练的 MoE 发布模型而备受关注。ZAYA1-8B 采用专家混合设计,在推理期间使用不到十亿个活跃参数,使其能够相对于计算成本提供强大的能力。这种效率特征对于希望部署可用推理模型、但又不想承担超大型密集模型带来的延迟、内存或基础设施负担的团队来说非常重要。


对于开发者来说,ZAYA1-8B 可作为编码助手、数学推理工具、研究实验和高效 LLM 服务的开放模型候选方案。它的价值不仅在于原始基准性能,还在于开放访问、紧凑活跃计算,以及证明非 NVIDIA 加速器基础设施也能在高性能训练栈上实现严肃表现的组合。该产品适合那些正在为成本敏感或硬件受限部署评估小型但有能力的 LLM 的团队。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!