Qwen3-235B-A22B-Instruct-2507 模型具有多项关键特性,包括因果语言模型类型、预训练和后训练阶段,以及总计 2350 亿个参数(其中 220 亿个已激活)。此外,它还拥有 94 个层、64 个 Q 注意力头和 4 个 KV 注意力头,以及 128 位专家模型(其中 8 位已激活)。该模型原生支持 262,144 个上下文长度,并且不会在输出中生成思考块。此外,不再需要指定 enable_thinking=False。
为了在 Qwen3-235B-A22B-Instruct-2507 上获得最佳性能,建议使用特定设置,例如 temperature=0.7、top_p=0.8、top_k=20 和 min_p=0。该模型还支持在 0 到 2 之间调整 presence_penalty 参数,以减少无限重复。此外,对于大多数查询,建议输出长度为 16,384 个词条,并建议在基准测试时使用提示来标准化模型输出。该模型可用于各种任务,包括具有特定提示结构的数学问题和多项选择题。