iangyu 发表于 2025-6-17 16:44

【MiniMax发布开源混合架构推理模型M1,M1所需的算力仅为DeepSeek R1的约30%】

上海AI独角兽MiniMax正式开源推理模型MiniMax-M1(以下简称“M1”)。MiniMax称,这是全球首个开放权重的大规模混合注意力推理模型。凭借混合门控专家架构(Mixture-of-Experts,MoE)与 Lightning Attention 的结合,M1在性能表现和推理效率方面实现了显著突破。实测数据显示,M1系列在长上下文理解、代码生成等生产力场景中超越多数闭源模型,仅微弱差距落后于顶尖闭源系统。M1支持目前业内最高100万token上下文输入,同时支持最多8万token输出。成本表现方面,在进行8万Token的深度推理时,M1所需的算力仅为DeepSeek R1的约30%;生成10万token时,推理算力只需要DeepSeek R1的25%。MiniMax表示,M1整个强化学习阶段只用到512块H800三周时间,租赁成本为53.74万美元。

芷莹快乐 发表于 2025-6-19 17:42

谢谢分享

iangyu 发表于 2025-6-19 17:55

感谢分享
页: [1]
查看完整版本: 【MiniMax发布开源混合架构推理模型M1,M1所需的算力仅为DeepSeek R1的约30%】