源2.0-M32

⭐ 9.2 📅 2024 🎯 400B 参数
高效算力 MoE架构 开源免费

精度对标Llama3-70B的开源大模型,采用创新的MoE架构和Attention Router机制。在数理逻辑、代码生成、知识问答等方面表现卓越,推理算力需求仅为同级别模型的1/19,为开发者提供极致性价比的AI解决方案。

制作方

IEI

训练规模

2000B Tokens

开源状态

完全开源

0
算力需求
相比Llama3-70B,每token算力需求降至1/19,大幅降低推理成本
0
效率提升
单位算力下的平均精度是Llama3-70B的18.8倍
0
代码能力
Humaneval代码生成测试,Few-shot下达到78.1%准确率

核心优势

创新的技术架构,带来卓越的性能表现和极致的算力效率

🚀

极致算力效率

每token的算力需求仅为Llama3-70B的1/19,在相同算力下,平均精度达到Llama3-70B的18.8倍,大幅降低推理成本。

🎯

卓越性能表现

在数理逻辑、代码生成、知识问答等多个维度精度对标Llama3-70B,用更少的资源实现更强的能力。

🧠

创新MoE架构

基于LFA+Attention Router的创新MoE模型结构,通过智能的专家选择机制,实现参数与性能的最优平衡。

📊

海量训练数据

训练数据扩充至2000B Tokens,包含600+种代码数据、专业领域语料,以及超过1000万条高质量合成数据。

💡

强大小样本学习

Humaneval代码生成能力通过Few-shot提示从74.4%提升至78.1%,展现出色的上下文学习能力。

🔓

完全开源免费

模型全面开源,免费可商用,无需申请授权,助力开发者和企业快速构建AI应用。

性能对比

与业界领先的Llama3-70B模型全方位对比

对比维度 Yuan2.0-M32 Llama3-70B 性能优势
总参数量 400B 700B 参数减少43%
激活参数 3.7B 700B 激活仅5.3%
每Token算力需求 基准值 19倍 算力降至1/19
单位算力精度 18.8倍 基准值 效率升18.8倍
数理逻辑能力 对标 基准 同等水平
代码生成能力 对标 基准 同等水平
知识问答能力 对标 基准 同等水平

技术架构

创新的Attention Router机制,实现高效的专家网络协同

创新的Attention Router机制

源2.0-M32采用了突破性的Attention Router技术,能够更智能地选择和激活专家网络,实现更高效的参数利用。

  • 基于LFA(Localized Filter Attention)的高效注意力机制
  • 动态专家选择策略,实现计算资源的精准分配
  • 多专家协同工作,保证模型的表达能力
  • 训练Loss达到1.22,展现优秀的收敛性
  • 400亿总参数,仅激活37亿参数进行推理
  • 训练数据规模达到2000B Tokens

MoE架构示意

多专家混合系统

Attention Router ↓

Expert 1 | Expert 2 | Expert 3 | Expert 4

↓ 智能选择与组合

高效输出结果

开源与商用

完全开源,免费可商用,无需任何授权

🌟

完全开源

模型权重、代码、文档全面开源,支持社区共建共享。

💰

免费商用

无需支付任何费用,即可用于商业项目和产品开发。

🚫

无需授权

无需申请或等待审批,下载即可使用,加速落地。

🤝

社区支持

活跃的开发者社区,提供技术支持和最佳实践分享。