企业项目管理、ORK、研发管理与敏捷开发工具平台

网站首页 > 精选文章 正文

Llama 4系列模型

wudianyun 2025-05-16 16:50:09 精选文章 7 ℃

2025年4月5日,Meta突然抛出一颗“开源核弹”——Llama 4系列模型。这场发布不仅是技术迭代,更是对OpenAI、谷歌等闭源巨头的战略反击。扎克伯格在Instagram高调宣布:“开源AI将成为未来的主流!”而Llama 4的三大杀器——混合专家架构(MoE)原生多模态千万级上下文窗口,直接让AI行业进入“性价比为王”的新纪元。


三大模型,各有所长

  1. 小杯Scout:轻巧实用

总参数1090亿,但每次只用其中170亿,相当于“干活时只开需要的灯”。

超长记忆力:能一次性处理1000万token(约1.5万页书),适合分析整本《三体》或公司全年财报。

单卡运行:一张H100显卡就能用,中小企业也能玩转AI。

  1. 中杯Maverick:全能选手

总参数4000亿,但干活时同样只用170亿,效率堪比“只带必要的工具上山”。

图文双修:能看懂图片里的梗,比如把一张表情包转成段子,还能根据设计草图写代码。

性价比高:推理成本是GPT-4o的1/10,生成百万字内容只要几十块。

  1. 超大杯Behemoth(训练中):未来大杀器

参数2万亿,专攻数学、编程等硬核领域,目标是在奥数题上碾压人类学霸。但需要3万多张显卡训练,普通人暂时用不上。


技术突破:从“全能选手”到“专家会诊”

  • 混合专家架构(MoE)的魔力
    Llama 4采用“分科诊疗”模式:面对数学题自动调用理科专家,写诗时切换文科专家,避免传统模型“全员加班”的算力浪费。例如,旗舰款Maverick总参数4000亿,但每次仅激活170亿参数,推理成本仅0.19美元/百万token,比GPT-4o便宜90%。
  • 多模态“早恋式融合”
    传统模型像“先学语文再补美术”,而Llama 4从训练初期就让文字、图像、视频“共同成长”,直接在共享语义空间交互。用户可上传设计草图让模型生成代码,或圈出表情包让它写段子,甚至分析10小时视频字幕。
  • 千万Token的“过目不忘”
    轻量版Scout支持
    1000万token上下文窗口(约1.5万页文本),能一次性读完《三体》三部曲并解析人物关系,靠的是分层注意力机制——先记大纲再填细节,解决长文本“看完就忘”的痛点。
  • 训练效率提升
  • FP8混合精度:关键层使用8位浮点数,训练速度提升30%,能耗降低。
  • MetaP优化器:基于贝叶斯算法从小规模实验外推超参数,减少90%调参时间,助力Behemoth在32K GPU集群高效训练。

性能表现

  1. 基准测试对比

Maverick:在MMMU图像推理(73.4分)、LiveCodeBench编程(43.4分)等任务中超越GPT-4o和DeepSeek V3.1。

Behemoth:Math-500数学竞赛得分95.0,GPQA专业问答73.7分,显著领先竞品。

  1. 推理成本优势
    Maverick每百万token成本0.19-0.49美元,仅为GPT-4o的1/10,适合中小企业部署。

四开源生态

核心开源地址

  1. GitHub代码仓库

Llama 4 模型代码与权重

https://github.com/meta-llama/llama-models/tree/main/models/llama4

包含 Scout 和 Maverick 的完整代码、训练框架及量化工具(支持 INT4 量化)

官方文档与博客

  • 模型技术文档
    https://www.llama.com/docs/model-cards-and-prompt-formats/llama4_omni/
    包含架构细节、训练数据、基准测试及安全指南
  • Meta官方博客
    https://ai.meta.com/blog/llama-4-multimodal-intelligence/
    解读模型设计理念、多模态能力及开源生态规划


Tags:

最近发表
标签列表