拧巴的扎克伯格

出品 | 虎嗅科技组
作者 | 房晓楠
编辑 | 苗正卿
头图 | 视觉中国
无疑,这几天 AI 圈最大的流量都被 Meta 承包了。
先是 4 月 6 日,迟迟不出手的 Meta 终于亮相,一举扔出包括 Llama 4 Scout(109B)、Llama 4 Maverick (400B)和 Llama 4 Behemoth 在内的 Llama 4 套餐,凭借 " 原生多模态 MoE 架构 "" 性能超越 DeepSeek V3""1000 万 token 上下文 " 等亮点,一路高举高打。业界也是喜闻乐见," 开源之光依旧能打 " 等声音持续不断,Llama 4 出道即巅峰。
但没想到,紧接着负面声音层出不穷。
一方面,开发者在实际测评时发现,Llama 4 的性能并没有官方宣扬的那样强大,甚至在代码、逻辑推理方面,远不如 GPT-4o、DeepSeek R1 、 Gemini 2.5 pro。
另一方面,有自称 Meta 内部员工的人员爆料,Llama 4 存在造假嫌疑,为了 " 赶工期 ",在后训练阶段中,将多个 benchmark 测试集混入训练数据,以提升基准分数。甚至,技术负责人看不过去这样的造假行为,递交辞职报告。传闻一出,立即发酵,Meta 陷入舆论风波中,各种声讨声不断。
一位大模型从业者在朋友圈发文称,"Meta 的‘作弊’行为,让他想到 2023 年百模大战时期。" 另有业内人士认为大模型和芯片不一样,一味追求跑分榜单意义不大,大模型的核心能力还是要放到业务场景中实战。
而经过一夜的舆论发酵,目前,Meta 官方已正式做出回应,Llama 4 不存在造假、打榜等行为,模型质量表现不一,是有充足的理由可以解释的,即 " 我们在模型一准备好就立即发布了,所以预计在各个平台的公开实现需要几天时间才能完全稳定下来 "。
之后,Meta 首席 AI 科学家 Yann LeCun 也转发澄清贴,表明 Meta 并不存在造假行为。
但是这番解释并没有让大家信服,根据澄清文,紧跟而来的疑点是," 如果模型还没有稳定下来,Meta 为何急着发布?"
其实,关于这一点,答案很明显,Meta 急了。
在 Llama 4 发布之前,Meta 上一次发布新品还是在去年 7 月,发布 Llama 3.1 405B 模型,彼时 DeepSeek 仍处于蛰伏期,Meta 风光无限,CEO 扎克伯格也高调预告着已经处于开发中的 Llama 4。
只是没想到,今年年初,DeepSeek 凭借强大的多场景理解与内容生成能力成功 " 出圈 ",AI 圈的竞争格局瞬间改变,压力给到一众大模型企业,Meta 自然也不例外。有消息称,当时 Meta 就意识到,相较于 DeepSeek-V3,研发中的 Llama 4 在各项测试中都比不过前者,于是研发进程一再被打乱。
一位业内人士告诉虎嗅,相传 DeepSeek 出来后,Meta 便在内部设置了四个作战室,天天研究 DeepSeek,思考该如何复现其模型能力。另外,这次 Meta 首次在 Llama 系列模型中采用 MoE 架构,或许也是出于这一路径早已被 DeepSeek 验证过。
但显然,Llama 4 的性能表现并没有达到预期,即便是大手笔地用了 20 万的显卡集群。
其实,或许 Meta 的压力要来得更早一些。
在 Llama 4 造假传闻出来后,虎嗅在向业内人士求证的过程中,得到的反馈大都是," 这很正常,Meta 被逼急了,就只能去作弊了。"
一位业内人士告诉虎嗅,Llama 的危机感并不是完全是因为年初 DeepSeek 出现才有的,这只是加速了这一认知,其实早从去年下半年开始,在开源上,Llama 系列模型的影响力就大不如前了,开发者早早就达成一致,转向性能表现更好的 Qwen 系列和 DeepSeek。
所以,在这次 Llama 4 发布之际,大家更多是抱着 Meta 将带来怎样的提升与改进,并非期待它真的能够颠覆 DeepSeek,重新翻盘。
只是没想到,Meta 不仅没有让大家看到它的进步,更是因为一些 " 迷惑 " 操作,让自己深陷造假风波。
而最新消息是,目前在社区内还有一些开发者在继续试图找出 Meta 造假的证据。
其实,不管这次 Meta 造假与否,已经没那么重要了,重点是,Llama 系列模型已经无法再现昔日荣光是真的,Meta 面临着巨大的信任危机是真的。如果说之前,Meta 的压力与挑战还在于如何应对 DeepSeek 和 Qwen 带来的冲击,那么现在,如何针对 Llama 4 存在的性能缺陷,早点修复 Bug,重新夺回起开发者的信任,才是更为迫切的难题。
原本,这只是 AI 圈一场事先张扬的新品发布,没想到却一波三折,最终演变成一场 " 闹剧 ",可想而知,这早已背离 Meta 的初衷。
不知道看到这样的结果,Meta 是否会后悔,反正已经晚了,又何必在乎再晚一点,面对 DeepSeek 这样横空出世的 " 大魔王 ",焦虑是正常的,如果老老实实交出一份诚心之作,即便再不如意,也不会像如今这般 " 惨淡收场 "。