中国引领全球AI理论突破！百度2014年就已发现Scaling Law

百度 Scaling Law AI大模型

作者：Nemo

2024/12/30 16:24

近日，一项关于大模型核心理论“Scaling Law”的起源讨论正在外网热烈展开。最新观点和证据表明，中国科技巨头百度比OpenAI更早实现了这一突破。

知名媒体《南华早报》在其报道《百度在OpenAI之前就发现了Scaling Law？AI领域的辩论重新燃起》中指出，尽管美国在AI模型创新方面一直被视为领先者，但最新的讨论显示，中国在探索这些概念上可能更为超前。

中国引领全球AI理论突破！百度2014年就已发现Scaling Law

大模型发展的核心是“Scaling Law”——这一原则认为，训练数据和模型参数越大，模型的智能能力就越强。这一思想广泛归功于OpenAI在2020年发表的论文《Scaling Laws for Neural Language Models》，自那以后，这个概念已成为AI研究的基石。

然而，OpenAI论文的合著者、前OpenAI研究副总裁、Anthropic创始人Dario Amodei ，在11月的一期播客中透露，他在2014年与吴恩达在百度研究AI时，就已经发现了模型发展的规律Scaling Law这一现象。Dario Amodei表示，随着提供给模型的数据量增加、模型规模的扩大以及训练时间的延长，模型的性能开始显著提升。这一非正式的观察后来在OpenAI的GPT-1语言模型中得到了验证，并被认为是大模型发展的“金科玉律”。

中国引领全球AI理论突破！百度2014年就已发现Scaling Law

此外，行业人士也发文称，关于Scaling Law的原始研究实际上来自2017年的百度，而不是2020年的OpenAI。Meta研究员、康奈尔大学博士候选人Jack Morris在X（前Twitter）上引用了一篇标题为《Deep Learning Scaling is Predictable, Empirically》论文，论文于2017年由百度硅谷人工智能实验室发布，详细讨论了机器翻译、语言建模等领域的Scaling现象。

但这篇论文的重要性被严重忽视，OpenAI在 2020年的Scaling Law研究中引用了百度研究人员在2019年发表的论文《Beyond Human-Level Accuracy: Computational Challenges in Deep Learning》（超越人类水平的准确性：深度学习的计算挑战）。批评者称，OpenAI 有选择地引用了百度 2019 年的论文，而忽略了 2017 年早些时候的研究，而该研究才是Scaling Law概念的真正原始来源。

中国引领全球AI理论突破！百度2014年就已发现Scaling Law

有研究者表示，正是百度的早期研究为AI大模型的发展奠定了理论基础，并在2019年发布了第一代文心大模型，几乎与OpenAI处于同一时期。“中国在大型模型方面的进步也获得国际认可。”据《南华早报》，在上海举行的百度世界大会2024上，百度宣布了新技术，用以减轻图像生成中的幻觉问题——即生成误导性或事实不一致的图像。百度还透露，截至11月初，百度文心大模型的日均调用量已经达到了15亿，相较一年前首次披露的5000万次，增长约30倍。

随着AI技术的不断进步和应用的深入，中国在全球AI领域的影响力和领导地位将更加凸显。