加入时间:2026-06-25 15:10 访问量:34 信息来源: 南风窗 2026年10期
2026年4月,几乎所有中美一线大模型公司都密集发布了新模型,是观察行业大趋势的绝佳窗口。最受瞩目的中国模型,当属DeepSeekV4预览版。一年多前的全球爆火余温犹在,它在美国社交媒体上的热度,也不输前一天发布的GPT-5.5和月中发布的Claude Opus 4.7,技术论坛Hacker News上它的讨论甚至压过了后两者。
V4的常规信息各家媒体已经讲过,下面结合技术报告的几个细节,谈谈业内人关心的几个问题。
第一,大模型现在哪家强?
评估大模型就像评估人,需要长期共事、至少多轮面试才看得清。普通用户最靠谱的方式,还是在自己工作中多用、多与同行交流。
大模型公司之间互相怎么评价也很值得参考。V4技术报告里重点横向对比的,国外是Claude、GPT、Gemini,国内是智谱GLM与月之暗面Kimi;专项任务上,中文写作比较了Gemini,代码与白领工作比较了Claude。
这次V4效果不算惊艳,国内与智谱、Kimi在同一水平线(代码能力的实际使用反馈甚至略逊),与国外相比,技术报告坦承“大约落后最先进前沿模型3到6个月”。但DeepSeek总体守住了自己的位置——这与业内共识一致:全球一线大模型,中美各三家,中国总体落后美国几个月。
而一年多前V3技术报告里重点对比的国外模型还是GPT、Claude、Llama,国内则是阿里千问。一年时间,格局变化不小。
第二,大模型的发展方向,有共识了吗?
一年多前R1爆火时,业界对方向并无共识:很多人认为推理模型是预训练之后的新阶段,谷歌押注原生多模态。Claude的混合模式异军突起、成为今天的主流,证明智能体(Agent)、推理(Reasoning)、代码(Coding),简称ARC,以及凭借这些能力解决的高价值任务,才是兵家必争之地。
Anthropic在收入和二级市场估值上都已经超过行业开创者OpenAI;OpenAI在狂追;马斯克因为ARC能力没做好,xAI创始团队几乎全员出走;谷歌也再次告急。国内智谱、Kimi都抓住了这一战略机遇,token供不应求。
V4技术报告的关键词是“高效的长上下文”,出发点正是解决ARC类长时段任务的瓶颈。除ARC外,下一个能扭转大势的战略方向、下一个大模型能攻克的高价值任务场景是什么?值得深思。
最后,谈谈AI领域的中国式自信。
V4技术报告引用的重要论文中,国内来源的比例明显增加:除DeepSeek自己的工作外,还包括月之暗面规模化的Muon优化器、由字节跳动Hyper-Connections发展而来的mHC,底层算子用的Tile语言则来自北大。智谱GLM5技术报告也重点引用了DeepSeek的DSA架构。更引人注目的是,DeepSeek在底层优化中与华为昇腾芯片做了深度协同(V4主要仍在英伟达芯片上训练)。
与美国大模型公司之间连牵手都难以形成对照,中国在大模型基础研究上正逐渐形成自己的生态,年轻的从业者也越来越自信。V4发布博客的结尾引用了荀子《非十二子》——“不诱于誉,不恐于诽,率道而行,端然正己”。在2026年这场日益白热化的大模型竞赛中,这份从容尤其珍贵。