埃隆·马斯克旗下的人工智能公司xAI于2月18日发布了新的大语言模型Grok3。在发布会上,xAI 的团队表示Grok3在数学推理、科学运算及编程能力等关键基准测试中,已超越谷歌Gemini、OpenAI的GPT-4o、Anthropic Claude 3.5及DeepSeek V3。在这4个被xAI对标的大模型中,3个属于美国公司,DeepSeek一家属于中国公司。有分析人士认为,DeepSeek跻身世界主流模型并成为前沿对标物,说明它改变了美中人工智能竞争的格局。但也有人认为,DeepSeek的走红得益于裹挟着民族主义情绪的过度营销。为此,《纵深视角》专访人工智能专家,台湾人工智能实验室创办人杜奕瑾先生,详解DeepSeek的技术细节以及它所揭示的全球人工智能发展和美中人工智能竞争的新趋势。
DeepSeek 物美价廉?
DeepSeek托生于一家从事量化金融的中国公司“幻方量化”。2024年12月,DeepSeek发布了新一代大语言模型V3,引起行业热议。2025年1月20日,DeepSeek又发布了最新的推理模型R1,称其性能比肩OpenAI的推理模型ChatGPT o1,这让它的知名度迅速“破圈”。
台湾人工智能实验室创办人杜奕瑾先生认为,DeepSeek R1的出现,确实反映出美中人工智能的技术差距在缩小。
他在《纵深视角》的专访中说,“大家过去觉得,在大型语言模型这个领域,中国应该是落后美国一到两年。也就是说,在美国做出了一个推理模型,中国可能一到两年后才会做到。但是就在最近,你会觉得这个时间好像是逼近了。以前你是看不到车尾灯,现在好像他车子就在后面的这种感觉。”
但是,杜奕瑾先生指出,DeepSeek R1的性能只能算逼近ChatGPT 的o1, 并没有超越。而且DeepSeek 能够实现这一点,也并不是依靠突破性的技术创新。
他说,“DeepSeek使用到的,比如混合精度训练、多专家模型MoE,再来就是这种从大模型去做模型蒸馏,这些都不是创新的,都是本来就有的。DeepSeek只是把这些放到一起之后,做了一个Benchmark(基准)。”
所谓“模型蒸馏”是指开发者使用更强大的模型输出的结果来训练小模型,从而以更低的成本取得更高性能。OpenAI已经发表声明称,有证据显示DeepSeek使用了OpenAI 的专有模型来训练自己的模型,存在侵权行为。
不过,一些业内人士认为,模型蒸馏是人工智能领域的常规操作,就连OpenAI 也使用别人的数据来训练自己的模型。
杜奕瑾先生指出,其实Open AI的ChatGPT o1原本就提供了模型蒸馏的方法,但依照它的使用规范,这种模型蒸馏只能用于它自己的ChatGPT o1-mini。DeepSeek却用此蒸馏出了ChatGPT的竞品,这是违反OpenAI 的使用守则的。
“但是这算不算违反知识产权,算不算剽窃,”杜奕瑾先生说,“其实在法律上是还没有定论的。”
DeepSeek 另一个为人津津乐道的地方在于它的成本。DeepSeek在发表的技术报告中写道:“DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。”
不过DeepSeek的成本问题遭到广泛质疑。知名的SemiAnalysis发布研究报告称:DeepSeek论文中提到的600万美元成本仅指预训练运行的GPU成本,这只是模型总成本的一小部分,他们在硬件上的花费远高于5亿美元。例如为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和GPU计算时间。
杜奕瑾先生也不认可DeepSeek“物美价廉”的说法。他指出,OpenAI在研发o1的过程中已经把成本效率跑通了,只是因为o1过去在推理模型领域属于垄断,没有竞争对手,所以卖价更高。DeepSeek是o1蒸馏的结果,“模型参数少的小模型,原本就会比较便宜”。
“你如果说因为技术能力让运行成本不那么昂贵,我的感觉是,开源社群在模型效能的节省上其实都有不错的成绩,DeepSeek对我来讲并没有特别的杰出,”杜奕瑾说。
DeepSeek证明算力不重要了?
DeepSeek走红之际,中国媒体热炒DeepSeek利用算法的优化降低算力需求,这证明中国能够打破西方对华芯片出口管制所带来的算力困局。
对此,杜奕瑾先生认为,DeepSeek确实彰显出人工智能的发展并不单纯依靠算力的堆叠,演算法等工程技术的进步也非常重要。但这并不意味着算力的影响会降低。
“就像人们常说的,钱不是万能的,但没钱是万万不能的。算力也是这个道理,”他说。
杜先生认为,DeepSeek顺应并凸显了全球人工智能发展业已存在的趋势,就是在开源的基础上,用大模型去训练出小模型。在这样的趋势之下,人工智能界将进入百花齐放的时代。以前AI模型是只有微软、谷歌、Meta这样的科技巨头才玩得起的游戏,但现在即使是只能买得起几十片GPU的小公司也能参与进来,这恰恰会推动对算力的需求。
“算力的竞争是不会结束的,”杜奕瑾说,“而是有了开源模型的结果,大家才开始看到,原来在人工智慧时代,决胜点不是只有在算力,还有就是你的软体工程。那在后面其实大家会慢慢会注意到,决胜点其实是真正到落地的每个应用。”
DeepSeek给美国人工智能界敲响警钟?
美国总统特朗普1月27日在谈到DeepSeek时说: “希望中国公司发布的DeepSeek人工智能能成为我们行业的警钟,提醒我们需要全力以赴进行竞争。”
台湾人工智能实验室创办人杜奕瑾认为,全球人工智能领域在技术上属于“竞合”关系,尤其在开源社群。
他在《纵深视角》的专访中说:“全世界的技术人员,对于开源社区的贡献,都是不容抹灭的,包括阿里巴巴的千问团队,包含DeepSeek团队,在欧洲还有Mistral, 在台湾有AI Lab。我们在技术上,只要大家愿意无私的奉献,都是可以合作的。但是在应用层面来讲的话,当你要使用一个应用,你要考虑的这种安全级别,就不是只有技术的堆叠了。”
DeepSeek等中国人工智能模型在数据安全的问题上饱受质疑。尤其在中国的情报法和数据法规之下,外界担心这些中国公司难以避免与中国政府分享用户数据。此外,中国的AI模型明显表现出在政治敏感问题上的自我审查,并且在“模型幻觉”和“模型偏见”这些问题上更为严重,这与训练模型所使用的中文数据的质量以及演算法“姓党”有关。在这些层面上,美国的人工智能公司更占竞争优势。
不过中国人工智能的崛起还是给美国业界带来了一定的压力,尤其对于OpenAI等坚持闭源策略的公司。
杜奕瑾说,“以软体的产业来讲,你选择一定程度的开放,实际上你才会成为这中间的霸主,因为当你选择开放的时候,你就会树立标准的典范,那大家就会跟随,你就会变成规范,你就会变成一个生态系。其实软体最大的获益在于生态系,而不是服务本身。所以我想,对OpenAI来讲,它是会有一些转变。”
特朗普政府强调放松监管鼓励创新,并加大在人工智能领域的投资。特朗普上任第一天就撤销了前总统乔·拜登于2023年签署的一项行政命令,该命令旨在为越来越强大的生成式人工智能开发设置一些护栏以保护隐私和国家安全等。上任第二天,特朗普会晤了几家领先科技公司的领导人,包括Open AI首席执行官萨姆·奥尔特曼(Sam Altman)、甲骨文(Oracle)董事长拉里·埃里森(Larry Ellison)和软银(SoftBank)首席执行官孙正义(Masayoshi Son),宣布私营部门将投资5000亿美元用于人工智能基础设施,该项目被称为“星际之门”(Stargate)。