开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

迄今为止最大最好的开源模型，总参数达 1 万亿，屠榜多个基准测试，Kimi K2 Thinking 来了。

▲ Kimi K2 Thinking 在 TAU 榜单（智能体工具调用能力测试）上排名第一，超过 OpenAI 和 Anthropic 的旗舰模型

一登场就是斩获多个测试榜单的第一名，Kimi 也不玩开源只和开源比那一套，而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起，非常自信。

PixPin 2025 11 07 13 58 34

▲ 智谱、MiniMax 自然语言处理部门负责人、以及 HuggingFace 联合创始人纷纷在评论区留言祝贺

除了在工具使用的榜单上拿第一，人类最后考试（HLE）、BrowseComp、还有其他基准测试，Kimi K2 Thinking 基本上都占据了先进模型的前排位置。

PixPin 2025 11 07 09 47 53

▲ 在跨学科专家级问题的 HLE 榜单、以及自主搜索的三个榜单上，排名第一；编程能力的三个榜单，得分也接近最好的 Claude 或 GPT 模型

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面，Kimi K2 Thinking 的性能表现可以说是，目前最接近封闭模型的开源模型。

延续了 7 月份，发布 K2 时，将其定位为自主智能路线图的一部分，Kimi K2 Thinking 也是主打 Agentic Intelligence（智能体智能）。它是一个推理的混合专家（MoE）模型，总参数量 1T，激活参数 32B，上下文长度 256K。

K2 Thinking 能在智能体工具调用中交错思考，同时在保持任务目标的同时，持续进行 200 到 300 次顺序工具调用。尽管工具调用在类似的闭源模型上，已经成为某种程度上的标准，但 K2 Thinking 可能是第一个，具有如此多工具调用能力的开源模型。

对比 K2 0905，K2 Thinking 在具体的任务上的提升，我们总结了 Kimi 的技术博客，有这些亮点。

解决需要百步推理的复杂难题：它能将一个庞大的目标分解为数百个子任务，然后像一个项目经理一样逐一执行。官方举例称，它曾通过 23 个交错的推理和工具调用，成功解决了一个博士级的数学难题。
更准确的找到详细的信息：通过执行动态的思考 → 搜索 → 浏览器使用 → 思考 → 代码循环，K2 Thinkging 在面对模糊或冷门的搜索需求，能自己上网反复搜索、浏览网页、验证证据，直到找到精准答案。
直接把想法变成可用的产品：K2 Thinking 特别擅长前端代码（如 HTML、React），和其他 Vibe Coding 产品一样，能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
写出更有人味的文章：逻辑严谨的专业长文，想象力丰富的创意故事，甚至是需要同理心的情感建议，K2 Thinking 在聊天问答这些通用能力上，能做到更扎实、更细腻的推理写作。

PixPin 2025 11 07 08 54 00

目前，Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是，Kimi 解释说为了保证用户能获得快速、轻量级的体验，当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此，直接在 kimi.com 上聊天，可能暂时无法完全复现上述基准测试中的极限分数。

PixPin 2025 11 07 10 24 21

▲测试中提醒「高峰算力不足，请耐心等待」

此外，能充分发挥 Kimi K2 Thinking 能力的完整智能体模式（Full Agentic Mode）将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。

我们也快速上手，实测了几个常见的项目，一起来看看实际的体验如何。

首先是编程任务，我们先让他做了一个技能五子棋的小游戏，要求是在普通的五子棋规则上，玩家可以使用技能。

PixPin 2025 11 07 11 02 58

速度很快，出乎我的意料，一两分钟的时间，它就实现了全部的代码，并且真的可以使用这些技能。

然后是骑自行车的鹈鹕，这个经典的测试大模型编程能力的项目，检验它的 SVG 代码生成。

PixPin 2025 11 07 11 11 12

虽然 K2 Thinking 写着推理模型，但是它的推理速度非常快，这段动态的 SVG 代码生成也只花了 1 分钟不到。虽然这个鹈鹕好像有点不太对劲。

开启长思考，即 K2 Thinking 的同时，能启用网络搜索，当我们要它完成一个天气卡片时，能看到 Kimi 会一边自动检索网络上的公开资料，一边完成代码的实现。

PixPin 2025 11 07 11 17 10

▲确实能调用浏览器的获取位置接口，但是在最后 Kimi 也提到，需要输入对应的地图 API 和天气信息 API 等数据

现在已经是全民 vibe coding 的时代了，普通用户还是程序员，都能从 K2 Thinking 的编程能力里，更快速地实现自己的想法。

在智能体搜索这个任务上，我们问了他一些专业领域的问题，测试它如何分解复杂问题、主动搜索、并整合难找的网络信息的能力。

PixPin 2025 11 07 11 36 34

可以看到，Kimi 搜索的信息是比较全面的，当我规定了 2025 年以后，它网页搜索的资料，也大多集中在最近这段时间以来的报道。

PixPin 2025 11 07 11 50 59

最后它给出的报告，也详细的提到了三种 2025 的算法，以及主要的公司等内容。

其实工具调用，应该是 Kimi K2 Thinking 非常重要的能力，但是在我们的体验中，发现大多数时候，他只是调用网络搜索工具，而没有看到 200 多个工具流。

我们在输入一个物流逻辑问题时，很明显是可以调用 Python 等代码解释器来辅助计算，但是 Kimi 只是和其他深度思考的模型一样，一步步地推理。

关于 K2 Thinking 的写作能力，我们找了一个表面上看起来是两难的问题给它。

PixPin 2025 11 07 11 56 31

这个回答有够人性化吗。很明显不是空洞的套话，还提供了周到且具体的思考，也帮助我们平衡了原则和现实两个方面，还有可操作的后续步骤。

在 AI 模型军备竞赛的今天，单纯的问答，很明显已经无法满足，我们复杂的专业需求。像人类专家一样，通过一步一步的推理思考，主动使用各种工具，来解决极其复杂的难题，成了所有大模型的标配。

根据 Kimi 官方文档和技术分析的介绍，这次的思考能力突破关键在训练方式，即高效的量化技术（INT4 QAT），这也是一个值得关注的行业亮点。

K2 Thinking 在后训练阶段采用了量化感知训练 (QAT)，让模型能以 INT4 精度本地运行，推理速度提升约 2 倍，同时保持最佳性能。

也就是说，它不是训练完再压缩，而是在训练过程中就贯穿低精度运算模型。这带来了两个巨大优势，一个是推理速度的提升，一个是长链条推理，不会因为量化而造成逻辑崩溃。

PixPin 2025 11 07 12 45 54

▲使用正确的量化技术，能节省 GPU 显存并加快推理速度

此外，它的所有基准测试成绩都是在 INT4 精度下报告的。说白了，这是一种「所见即所得」的性能，而不是实验室精心调制的数据，K2 Thinking 生来就能跑得动。

我们的实测也能看到，Kimi K2 Thinking 确实不仅仅是一个营销噱头，工具调用、量化技术、以及超长规划，让它在智能体方向上，推理速度上，都有不错的表现。

虽然在某些方面，例如稳定的结果输出、以及对提示词更宽松的要求，还是比不上闭源模型。但是开源能做到这样，我的心里只有两个字，佩服。

过去两年，国产模型的竞争大概是从 Qwen、百度这些模型，对 ChatGPT 的疯狂追赶；到横空出世的 DeepSeek 把推理成本降低的同时，还做到了和 o3 等推理模型，相媲美的表现。

让国产 AI 开始走上了，完全不同于国外闭源模型的路线。OpenAI 发布一个 GPT-5 预热了大半年，Anthropic 的 Claude 系列模型发布周期也在长达几个月。

而 Kimi 在今年七月发布了 K2，九月发布了 K2 Instruct，十一月就迎来了 K2 Thinking；更不用说还有智谱、MiniMax、以及前段时间模型七连发的 Qwen。就连还在期待中的 DeepSeek R2，也更新 V3.2、OCR 等广受好评的模型。

并且，这些模型全部开源。在海外社交媒体平台上，一年前大家可能只知道中国有 DeepSeek，而现在，Qwen 已经是 Hugging Face 上模型下载榜单的 Top 10，Kimi 和智谱（Z.ai）的 GLM 系列模型、以及 MiniMax 都成了大多数用户青睐的模型。

K2 Thinking 的发布，我想是一个新的转折点，就是当我们的开源模型，也能拿到和闭源模型一样的基准分数时，闭源模型还可以讲什么样的故事来营销自己呢。

Weixin Image 20251107094042 2505 82

Gemini 3 据说在今年年底前将发布，而 OpenAI 似乎也害怕再像当时的 nano banana 一样，抢走他的市场，计划推出 GPT-5.1。

军备竞赛还在继续，而国产开源的力量，开始让我们看到，一个好用的 AI，不是屠榜多少测试，是在具有真实用户需求的领域，能真正地提供某些东西，并且惠及所有人。

承认吧：手机越来越无聊了，要允许好玩的怪东西存在

索尼手机退出中国，日本手机终究走不出日本

vivo Y500 Pro 体验：搭载 2 亿像素主摄，续航旗舰也可以卷影像

雷鸟 Air 4 Pro 体验：戴在头上的电视，体验怎么样？

历史第一人！马斯克锁定万亿薪酬包，但得先完成这些「不可能任务」

早报｜iOS 26.1 调整闹钟关闭方式/马斯克1万亿美元薪酬方案获批/小鹏「一镜到底」回应人形机器人质疑 | 爱范儿

14.58 万起，焕新极氪 X：一台更精致的「领克 Z20」 | 爱范儿

告别续航焦虑！小鹏 X9 增程版预售 35 万元起，综合续航 1602km！

牵手王楚钦，联名麦当劳，奔驰想和年轻人「麦驰」一下

华为Mate 70 Air 轻薄旗舰：Air 的手感，Mate 的体验

小鹏机器人里面是不是真人？全球网友吵翻了，CEO 现场「扒开衣服」自证

佳能 R6 III 这台小电影机，是对 iPhone 「以下犯上」的回应

比尔·盖茨推荐的书，“直面科技行业最紧迫的争议性问题”

罗伯特·谢克里的小说集，他被看作科幻领域的幽默宗师

关于两栖爬行动物，为什么我们会对它们又爱又恨？

你的 iPhone 即将变聪明！苹果每年砸 10 亿美元，用上谷歌最强 AI

复制错误和自私基因，什么是生命的本质？

从科学转向哲学的波兰尼，如何理解知识和人？

深康佳A子公司以6.37亿元竞得479亩项目用地

泰勒·斯威夫特再次陷入 AI 风波，但这次粉丝「倒戈」了

早报｜苹果网页端App Store前端代码泄露/小鹏明年将推出有人开的L4智驾体验/索尼手机官号注销

预售 33.59 万元起，可以选配「淋浴」套件的智己 LS9 把上汽家底掏空了

小鹏人形机器人惊艳亮相，飞行汽车即将量产！

苹果做了台新 MacBook，比最便宜的 iPhone 还便宜，目标是卖爆 | 爱范儿

可口可乐，你浓眉大眼的也用 AI 做广告了？

查看全部

茉莉花论坛作为一个开放社区，允许您发表任何符合社区规定的文章和评论。

茉莉花新闻网

中華青年思想與行動的聚合地

茉莉花新闻网

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

同类信息

承认吧：手机越来越无聊了，要允许好玩的怪东西存在

索尼手机退出中国，日本手机终究走不出日本

vivo Y500 Pro 体验：搭载 2 亿像素主摄，续航旗舰也可以卷影像

雷鸟 Air 4 Pro 体验：戴在头上的电视，体验怎么样？

历史第一人！马斯克锁定万亿薪酬包，但得先完成这些「不可能任务」

早报｜iOS 26.1 调整闹钟关闭方式/马斯克1万亿美元薪酬方案获批/小鹏「一镜到底」回应人形机器人质疑 | 爱范儿

14.58 万起，焕新极氪 X：一台更精致的「领克 Z20」 | 爱范儿

告别续航焦虑！小鹏 X9 增程版预售 35 万元起，综合续航 1602km！

牵手王楚钦，联名麦当劳，奔驰想和年轻人「麦驰」一下

华为Mate 70 Air 轻薄旗舰：Air 的手感，Mate 的体验

小鹏机器人里面是不是真人？全球网友吵翻了，CEO 现场「扒开衣服」自证

佳能 R6 III 这台小电影机，是对 iPhone 「以下犯上」的回应

比尔·盖茨推荐的书，“直面科技行业最紧迫的争议性问题”

罗伯特·谢克里的小说集，他被看作科幻领域的幽默宗师

关于两栖爬行动物，为什么我们会对它们又爱又恨？

你的 iPhone 即将变聪明！苹果每年砸 10 亿美元，用上谷歌最强 AI

复制错误和自私基因，什么是生命的本质？

从科学转向哲学的波兰尼，如何理解知识和人？

深康佳A子公司以6.37亿元竞得479亩项目用地

泰勒·斯威夫特再次陷入 AI 风波，但这次粉丝「倒戈」了

早报｜苹果网页端App Store前端代码泄露/小鹏明年将推出有人开的L4智驾体验/索尼手机官号注销

预售 33.59 万元起，可以选配「淋浴」套件的智己 LS9 把上汽家底掏空了

小鹏人形机器人惊艳亮相，飞行汽车即将量产！

苹果做了台新 MacBook，比最便宜的 iPhone 还便宜，目标是卖爆 | 爱范儿

可口可乐，你浓眉大眼的也用 AI 做广告了？

查看全部

茉莉花新闻网

新闻汇总

联系我们

[email protected]

@molihua_org

molihuaxingdong

敬请期待

contact form

邮件订阅