开云(中国)Kaiyun·体育官方网站-登录入口再望望腾讯的混元 T1：总参数目 3890 亿-开云(中国)Kaiyun·体育官方网站-登录入口

发布日期：2026-05-30 12:20 点击次数：178

文 | 王智远开云(中国)Kaiyun·体育官方网站-登录入口

昨天晚上，跟一又友聊起大模子。

他说当今各家齐"卷"到一个新阶段，模子之间差距也曾很小，只可用"遥遥率先"省略"吊打同业"这种词来面容。

从基准测试和数据来看，好多模子齐远超 DeepSeek R1、GPT-4o，但无间往下比的空间也曾不大了，实在的各异更多在使用面容上。

这让我启动念念考：大模子竞争，是不是也曾进入存量博弈阶段？

说到"存量"，就绕不开一个字："卷"。不卷，哪来的存量？那问题来了：这个卷，到底在卷什么？

我认为，名义看到的就三点：算力老本、数据质料和场景浸透。

曩昔大模子拼参数多，当今启动拼谁的老本低。

阿里家的 Qwen3，用"夹杂推理"的技能，简单问题用低算力能快速修起，复杂问题再冉冉念念考，这样部署老本胜仗降到了 DeepSeek-R1 的 1/3 到 1/4。

腾讯混元 T1，3890 亿参数的模子，通过寥落激活机制，算力诈骗率比传统模子擢升了 30% 以上。

百度的文心大模子，诚然没公开具体老本，但它的推理速率在工业级场景里比竞品快 20%，也算是有我方的上风。

字节超越没胜仗在公开场面提到过算力优化，但它通过抖音、本日头条的场景化落地，转折缩小了通用大模子的部署压力。

是以，算力老本上，天下是看能不成在不松手性能的前提下，把老本降下来。

降下来之后呢？

要道还不成影响数据质料，卷谁的磨练数据更硬核。

阿里家 Qwen3 磨练数据量达到了 36 万亿 token，撑抓 119 种言语和方言，数据质料更有普适性。百度文心一言依托搜索、舆图等产物，积攒了海量的真的用户活动数据。

腾讯的混元则通过开源生态积攒开垦者数据，在游戏和内容生成领域有私有上风；字节超越则诈骗抖音、本日头条的纷乱流量池，捕捉用户偏好数据，让内容生成模子更接地气。

是以，数据质料的卷，是从"广度"到"深度"的升级，不仅要数据多，还要精确、垂直。

技能再强，不成束缚现实问题，也仅仅"空中楼阁"，再望望场景浸透，谁更狠一些。

Qwen3 深耕电商、金融、医疗等垂直领域，通过定制化微调提供行业束缚决议；百度文心一言是镶嵌搜索、舆图、智能音箱等产物，酿成了"技能 - 场景 - 用户"的闭环。

腾讯的混元聚焦游戏和内容分娩，通过混元 3D 等用具霸占多模态赛说念；字节超越是把大模子融入抖音和本日头条的内容分娩历程，以致用 AI 生成短视频剧本，胜仗买通了"技能 - 内容 - 流量"的链条。

看到了吗？场景浸透的卷，是从"技能堆叠"到"价值创造"的转型，谁能在细分场景里跑互市业模式，谁就能解围。

因此，我认为这个"卷"是：卷技能、老本、场景的三角博弈；算力老本决定了谁能撑到终末，数据质料决定了谁能跑得更稳，场景浸透决定了谁能活出各异化。

但这种"卷"，背后笼罩着一个更深层的矛盾：

当技能残害趋缓时，天下一个劲地开源、吊打同业，是不是意味着用这些技能，在掩盖实在的技能瓶颈？

我认为：是的。但不是澈底没进步，而是技能主张有点小转机。

为什么这样说？

先说数据。阿里家的 Qwen3-235B-A22B，诚然总参数目有 2350 亿，但每次现实用到的参数唯有 220 亿，激活遵守才 9.4%。

什么看法，说白了，"轻量化"计谋如实缩小了老本，这是对底本那种"参数越多越好"模式的一种谐和。当今单纯堆参数也曾莫得太大的恶果了。

再望望腾讯的混元 T1：

总参数目 3890 亿，激活参数目 520 亿，凹凸文长度也很长，但它的寥落激活机制，本色上照旧在想方设法在不松手性能的前提下，把参数鸿沟压一压。

文心大模子就更无谓说了。4.5 Turbo 总参数目 1970 亿，但每次推理最多用到 28 亿参数。这讲明什么？

参数目也曾不是独一的推断标准了，激活遵守才是新的竞争点。这种转机不是在掩盖瓶颈，而是把技能残害的主张从"鸿沟膨胀"转向了"遵守优化"。

然后，再望望技能优化道路，阿里胜仗赶在五一前，推出"快慢念念考"夹杂推理。本色是什么？

想通过架构改进来缓解技能瓶颈。Qwen3 的"快念念考"是用低算力处理简单任务，"慢念念考"用高算力处理复杂任务，这是在对底本的 Transformer 架构进行符合和检阅。

腾讯混元的 T1 也通常，官方说模子内存占用减少了 40%，性能擢升了两倍；这种优化照旧依赖 MoE 架构的寥落激活机制，但也受限于硬件兼容性和算法复杂度。

是以，技能优化的中枢主张是延迟现存架构的生命周期；说白了，更像「技能瓶颈下的权宜之策」，而不是实在的残害。

论断很显着：

短期来看，参数激活遵守、夹杂推理、MoE 架构这些优化如实缓解了算力老本压力，但改进仅仅对现存技能框架的修补。

恒久来看，技能瓶颈没消灭，变成了"遵守瓶颈"、"场景适配瓶颈"。开源生态的普及为技能迭代提供了数据和场景基础，但实在的残害还得靠底层架构的改进。

是以，这波"卷"不是在掩盖技能瓶颈，而是在从头界说瓶颈的样式。技能进步的速率是慢了，但主张更明确了：聚焦在遵守、老本和场景落地。

既然这样，问题就来了：

大厂在"模子卷"的波浪里，到底该怎么找到"看家技艺"？是无间在技能细节上抠来抠去，照旧把元气心灵放在怎么把技能用到现实场景里，省略去构建一个更大的生态呢？

我认为，技能细节优化（比如转机激活参数、搞夹杂推理）如实能减轻算力的压力。

但说到底，优化的中枢价值是让现存的架构能多撑一刹。不外，这里面有个风险：技能带来的克己会比咱们设想的更快地消灭。

为什么这样说？举个简单的例子：

你买了一款生人机，一启动认为电板续航迥殊犀利，比旧手机好好多，这便是技能红利。但用了一段时刻后，你发现电板老化得很快，续航上风很快就没了，以致比你预期的更早。这便是红利衰延缓度超出预期。

换句话说，技能带来的上风不会一直抓续下去，会缓缓松开，松开的速率比咱们料到的更快。

有个计议，来自 DeepMind 的 Chinchilla 模子，提到通过参数抵偿来缩小剪枝带来的性能亏蚀，不错在不依赖大鸿沟后磨练的情况下低老本压缩模子，擢升推理速率，同期最猛进程保留性能。

什么兴致呢？

大模子的性能擢升和算力干预之间的筹谋也曾到了一个瓶颈阶段，有点像"帕累托最优"（Pareto Optimality）——再怎么勤勉，擢升的空间也越来越小了。

说白了，当今天下齐在过度依赖参数鸿沟和寥落激活机制，可能会堕入一种"技能幻觉"：以为束缚了老本问题，其实并莫得实在束缚通用大模子的深层瓶颈。

换句话说，技能越来越同质化，竞争也越来越内讧。

文心一言的多模态智商虽在行业里率先，但中枢照旧依赖 Transformer 架构，没办法残害通用大模子的扩展性收尾，这便是算法优化的天花板。

再比如，Qwen 系列诚然全球下载量残害 3 亿次，看起来很犀利，但现实上模子的功能各异很小。

那怎么办呢？各家短期胜仗把架构推倒，从头来过吗？细则不可能。实在的道路是从"技能堆叠"到"价值创造"。

我认为，关于大厂来说，价值锚点的中枢在于能不成实在束缚现实问题，而不是单纯追求技能蓄意的极致；很显着，技能细节优化仅仅技能，场景落地和生态协同才是根基。

就像艾媒商讨在 2024-2025 年中国 AI 大模子市集计筹商述里提到的：谁能找到我方的"价值锚点"，谁就能在"下半场"解围。

是以，天下到底怎么才调养围呢？

当今看来，实在能落地到企业现实场景里的，是一个"三重共振"：云厂商 + 行业应用 + MCP 契约。

为什么说 MCP 是要道？因为它本色上是从头界说了企业与 AI 怎么相助的法规。

曩昔企业用大模子，就像给厨师一把刀，但没告诉他菜在哪、锅在哪、调料在哪——他只可靠猜。

当今有了 MCP，迥殊于给 AI 装了一个"导航系统"，它能自动找到企业的数据库、API、业务历程，以致还能跨系统操作。

高德舆图是阿里云的客户，要是接入 MCP，以后导航提倡就不是简单的"绕开拥挤"，而是能市欢用户的耗费纪录保举相近餐厅，以致胜仗跳转到外卖 App 下单。

这背后是 MCP 把高德的数据和阿里云的 AI 智商买通了。

那 MCP 到底怎么驱动 ToB 的范式变化？我认为，有两点：

一、从"模子为中心"变成"数据为中心"；曩昔企业作念 AI，总盯着模子参数、推理速率这些技能细节。但 MCP 让重心转向数据畅达。

二、从"孤岛"变成"协同"；企业里面的系统经常互不联通，比如：财务系统、供应链系统、客户束缚系统。一个公司用了谁家的云，云厂商就不错基于 MCP 把这些系统全买通。

买通之后，MCP 就从一个简单的用具变成了分娩力基础程序。是以，这才是新范式。

它让 AI 不再局限于"参数鸿沟"或"推理速率"，而是通过数据协同和场景镶嵌，成为企业运营的"操作系统"。这才是企业的刚需。

这亦然我为啥说，在大模子和 AI 的鼓舞下，从下到上看，改日可能会出现新的飞书、钉钉这样的平台。它们不像飞书、钉钉那样有通信、协同功能，但至少能把企业的多样业务历程整合起来。

叙事还在无间开云(中国)Kaiyun·体育官方网站-登录入口，到底会不会这样呢？deepseek R2 出来后，就见分晓了。

友情链接：

开云(中国)Kaiyun·体育官方网站-登录入口再望望腾讯的混元 T1：总参数目 3890 亿-开云(中国)Kaiyun·体育官方网站-登录入口

热点资讯

相关资讯