---
title: "刚刚，姚顺雨腾讯首秀来了！三个月重建混元新模型，实测到底什么水平"
source_name: "爱范儿"
original_url: "https://www.ifanr.com/1663500?utm_source=rss&utm_medium=rss&utm_campaign="
canonical_url: "https://www.traeai.com/articles/9d6bdccf-9059-4d51-917f-866a88435d39"
content_type: "article"
language: "中文"
score: 5
tags: []
published_at: "2026-04-23T09:08:31+00:00"
created_at: "2026-04-23T11:12:58.521061+00:00"
---

# 刚刚，姚顺雨腾讯首秀来了！三个月重建混元新模型，实测到底什么水平

Canonical URL: https://www.traeai.com/articles/9d6bdccf-9059-4d51-917f-866a88435d39
Original source: https://www.ifanr.com/1663500?utm_source=rss&utm_medium=rss&utm_campaign=

## Summary

traeai 从博客、播客、视频和推文中筛选高质量技术内容，生成摘要、要点、评分和每日早报。

## Key Takeaways

- 
- 
- 

## Content

Title: 这是混元的上半场

URL Source: http://www.ifanr.com/1663500

Published Time: 2026-04-23 17:08:31

Markdown Content:
这周，中国大模型的更新让人窒息。前脚阿里最强旗舰 Qwen 3.6 Max刚发布，月之暗面的 Kimi 2.6 就马上登场，DeepSeek V4 也箭在弦上。

刚刚，混元的 Hy3 Preview 也正式亮相，这是腾讯首席 AI 科学家姚顺雨主导的一个模型。

姚顺雨表示，Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布，不断提升 Hy3 正式版的实用性，以及模型在真实场景中的综合表现，并开始探索特色模型能力。

![Image 1](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_16-11-22.png!720)

从去年年底姚顺雨加入腾讯，入职首席 AI 科学家，并负责 AI Infra 及大语言模型，1 月底开始启动模型训练，三个月的时间完成了从训练到上线。

这个大版本升级的混元模型，在短时间内，不仅对底层基础设施进行了系统性重建，还包括预训练和强化学习在内的底层框架，全部推倒重来。

最后的答卷是一个快慢思考融合的 MoE（混合专家）语言模型，总参数 295B，激活参数 21B，最大支持 256K 上下文长度。

在这个行业动辄吹嘘万亿（1T+）参数的时代，Hy3 preview 的数据显得有些克制。但这个参数很明显是兼顾了性能和成本之间的平衡，让模型能更好落地在不同场景。

[![Image 2](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9e05823708.png!720)](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9e05823708.png!720)

而 300B 这个量级，复杂的数理推理、长上下文理解和指令遵循能力都已经被充分激活；如果继续强行扩大规模到万亿参数，一边是训练时间加倍，在实际的表现上，也容易出现通信延迟、吞吐瓶颈和推理成本翻倍等问题。

不过，姚顺雨也提到，他们在继续扩大预训练和强化学习的规模，提升模型的智能上限。

[![Image 3](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9e03f58926.png!720)](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9e03f58926.png!720)

在多个真实生产和生活场景 benchmark，以及腾讯混元的 CL-bench 上表现对比前代，提升幅度明显。

因此，Hy3 preview 这次的定位非常明确，要到真实世界去解决复杂工程问题。

为了验证 Hy3 preview 是否能在真实世界去解决各种问题，具体的模型表现如何，APPSO 也提前拿到了内测资格，在元宝 App 和 WorkBuddy 桌面端应用了实测了一段时间。

## 编程和 Agent，混元开始接住真实的工程需要

编程能力目前还是各家大模型发力的重点，前几天还有外媒报道，谷歌正在成立一个新的团队，专攻 AI Coding。

这次的腾讯混元新一代大模型 Hy3 preview 同样在通用能力的提升基础上，能够适用于编程和现在热门的智能体场景。

例如我们用之前 GPT 5.4 模型发布时使用的编程测试案例，来看看 Hy3 preview 的具体表现。

![Image 4](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_09-58-36.2026-04-23-10_02_59.gif)

▲提示词：创建一个超写实的旧金山金门大桥交互式 3D 体验，允许我自由飞翔环绕。环境需包含真实的照明、水体、雾气、大气效果、悬索、车流、周边海岸线及城市背景，并具备电影级的尺度感和细节。让我能通过直觉式的飞行控制和多视角（包括近距离结构穿梭和大场景俯瞰）平滑地进行场景导航。核心要求是真实感、沉浸感和视觉忠实度。在测试运行时，务必从多个距离和角度环绕大桥飞行，验证导航的平稳性与稳定性，并确保场景无论远近都极具说服力。你可以利用 imagegen 技能生成建模所需的初始资产。视觉效果绝不能有任何“方块感”或“廉价感”，必须达到高保真、极度平滑、近乎照片的质感。桥面上应有真实的车辆通行。不必急于求成，如果需要，即使耗时一小时也可以。请不断迭代，直至完美。

虽然最后的结果并不是非常写实，主要差距还是在于所使用的工具限制。但整个体验还是非常流畅和丝滑，我们能使用 WASD 键来控制自己第一人称视角的飞行，同时 Hy3 preview 也自动写了一些默认视角。

而在让它写一些简单的小游戏时，像是同样来自 GPT-5.4 的提示词，做一个游乐场的经营类小游戏。

![Image 5](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_09-54-43.2026-04-23-10_03_54.gif)

▲提示词：创建一个可以在浏览器中构建并导航的交互式等轴测 (isometric ) 主题公园模拟游戏。利用 imagegen 确立整体视觉风格，并生成全套游戏资产，包括游乐设施、路径、地形、树木、水体、食品摊位、装饰物、建筑、图标以及 UI 插画。游戏世界必须具备高度的统一感、精致度以及丰富的视觉表现，艺术风格需高端且适配等轴测视角。允许平滑地铺设或拆除路径、添加景点、布置景观并环绕公园移动，同时能够监控游客活动、设施状态以及公园的发展情况。系统需包含可信的游客移动算法，以及简单的公园管理系统（如资金、清洁度、排队和满意度）。确保整体体验充满趣味、逻辑清晰且完整，而非粗糙的原型。在优先级上，趣味性、易读性以及出色的游戏手感高于写实度。在进行玩法测试时，务必通过多轮操作来构建并扩张公园。验证设施放置与导航是否顺畅，确认游客对公园布局及景点的反应，并确保视觉效果、UI 以及交互体验稳定且统一。

还是不可免俗的使用了「渐变紫」的套装，只能说界面审美这一块，除了编程能力的提升，还是需要额外的一些微调。

好在整个游戏是能玩的，我们可以真实的经营这个游乐场，通过铺路、放置新的游乐设施以及服务设施等场地，来赚取收入，控制人流。

而经典的「骑自行车的鹈鹕」测试，我们把它换成了更难一点的，开着汽车的长颈鹿。生成的 SVG 画面是动态的，太阳、云朵和车子都在移动，基础的 SVG 元素都能做到。

![Image 6](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_13-02-35.gif)

这些关于编程能力的测试，我们都是在腾讯前段时间推出的智能体应用 WorkBuddy 内完成。

![Image 7](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_13-34-15.png!720)

而除了代码开发的任务，我们还可以使用 WorkBuddy 进行文档处理、数据分析可视化、深度研究等方面的日常办公。

由于 WorkBuddy 也是一个本地 Agent 产品，和 Claude Code、Codex 之类的应用一样，我们可以让它直接访问本地文件夹的文件。

要求它访问电脑上 Hy3 文件夹里面的全部文件，并根据文件的内容，创建一个类似于 Wiki 的网页，能够直接索引到不同的文件。

![Image 8](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_13-59-46.png!720)

WorkBuddy 读到了我们创建的不同项目，例如要求它完成的落地页、3D 金门大桥、个人博客、运营游戏等项目，并分类总结好。

再要求它把其中一个香港国际电影节的 PDF 文件转成 HTML，要求它 1:1 复刻精美的杂志效果，显然太为难它，但是 Hy3 preview还是能在非常规排版的 PDF 文件里，准确定位到信息，并整理成网页。

![Image 9](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_14-44-17.png!720)

而在深度研究的调研任务上，我们要求他写一份关于内存市场洞察报告，给出的文档内容详细，使用的数据来源也全是权威机构。

![Image 10](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_14-19-42.png!720)

继续用 WorkBuddy 内的数据分析及可视化任务来测试时，要求 Hy3 preview 基于联合国人口司的数据，做一次全球人口结构变迁的可视化分析，Hy3 preview 花了非常长的时间进行调研，最后给出的研究报告，可以说能直接拿过来用。

![Image 11](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_14-41-51.png!720)

▲部分可视化图表截图

这些编程和智能体的能力，配合 WorkBuddy 能发挥到最大。在元宝 App 内，现在我们也可以让它生成一些小型的网页游戏，在对话框里就能预览打开。

## 闲聊，要做到「活人感」不容易

前段时间，一个短视频在网上传播，视频内容是一位乘客看到前排的司机，在手机上和 AI 助手聊天，他告诉 AI 自己一天收入，AI 会给他一些反馈。

有网友在下面留言，说以前这些聊天都是 200 块一小时的心理咨询，现在手机发条消息就能做到。

![Image 12](https://s3.ifanr.com/wp-content/uploads/2026/04/PixPin_2026-04-23_11-51-38.png!720)

无论模型在代码开发、解数学题、科学研究上取得了多少成功，大多数人用 AI 的场景，占比较多的还是各种类型的角色扮演。

我们也测试了腾讯混元新一代大模型 Hy3 preview 在日常聊天以及创意写作上的表现。

没有「不躲不逃不藏的只用最直接」的方式跟我说，有的是真实地能解决问题的文字。打开元宝 App，点击深度/快速思考，选择模型 Hy3 Preview，问它「为什么我在广州找不到爱情」。

它的回复是客观和主观两方面并行的，会分析除我之外的原因，也会告诉我应该要怎么做。

[![Image 13](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9c705d291f.png!720)](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9c705d291f.png!720)

在聊到一些可能找到明显原因的困惑时，Hy3 preview 还会自动生成对应的表格，来解释 AI 并不是只会顺从。

创意写作的任务上，Hy3 preview 模型的表现，也要比前代更有文采和个性化风格，即便是简单的生活文案，人情味也更明显了。

我们找了一些基础的风格模仿任务、叙事节奏的续写、语言的创作力和情绪张力等题目，来测试它。

[![Image 14](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9c73693c4b.png!720)](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9c73693c4b.png!720)

生成的写作结果，在独特性、执行精确度，以及风格稳定性上的表现，确实要更符合我们人类写作的特点，没有 AI 那种明显的套话。

那道经典的走路去还是开车去洗车问题，Hy3 preview 也答上来了。

![Image 15](https://s3.ifanr.com/wp-content/uploads/2026/04/IMG_2390.png!720)

## 当所有人在做一套卷子，混元开始出卷

过去两年多，中国 AI 行业有一种集体焦虑：所有人都在做同一件事。同样的架构，同样的训练范式，同样的榜单，同样的新闻稿模板。模型发布会的 PPT 换个 logo 就能通用，「全球领先」「性能登顶」这些词被用到通货膨胀。

腾讯曾经也在这个队列里。别人打榜它也打榜，别人堆参数它也堆参数，别人做什么功能它追什么功能。结果是混元的技术投入不少，但市场感知始终模糊。你问用户「混元跟别家有什么区别」，大概率答不上来。

Hy3 preview 的意义，可能恰恰在于腾讯终于不追求打榜了。这也是姚顺雨带给混元最大的变化。

![Image 16](https://s3.ifanr.com/wp-content/uploads/2026/04/Tencent-Elevates-Senior-Hire-to-Lead-AI-Research.png!720)

此前晚点一篇报道就转述了姚顺雨在腾讯内部会上的判断：模型过度追逐榜单成绩，将打榜语料放入训练集，数据被污染了。模型很会答题，到了真实场景却不稳定。

榜单衡量的是能力上限，用户感知的是能力下限。MMLU 上领先两个百分点，用户在实际使用中几乎感知不到；反过来，指令遵循稍差、格式不稳定、幻觉率偏高，用户体验会断崖式下降。

所以在 Hy3 preview 上， 就能看到混元开始把这个逻辑翻了过来：不追榜单，追场景。

![Image 17](https://s3.ifanr.com/wp-content/uploads/2026/04/figure-1.png!720)

▲去年一份报告就曾指出， AI 在各类基准测试上的分数一路飙升，benchmark 过于饱和，这些成绩往往并不能真实反映它对现实世界的实际影响。

295B 的参数量说明它不打算在模型尺寸上硬碰硬。不上公开榜单说明它不打算在刷分上继续内卷。Co-design 的研发模式说明它开始把注意力从「别人做了什么」转向「我的用户需要什么」。

这里就不得不来看看腾讯这家公司的核心业务场景，社交、游戏、广告、企业服务，每一个都有极强的领域特殊性。微信的对话流是碎片化的、高密度的；游戏需要模型根据实时局势做即时反应；企业微信和腾讯会议需要基于私有文档的精准分析。

[![Image 18](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9e10f47a54.png!720)](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69e9e10f47a54.png!720)

▲ Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线，微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。

这些场景对模型的要求，跟通用智能榜单上考核的那些指标并不完全匹配。一个在 MMLU 上排名前三但在微信群聊里读不懂语境的模型，对腾讯来说毫无意义。

换句话说，腾讯可能是中国大厂里最不应该去追通用榜单的那一个。它手里攥着的场景足够独特、足够复杂、足够有商业价值，完全可以走出一条自己的路。

Co-design 就是这条路的起点。模型在真实业务里跑，业务用真实数据反哺模型，腾讯对 AI 的巨额投入能得到场景的快速验证，同时获得商业上的闭环。这个飞轮一旦转起来，产生的壁垒比榜单上的排名坚固得多。

当所有人都在比谁的模型更「全能」的时候，谁的模型在自己的场景里最「好用」，可能才是真正的胜负手。

![Image 19](https://s3.ifanr.com/wp-content/uploads/2026/04/index_develop_bg2.jpg!720)

当然，「找到节奏」和「赢下比赛」之间还隔着相当的距离。

Hy3 preview 是混元重整后的第一个模型，三个月的研发周期说明执行力在线，但也意味着大量的优化空间。55% 到 56% 的盲评胜率说明它够用，距离拉开差距还早。更大尺寸的模型在路上，正式版还在根据 Preview 阶段的用户反馈持续打磨。

但至少有一件事变了：混元不再追着别人的地图跑了。它开始画自己的地图，标自己的路。

大模型竞争走到今天，同质化才是最大的风险。当所有人都在用同一把尺子量身高的时候，有人开始造自己的尺子，量自己真正需要的维度。

这件事本身，比任何一榜单参数都值得关注。
