分享好友 资讯热点首页 资讯热点分类 切换频道
重磅!阿里Qwen3超越Kimi-K2、DeepSeek-V3登顶,附一手实测
2025-07-28 12:57  浏览:88

作者|子川

来源AI先锋官


卷,实在是太卷了!

上周kimi推出K2,登顶开源模型宝座!屁股还未坐热,就被Qwen3超越!

就在今天深夜,阿里千问悄然发布了全新升级版Qwen3模型(Qwen3-235B-A22B)。

再次刷新了开源大模型的性能上限。

从官方放出的跑分成绩来看,新版Qwen3在指令遵循、逻辑推理、文本理解、数学、科学、编程以及工具使用等多个维度上实现了质的飞跃。

在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等一系列国内外权威测评中。

超过Kimi-K2、等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

图片

此次推出的Qwen3-235B-A22B-Instruct-2507是之前Qwen3-235B-A22B 非思考模式的升级版

目前,该模型已可在Qwen Chat上体验,模型权重已在魔搭HuggingFace上线。另外,Qwen团队负责人还暗示即将发布Qwen3-Coder系列模型。

图片

此次全新升级的Qwen3模型实际的效果到底如何呢?老规矩,我们来测一测。

同属阿里巴巴,小编就让它仿照淘宝生成一个小宝的网站。

提示词:帮我仿照淘宝生成一个名字为小宝的网站

效果似乎不咋滴,原因也很简单,Qwen3并不是一个Agent,所以让它直接生成一个网站,多少有点难为它了。

为了给大家更加直观的体验,我们将同样的提示词喂给kimik2。

效果都差不多。

换一个方向,测试一下它的提示词遵循能力。

提示词:你是一位资深前端开发专家,擅长创建简洁优雅的信息可视化界面。

请为广州设计一张未来5天的天气预报卡片,以HTML和CSS代码形式输出,请联网搜索当下真实日期的数据。遵循以下设计原则:

1. 采用极简主义设计风格(Minimalist),遵循"少即是多"的理念

2. 使用不超过3种协调的颜色:主色调选择[#3366FF/蓝色/绿色],搭配白色背景和深灰色文字

3. 字体选用无衬线字体如Helvetica或SF Pro Display,确保在各种设备上清晰易读

4. 设计响应式布局,优先考虑移动设备上的显示效果

卡片必须包含以下信息,并使用适当的视觉层次突出重要数据:

- 城市名称和当前日期(最显眼位置)

- 每日详细天气数据:日期、星期、最高/最低温度、天气状况

- 使用简洁的图标表示天气状况(晴、多云、雨等)

- 风向和风力信息(使用箭头或其他直观符号)

- 2-3条基于天气的生活建议(如适合户外活动、需要带伞等)

参考iOS天气应用和AccuWeather的设计语言,确保信息层次清晰,重要数据一目了然。添加细微的交互效果,如悬停时显示更多详情。

最终输出应是可直接使用的HTML和CSS代码,确保代码简洁高效,无需额外依赖。

图片

天气卡片的效果还是非常不错的,简约的设计,设计风格符合提示词所描述的,气候、气温、日期这些信息一目了然。

不过稍微有一个小瑕疵,日期不对。

再来一个稍微难的,前段时间kimi k2的同款提示词。  

提示词:创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示。

这次就直接翻车了,生成的效果不咋理想,山体、水流都没有呈现出来。

最后我们再来看看它的数学能力,测试时关闭了搜索和深度推理能力。

提示词:你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

图片

回答正确!

此次全新升级的Qwen3-235B-A22B-Instruct-2507主要提升了以下能力:

图片

整体能力大幅提升:更准确地执行指令,增强了逻辑推理、理解文本、数学运算、科学知识、编程和工具使用能力。

多语言长尾知识覆盖:在多种语言中,对冷门或专业领域的信息掌握更全面。

更符合用户喜好:在主观或开放性任务中,能给出更贴心、更高质量的回答和文字生成。

256K 长上下文理解增强:能处理更长的对话或文档,记忆和理解能力更强。

写到最后,不免让人感叹,短短一周,开源圈从 Kimi K2 夺魁,再到 Qwen 3 连夜空降,问鼎第一。

至此,阿里已把 Qwen 家族的模型总数推进到 200+,仅 Qwen 3 就 一次放出 8 款(2 个 MoE + 6 个 Dense,0.6 B-235 B 全覆盖)。

虽然大家都在卷,但是不可否认的是,国内的开源模型已经在全球遥遥领先!


 .END.

往期文章回顾
最新文章
瑞丽市虹利珠宝店(个体工商户)成立 注册资本5万人民币
天眼查App显示,近日,瑞丽市虹利珠宝店(个体工商户)成立,法定代表人为彭小伟,注册资本5万人民币,经营范围为一般项目:珠宝
霸王茶姬美股上市,隐身背后的云南茶叶大佬押注张俊杰,赢麻了!
撰文:海川;编辑:木心4月17日,霸王茶姬在纳斯达克上市,发行价28美元,此次IPO募资规模约4.11亿美元。上市首日,霸王茶姬开盘
4月微信小游戏畅销百榜:一款新品闯入TOP3;传奇大厂调整了布局策略
月度小游戏畅销榜引用“引力引擎月榜”,该榜单以产品当月出现在畅销榜TOP100的排名/上榜天数作为依据排序,虽不能说绝对合理,
中国太保,比赚钱更重要的是合规
整改承诺在反复违规中沦为空谈。翻开太保系2025年的违规账本,更多信息浮出水面,太平洋产险、太平洋寿险的各地分公司领取多张罚
北京迎来“缩水版”三伏天!这份清爽过伏攻略请收好——
最近北京的天气可谓是“热情满满”,高温晴晒成了主角。走在户外,阳光强烈,体感十分炎热,不少市民都纷纷穿上防晒衣、打起遮阳
“小霸王”陨落之后,教培做起了硬件生意
特约作者 李安琪编辑 郑可君1993年5月,段永平创立的“小霸王“推出第一代学习机。在电脑还稀缺的年代,小霸王学习机成为了普通
春晚这些“深圳元素”,你发现了吗?
2025年央视春晚大家都看了吗?今年深圳有多个元素亮相蛇年央视春晚!小伙伴们发现了吗?深圳原创歌曲《如意舞步》惊艳开场1月28
汽车行业网络乱象即将终结,六部门联合开展专项整治行动
援引新华社消息:工信部、网信办、发改委、公安部、市场监督管理总局和社会工作部联合印发《关于开展汽车行业网络乱象专项整治行
“五一”假期要来啦!你关心的出游峰值、旅行攻略这里有
大皖新闻讯 “五一”假期将至,作为今年上半年最后一个假期,有旅行平台数据显示,出游成为此次假日“刚需”。随着假期临近,安
现货Valox美国GE PBT DR51
Valox美国GE PBT DR51 基础创新塑料(美国GE)Valox PBT 代理商 PBT|PBT|PBT(佳捷销售热线:159 2025 9896邓先生)专业销售PBT