分享好友 资讯热点首页 资讯热点分类 切换频道
重磅!阿里Qwen3超越Kimi-K2、DeepSeek-V3登顶,附一手实测
2025-07-28 12:57  浏览:88

作者|子川

来源AI先锋官


卷,实在是太卷了!

上周kimi推出K2,登顶开源模型宝座!屁股还未坐热,就被Qwen3超越!

就在今天深夜,阿里千问悄然发布了全新升级版Qwen3模型(Qwen3-235B-A22B)。

再次刷新了开源大模型的性能上限。

从官方放出的跑分成绩来看,新版Qwen3在指令遵循、逻辑推理、文本理解、数学、科学、编程以及工具使用等多个维度上实现了质的飞跃。

在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等一系列国内外权威测评中。

超过Kimi-K2、等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

图片

此次推出的Qwen3-235B-A22B-Instruct-2507是之前Qwen3-235B-A22B 非思考模式的升级版

目前,该模型已可在Qwen Chat上体验,模型权重已在魔搭HuggingFace上线。另外,Qwen团队负责人还暗示即将发布Qwen3-Coder系列模型。

图片

此次全新升级的Qwen3模型实际的效果到底如何呢?老规矩,我们来测一测。

同属阿里巴巴,小编就让它仿照淘宝生成一个小宝的网站。

提示词:帮我仿照淘宝生成一个名字为小宝的网站

效果似乎不咋滴,原因也很简单,Qwen3并不是一个Agent,所以让它直接生成一个网站,多少有点难为它了。

为了给大家更加直观的体验,我们将同样的提示词喂给kimik2。

效果都差不多。

换一个方向,测试一下它的提示词遵循能力。

提示词:你是一位资深前端开发专家,擅长创建简洁优雅的信息可视化界面。

请为广州设计一张未来5天的天气预报卡片,以HTML和CSS代码形式输出,请联网搜索当下真实日期的数据。遵循以下设计原则:

1. 采用极简主义设计风格(Minimalist),遵循"少即是多"的理念

2. 使用不超过3种协调的颜色:主色调选择[#3366FF/蓝色/绿色],搭配白色背景和深灰色文字

3. 字体选用无衬线字体如Helvetica或SF Pro Display,确保在各种设备上清晰易读

4. 设计响应式布局,优先考虑移动设备上的显示效果

卡片必须包含以下信息,并使用适当的视觉层次突出重要数据:

- 城市名称和当前日期(最显眼位置)

- 每日详细天气数据:日期、星期、最高/最低温度、天气状况

- 使用简洁的图标表示天气状况(晴、多云、雨等)

- 风向和风力信息(使用箭头或其他直观符号)

- 2-3条基于天气的生活建议(如适合户外活动、需要带伞等)

参考iOS天气应用和AccuWeather的设计语言,确保信息层次清晰,重要数据一目了然。添加细微的交互效果,如悬停时显示更多详情。

最终输出应是可直接使用的HTML和CSS代码,确保代码简洁高效,无需额外依赖。

图片

天气卡片的效果还是非常不错的,简约的设计,设计风格符合提示词所描述的,气候、气温、日期这些信息一目了然。

不过稍微有一个小瑕疵,日期不对。

再来一个稍微难的,前段时间kimi k2的同款提示词。  

提示词:创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示。

这次就直接翻车了,生成的效果不咋理想,山体、水流都没有呈现出来。

最后我们再来看看它的数学能力,测试时关闭了搜索和深度推理能力。

提示词:你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

图片

回答正确!

此次全新升级的Qwen3-235B-A22B-Instruct-2507主要提升了以下能力:

图片

整体能力大幅提升:更准确地执行指令,增强了逻辑推理、理解文本、数学运算、科学知识、编程和工具使用能力。

多语言长尾知识覆盖:在多种语言中,对冷门或专业领域的信息掌握更全面。

更符合用户喜好:在主观或开放性任务中,能给出更贴心、更高质量的回答和文字生成。

256K 长上下文理解增强:能处理更长的对话或文档,记忆和理解能力更强。

写到最后,不免让人感叹,短短一周,开源圈从 Kimi K2 夺魁,再到 Qwen 3 连夜空降,问鼎第一。

至此,阿里已把 Qwen 家族的模型总数推进到 200+,仅 Qwen 3 就 一次放出 8 款(2 个 MoE + 6 个 Dense,0.6 B-235 B 全覆盖)。

虽然大家都在卷,但是不可否认的是,国内的开源模型已经在全球遥遥领先!


 .END.

往期文章回顾
最新文章
200余万保险代理人集体摘掉MDRT等头衔;或急欲寻找新名片?!
文|顾柠佣金和保费数字堆砌的荣誉墙正在崩塌,取而代之的是一套尚未完全成型的新价值标尺。“从业10年,连续8年达成MDRT(百万
梧桐树重磅发布福满满养老年金险,打造保险+服务一体化养老方案
6月19日,梧桐树保险经纪携手大家养老保险召开了“福满万家,因爱同行”为主题的新品发售会。此次发售会进行线上线下双线联动,
那些走红的“民间美女”(十一)
水晶糕女孩,浙江衢州人,暑假的时候回家帮助父母卖冷饮。有网友前去买水晶糕发现后将其拍下发到微博上,其清纯靓丽外表以及帮助
为群众把好“健康脉”!2024年常态化国民体质监测工作技术培训班正式开班
随着健康生活理念的不断普及,越来越多人投入到日常健身活动中,“体质有评估、锻炼有指导”也渐渐成为群众健康生活新常态,如何
科技!“见微”知“阡陌” !中国电信首次详细解读“安全型企业”成果!
AI安全从“可选项”变为“必答题”作者/ IT时报记者  郝俊慧编辑/  孙妍提出“新三型”概念近五年后,中国电信服务型、科
胶州:上合示范区这个项目进展
据悉,上海电气风电装备产业园由中国500强企业上海电气集团投资100亿元建设,总建筑面积达36.6万平方米。项目拟建4.0兆瓦、6.0兆
柳林司法所:从“心”出发 “未”你护航
柳林司法所开展未成年社区矫正对象一对一心理辅导为加强对未成年社区矫正对象的监督管理和教育帮扶,全面了解其依法接受社区矫正
广东发展数字创意产业的“加减乘除”新算法
大力发展数字创意产业,广东正酝酿一揽子措施。3月28日,岭南数字创意大厦新基建高质量发展大会在羊城创意产业园举行。大会指出
河南率先明确车贷利率上限,高息高返业务加速退场
在监管部门对汽车金融高息高返乱象采取严厉监管措施之后,河南省率先出台政策明确车贷利率的上限标准。 日前,河南省内多家银行
本地二级页政务频道
9月1日上午9点30分,由湖南省政协文史学习委员会、省政协新闻宣传中心主办,文史博览杂志社承办的“寻找身边的古建筑,青年学子
推荐文章
相关文章