腾讯大模型的绝活,居然是发布会上没吹的写代码?
2023-09-09 10:06:34来源:ZAKER科技
就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。
为什么要说终于?
(资料图片仅供参考)
在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。
其实,腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS ( Model-as-a-service ,模型即服务 )解决方案。
方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。
后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。
所以这也让差评君对混元的期待值,越来越高。
毕竟上一个用 "hun yuan " 名号的,可是打了一整套闪电五连鞭。
话不多说,下面就开始新一轮大模型测试。本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT。
整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。
这次我们一反常态,把长文总结能力的测评放在了第一位。
因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )。
至于能不能当成省流版,往下看你就懂了。
混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。但当我让他展开讲讲的时候其实还行,但可惜无中生有了 " 长文总结 " 这个模块。
而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。
在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。
向上滑动
看来,这俩大模型总结得都没那么完美,想看看两家到底什么水平,大家还得仔细往下看正文。首先我们做的测试是常规的语义理解问题。
问题是理解 " 原来谁都看不上,现在谁都看不上 " 。
这句话混元理解得挺好,基本解释了我对单身这事的调侃,两个 " 看不上 " 都解释上了。
但 ChatGPT 说的依旧很 ChatGPT ,说最多的话,犯最蠢的错。
他本来解释得相当到位,特别是分析这句话是用幽默的方式来调侃单身,还带着一丝无奈情绪,很高级。但它完全没品出这前后两个 " 看不上 " 里,带有反转的幽默感,遗憾。
向上滑动
接下来我们看混元的复杂问题理解能力。问题是魂穿到官渡之战中袁绍身上,时间节点是骂完许攸之后。
既要回答怎么破局赢下官渡之战,还要提供进一步统一全国的规划。
要给大家稍微讲下这题为啥是复杂提问。
因为要回答这题,首先得熟悉三国这些人物历史背景、相关故事,特别是骂完许攸这个时间节点很微妙。
因为在这之后许攸投靠曹操,献计火烧袁绍囤积在乌巢的粮草。最终以少胜多击败袁绍,随后几年内彻底吞下冀北逐渐统一北方。
而进一步设想里的统一全国,更是曹操本人都没能实现。
所以大模型们要完美理解并回答这个问题,那网文作者们基本可以宣告失业了。
AI 浪潮下的网文作者现状
经过测试,两个大模型的回答都很一般。从一开始,二者都没能理解自己穿越扮演袁绍角色的指令。
混元急哄哄地给袁绍出主意, ChatGPT 则是以为我要穿越,教我做事。
至于两个给的回答,既没有 get 到我提出这个微妙时间节点的用意,也没有什么行之有效的战略规划,都是些泛泛而谈的车轱辘话。相对而言,个人感觉混元的稍胜一筹。
毕竟 ChatGPT 可是希望袁绍去和曹操建立互利共赢的关系,哈哈哈。
向上滑动 ▼
既然一个复杂指令两个考试都理解不好,那干脆简单点,让两者去角色扮演一个婚礼主持人,一点点诱导进行连续对话。结果立马就能发现混元和 ChatGPT,就像理科生和文科生的区别。
混元的回答简单不啰嗦,但有的时候过于生硬。
你说有错吧,谈不上,你要说给高分肯定不可能。而 ChatGPT 就是不管对不对,先把字写满再说。
看里面的描述啥的都很好,但其实从中间就已经理解错意思,搞混了我的意图。
所以两者都不完美,都有待改进。
向上滑动 ▼
然后我们还重点考验了下大模型的文字学习能力。搬出了当年的火星文,给两个考生上上强度。
先是丢了一篇火星文版的朱自清《 背影 》名场面给大模型学习。
然后让他们分别用这种风格写一篇养金毛心得。
结果就是,混元不愧是本土大模型,背靠火星文鼻祖发源地 QQ 空间就是有优势,火星文的熟练度相当不错。
第一眼就悟到了火星文的精髓,非常顺利地学习了火星文的创作手法。
而 ChatGPT 虽然意识到火星文是一种不标准的中文形式,但他实在学不会这种方式,最后甚至直接承认自己不行了。
接下来就到了代码能力的考核。这次出的题目是,写一个现代极客风格的 925 活动抽奖页面,页面中必须有醒目的 925 标志。
说起来,因为混元发布时对代码能力基本没咋提,所以本来我们对混元的代码能力没啥期待。
但论这个题目,混元的效果相当不错,黑白配色的极客风有了,页面逻辑也没啥问题。甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域,相当成熟。
对比之下, ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。
混元页面效果
ChatGPT 页面效果除了代码问题,数学就是另一个大模型的老大难了。这次我们也挑了不少数学问题给两个考生做,从小学 1 年级一直做到了初一。
最终混元大模型在六年级时挑战失败,到了初一开始胡言乱语,也让我们彻底放弃测试了。
而 ChatGPT 明显还有余力。
5 年级测试题 向上滑动
6 年级测试题 向上滑动 初一测试题 向上滑动 当然,最后也少不了网友们喜闻乐见的 " 弱智吧 " 精选套餐。这次我们更新了题库,用上了今年上半年最新的弱智吧精选问题,我们发现可能 AI 最后的图灵测试可能还真是弱智吧。
因为在大部分测试里,混元和 GPT 基本都不够弱智而无法正确理解问题,这点上,人类遥遥领先!
向上滑动
除了以上这些常规测试外,混元发布会后的媒体采访上,很多媒体也在询问腾讯这么晚掏出大模型,那和市面上的竞品们有什么优势。腾讯方面则是说,混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉( 胡言乱语 )等通病上,有了针对性的改善。所以我们在实际测试时,也专门留心感受了这两块内容。
不得不说,混元的大模型幻觉减少较为明显,这大概也和他惜字如金有关系,毕竟说多错多还是很有道理的。
但容易受诱导这方面的改善其实并不明显,一些该跳的坑还是很难避免,只能说千防万防,人心难防。
而且作为一个刚上市的大模型,一些小问题比起同期早已发布的前辈们还是有待改进。比如" 重新生成 " 答案经常性会失灵,甚至有的时候重启重新输入问题都没法解决。
而当你发现混元说错了某个回答希望他改正,他总是倔强地虚心认错,死不悔改。
还有就是,他对一些比较简单的提问,反而有时候会抽风,有点像抓关键词一样作答,很让人抓狂,只能不停修改提示词才会好点。
再吹毛求疵一点的话,这个生成问题时的头像动效,有种二胡卵子的异样美感,咱也不知道这是高级呢还是可爱呢?
这些小问题其实还挺频繁,真要列起来又有点太稀碎,大家还是自己体验后会有更深刻的理解。不过这些小毛病,后续的更新迭代倒也简单,等用户数多了,相信很快就能优化。
总的来说,混元和 ChatGPT 在中文环境下的 PK 中,二者其实水平差不多,放到国产大模型梯队里,也能有个平均水平。
只是在用了这么多大模型后,我们感觉混元特别之处是给人的感觉,它更像个理工科直男,主打一个废话少说。而 GPT 为首的其它大模型们则是典型的文科小编,主打能水就水,油多不坏菜。
而这种感觉也更贴合腾讯对混元大模型 " 实用级 " 的定义。
毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。
那对于差评君来说,混元大模型更让人期待的,反而是和腾讯旗下应用的深度融合。现在大家手里没个七八九十个腾讯系应用,都不敢说自己在互联网上冲浪的。
虽然眼下,我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。
但在这些办公软件之外,腾讯系里游戏、社交、影音等等,才是更和大家休闲快乐相关的业务。在这些领域,大模型的未来会是什么形式、什么程度的结合,才更是大家所最期待的。
更关键的是,在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上,腾讯却已经有了成功经验。
此前腾讯多模态 AI 大模型率先被应用在广告投放,当时累计给广告主带来 15% 的 GMV 提升。
所以,被网上吐槽的最晚发布大模型的大厂,这么看起来好像也不是什么飞龙骑脸的天崩局面。
好饭不怕晚嘛。
/div>宙世代宙世代
ZAKER旗下Web3.0元宇宙平台
智慧云智慧云
ZAKER旗下新媒体协同创作平台
相关标签腾讯数学ai相关阅读
网友喊话余承东 华为客服回应Mate60系列话筒有杂音
数码测评2小时前华为Mate60 Pro+/Mate X5今天上午开启预售 手要快!
数码测评2小时前别瞎抄小红书了
虎嗅APP2小时前中国首款自研车规级7纳米芯片 “龙鹰一号”性能如何?稍差于骁龙8155
快科技9小时前并购风云又起:劳力士收购全球最大钟表零售商
21世纪经济报道9小时前外滩大会热议大模型:规模化应用后 生成式AI向何处去?
21世纪经济报道9小时前行业首个!Flyme Auto获得泰尔“卓越级”认证 魅族:遥遥领先
快科技10小时前高端市场秀肌肉!海尔智家财报披露国内外协同布局
21世纪经济报道11小时前CPU-Z 2.07发布:酷睿Ultra、14代酷睿i、一代酷睿都有了
快科技11小时前掘金车载等增量市场,新型显示产业迎新机遇
钛媒体12小时前浦发银行终于官宣一二把手卸任,张为忠、赵万兵获提名董事人选,行内人士:意外又不意外
财联社13小时前《蛋仔派对》都是谁在玩?答案也许比你想象的更广阔
触乐网13小时前既要又要,这部“六边形战士”还真被炼成了
新周刊7小时前外滩大会热议大模型:规模化应用后,生成式AI向何处去?
21世纪经济报道13小时前最新评论
没有更多评论了责任编辑:hnmd003
相关阅读
相关阅读
-
腾讯大模型的绝活,居然是发布会上没吹的写代码?
就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。为什么
-
华为加持的阿维塔新车,敢要价 40 万?
前几天在慕尼黑车展上,咱们新势力里的阿维塔,跑过去首发了第二款车型
-
曝荣耀自研系统 9 月 15 日发布:底层纯自研 更流畅丝滑
【手机中国新闻】9月9日,有数码博主爆料称,荣耀MagicOS8 0将在9月15
-
华为 Mate X5 抢先上手体验:折叠屏机皇强势回归
意料之中,预料之外,华为再次突然官宣了旗舰折叠屏新机华为MateX5并抢
-
入意外险多长时间生效?有用吗?
等待期可以从几天到几个月不等。 这个问题的答案并不是一成不变的,而
-
少儿重疾险买哪家公司性价比最高?要多少钱?
选择合适的就好。 在选择少儿重疾险时,消费者应该综合考虑保险公司的
-
农村30意外险赔偿标准是什么?多久到账?
农村30意外险的赔偿标准主要包括两个方面,一是伤残赔偿,二是死亡赔偿
-
50万的意外险赔付标准是什么?怎么赔付?
具体的意外险赔付标准取决于保险合同的条款和细则,因此可能会有所不同
-
人身意外险必须买吗?怎么买?
人身意外险的购买与否取决于个人的风险承受能力和经济状况。 对于那些
-
深圳放松“限外令”,港澳居民可直接买商办物业,中介:有人连夜冒雨买楼
深圳执行了16年的“限外令”或迎来调整。图片来源:图虫创意据中国房地
-
让各族青少年广泛交往全面交流
我市深入实施“各族青少年交流计划”,以铸牢中华民族共同体意识为主线
-
服务夜经济 方便市民出行 夜间公交专线4号线试运行
为促进公交服务与“夜经济”发展的融合,服务市民夜间出行,近日市公交
-
心系国防·守护北疆·致敬榜样|张建平:退役不褪色 热血铸军魂
军民共建小舞台、国防装备展示、大国重器展板、十大英模介绍……走进位
-
交通运输系统推进疑难工单清零攻坚
连日来,市交通运输局集中开展了上半年疑难工单清零攻坚行动,通过三项
-
相声进高校 欢乐送师生
9月7日,由市文旅广电局主办,包头图乐相声社承办的“乐在包克图,欢笑
-
习近平黑龙江行丨筑牢北疆生态安全屏障——走进漠河林场
2023年9月6日,习近平总书记来到黑龙江省漠河市漠河林场考察。
-
“认房不认贷”效果如何?住建部:市场反响积极
据不完全统计,在过去的10天时间里,至少有24个城市全面执行了认房不认
-
联合国粮农组织物价指数跌至两年半新低 但食品供应的警报并未熄灭
财联社9月8日讯(编辑史正丞)联合国粮农组织(FAO)在周五更新了今年8
-
住建部:真正实施限购的城市还是少数 其中多数对限购进行了优化调整
据央视新闻,住房和城乡建设部政策研究中心副主任浦湛表示,随着我国房
-
存储芯片下行周期有望见底 A 股上市公司加速布局
据证券日报,近期,存储芯片大厂三星、SK海力士、美光公司等陆续控制产
-
知名大 V 怒斥“莆田系”抄袭:你们还能再无耻一点吗?
自己的科普文章被搬运至其他平台为各类医院导流,要不是患者前来就诊提
-
西藏第七届网络安全技能大赛开幕
8日,西藏自治区第七届网络安全技能大赛在拉萨开幕,大赛吸引了75支队
-
提升服务能力水平 松江九里亭强化社区工作者队伍建设
为进一步提升街道社区工作者的职业素养和工作水平,打造政治立场坚定、
-
人类干细胞国家工程研究中心主任卢光琇:罕见病防控需要进一步加强产前诊断和胚胎植入前诊断的宣传教育
今日(9月8日),第十二届中国罕见病高峰论坛在长沙开幕,人类干细胞国
-
高空作业买意外保险怎么买?多少钱?
选择合适的就好。 在选择高空作业意外保险时,首先要考虑的是保险的保
-
驾乘险和意外险哪个更适合?区别在哪?
要根据实际情况来看。 驾驶或乘坐车辆的频率:如果你经常驾驶或乘坐车
-
意外险立即生效的是哪种?可以报销吗?
首先是交通工具意外险:比如在乘坐大巴车前购买的意外险是属于即时生效
-
众安保险的航空意外险怎么样?值得买吗?
还不错。 首先,众安保险的航空意外险在保障范围上非常全面。该险种主
-
意外险保险报销ct费用吗?有哪些流程?
要依据投保的险种类型而定。 对于意外险是否可以报销CT费用,需要根据
-
首款溜背MPV 小鹏X9最新官方谍照曝光
首款溜背MPV小鹏X9最新官方谍照曝光今日,小鹏官方发布了小鹏X9的高清
精彩推荐
阅读排行
精彩推送
- 乘联会:8月新能源乘用车批发销...
- 路特斯首款纯电超跑GT Emeya即...
- 全新标致e-3008官图泄露,将推插...
- 探访理想智能超级工厂,MEGA年底...
- 摩洛哥发生6.9级地震,震源深度10公里
- 三次误判后,扎克伯格这次终于做...
- 高大上的“买手制电商”,能否让...
- “认房不认贷”等待“限购放开”...
- 交意外险多长时间生效?交意外险...
- 大货车意外险理赔技巧有哪些?理...
- 个人买高空作业意外险可以吗?多...
- 广州男性生育险老婆生育可以报销...
- 农村意外保险在哪里查?查询需要...
- 国网信通:连续6日融资净偿还累...
- 一边取经,一边加速,BBA 们亮...
- 获评全球 AI 领袖,“未来主义...
- 荣耀 V Purse 或即将在国内发...
- 蔚来只求卖车
- 苹果新专利曝光,再好的玻璃也挡...
- 关于闫万鹏等5名同志拟任职的公示
- 锂电A股“回购潮”,多氟多提议...
- “贷款上班”成现实!181 人贷...
- 招商蛇口董事长许永军退休,总经...
- 在岸人民币兑美元较上一交易日夜...
- 0-2说再见,海峡组合无缘美网决...
- 小米汽车试生产,价格屠夫要来了!
- 《时代》AI 百人榜罕见中国大佬...
- 全智能手表旗舰 OPPO Watch 4...
- 华为 Mate60 Pro/Mate60 Pro+...
- 日本核污水排海,Akoya 还能买吗?