AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍
2023-08-01 21:16:33来源:ZAKER科技
其中英语输入和输出要比其他语言便宜得多,简体中文的成本大约是英语的 2 倍,西班牙语的成本是英语的 1.5 倍,而缅甸掸语则是英语的 15 倍。
(资料图片仅供参考)
究其原理,可以追溯到今年 5 月份牛津大学在 arXiv 上刊印的一篇的论文。
词元是将自然语言文本转换成词元(token)序列的过程,是语言模型处理文本的第一步。在 LLM 计算力成本的核算中,词元越多,耗费计算力的成本越高。毫无疑问,在生成式 AI 商业化的趋势下,计算力的耗费成本也会嫁接给用户,当下许多 AI 服务也正是按照需要处理的词元数量来计费。
论文显示,研究者通过分析 17 种词元化方法后,发现同一文本被转换成不同语言词元序列时长度差异巨大,即使是宣称支持多语言的词元化方法,也无法做到词元序列长度完全公平。
例如,根据 OpenAI 的 GPT3 tokenizer,倘若给「你的爱意」词元化,英语只需两个词元,而在简体中文中则需要八个词元。即使简体中文文本只有 4 个字符,而英文文本有 14 个字符。
从 X 用户 @Dylan Patel 曝光的图片也可以直观看到,让 LLM 处理一句英语需要 17 个词元(tokens),而让 LLM 处理同样意思的一句缅语,则需要 198 个词元(tokens)。这意味着缅语的处理成本将达到英语的 11 倍。
类似的情况也有很多,Aleksandar Petrov 的网站中提供了许多相关的图标和数据,感兴趣的朋友不妨点击「https://aleksandarpetrov.github.io/tokenization-fairness/」进去查看语言之间的差异。
在 OpenAI 的官网上也有着类似的页面,解释了 API 是如何对一段文本进行词元化,以及显示该文本的词元总数。官网也提到,一个词元通常对应英语文本的约 4 个字符,100 个词元约等于 75 个单词。
得益于英语词元序列长度短的优势,在生成式人工智能预训练的成本效益方面,英语可谓是最大赢家,将其他语言使用者远远地甩在身后,间接产生了一种不公平的局面。除此之外,这种词元序列长度的差异也会导致处理延迟不公平(某些语言处理同样内容需要更多时间)和长序列依赖性建模不公平(部分语言只能处理更短的文本)。
简单点理解,就是某些语言的用户需要支付更高的成本,承受更大的延迟,获得更差的性能,从而降低了他们公平地访问语言技术的机会,也就间接导致了英语使用者和世界其他语言使用之间形成了 AI 鸿沟。
仅从输出的成本来看,简体中文的成本是英语的两倍。伴随着 AI 领域的深层次发展,总是「差一步」的简体中文显然并不友好。在成本等各方面叠加因素的权衡下,非英语母语的国家也纷纷尝试开发自己的母语语言大模型。
以中国为例,作为国内最早一批探索 AI 的巨头,2023 年 3 月 20 日,百度正式上线生成式 AI 文心一言。随后阿里巴巴的通义千问大模型、华为的盘古大模型等一批批优秀大模型也陆续涌现出来。
在这当中,华为盘古大模型中的 NLP 大模型更是行业内首个千亿参数中文大模型,拥有 1100 亿密集参数,经过 40TB 的海量数据训练而成。
正如联合国常务副秘书长阿米娜 · 穆罕默德曾经在联合国大会上警告说,如果国际社会不采取果断行动,数字鸿沟将成为「不平等的新面孔」。
同理,伴随着生成式 AI 的狂飙突进,AI 鸿沟也很有可能成为新一轮值得关注的「不平等的新面孔」。
所幸的是,平时「惨遭嫌弃」的国内的科技巨头已然采取了行动。
责任编辑:hnmd003
相关阅读
相关阅读
-
AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍
近日,X(原Twitter)用户@DylanPatel展示了一份来自牛津大学的研究:
-
不再「遥遥领先」的问界,要造百万级 MPV
6月共售出432台,这是问界M7给出的月度答卷。这个数据,实在是谈不上「
-
奥迪“神车”跌入专车档
撰文|赵晋杰编辑|王靖来源|盒饭财经(ID:daxiongfan)奥迪CEO杜思曼到
-
每次升级都精准切中用户需求,2024款GS8真的太会了
当今车市,就像鱿鱼干上铁板——卷得不能再卷。合资价格一再下探,
-
《浮石之旅》攻略解析大全!详细攻略!
集会所>农场,有木材,优先升级集会所,魔导技>铁匠铺>仓库,浮石柱
-
马云相中的福州大佬,体检狂揽100亿
来源:21世纪商业评论“持股550天,还亏着20%。”投资者李林晒出持股的
-
暴雨冲毁北京顶奢酒店大堂,房价最贵超万元,官方回应“在店宾客已转移”
罕见强降雨席卷北京,号称京城最贵酒店的悉昙酒店也被殃及。图片来源:
-
2023年IPO被否:文依电气营收激增,发明专利仅一项,疑似踩线申报
来源|时代商学院作者|彭晨雨编辑|郑少娜今年2月17日,证监会发布全面实
-
直击北京暴雨|门头沟水峪嘴村有村民被困,救援正在进行中
从昨天开始,北京人防浩天救援队深入水峪嘴村展开营救,今天早上6时许
-
直击北京暴雨|门头沟一老人被淤泥掩埋,消防员两小时成功救出
消防救援人员前往途中电话联系报警人了解到,现场是一处半地下室结构,
-
村民被困房顶一夜 救援队转移房山区石楼镇17位受灾群众
龙口市蛟龙公益应急救援队一行共23人,接到救援任务后带着4艘救援艇,
-
星火成炬 | 军营正当时
卫国戍边,用使命守护国泰民安。枕戈待旦,时刻保持战斗姿态,这就是中
-
消息称 Meta 最早下月推出 AI 聊天机器人,着力增强用户留存率
品玩8月1日讯,据新浪科技消息,Meta计划最早于9月推出一系列能呈现不
-
百城新房均价连跌三月 政策频出利好背景下楼市企稳有望
财联社8月1日讯(记者王海春)7月的房地产市场成交表现低于市场预期。
-
河南 3 名金融机构高管任职资格获批
8月1日消息,日前,河南3名金融机构高管任职资格获核准。其中,国家金
-
京津冀等地遭遇极端强降雨 河北省11座大型水库超汛限
强降雨对河北造成的影响依然在持续,目前河北的防汛形势如何?河北省11
-
大S终于可以安安稳稳地过日子了,两个孩子终于回到了她的身边
大S终于可以安安稳稳地过日子了,两个孩子终于回到了她的身边,大s,张兰
-
增额终身寿险怎么算收益?一般是多少?
增额终身寿险的收益主要包括两部分:保险金和现金价值。 具体来说,增
-
五险几岁交最合适?缴纳要注意什么?
我们需要明确的是,五险的缴纳年龄并没有一个固定的标准。根据国家规定
-
商业医疗保险怎么赔付?有次数限制吗?
商业医疗保险的赔付方式通常分为两种:直付和报销。 首先是直付:在选
-
什么是终身寿险?值得购买吗?
终身寿险是一种保险产品,它提供了一种终身保障,无论被保险人何时去世
-
个人如何购买补充商业医疗保险?好处有哪些?
首先,个人可以通过保险公司购买补充商业医疗保险。保险公司通常会提供
-
蔚小理又能一起玩了?蔚来7月交付量首破2万辆,埃安、理想受困产能
8月1日,国内多家造车新势力品牌公布7月汽车交付量或销量。其中,埃安
-
手机租赁被质疑是高利贷?5个平台手机租赁费用对比,换算利率竟超50%
在共享经济蓬勃发展的背景下,手机租赁平台如雨后春笋般冒起。更有平台
-
《热搜》闭幕FIRST青年电影展首次公开放映,先导预告曝光周冬雨变身自媒体主编
影片曝光一支先导预告,短短十几秒的镜头信息含量颇多。周冬雨饰演的自
-
河北涿州全域停水 需要船只转移群众 基本情况讲解
大家好,今日关于【河北涿州全域停水需要船只转移群众】迅速上了的热搜
-
两部门紧急预拨1.1亿元支持京津冀地区防汛救灾
7月31日,财政部拨付8 42亿元农业防灾减灾和水利救灾资金,支持河北等1
-
投资多家渔业公司,马云要去海上“淘宝”?
图片来源:视觉中国天眼查显示,近日马云实控公司接连参投了一米八海洋
-
All in AI 之后,美图为什么没能做出妙鸭
图片来源@视觉中国文|AI蓝媒汇,作者|闫烨妙鸭AI相机的出圈仿佛是在一
-
下一代 Switch 或在明年推出,开发套件已交付
2017年3月3日,任天堂Switch正式发售。不到一天时间,各个首发国家或地
精彩推荐
阅读排行
精彩推送
- 签署《互不挖人公约》不到两个月...
- 起亚二季度营业利润超特斯拉,中...
- 塞内加尔主要反对党被勒令解散,...
- 重车压梁保安全!93辆大型车辆驶...
- 平安寿险在哪里可以查询?查询不...
- 商业医疗保险怎么选择?怎么用?
- 保险公司可以单独买百万医疗险吗...
- 五险交多久生孩子可以报销?多久...
- 学生险出院后报销时效多长时间?...
- 完美世界游戏CEO鲁晓寅:数智技...
- 东北诞生“医美面膜第一股”,敷...
- 世纪华通被立案:百亿收购后,开...
- 7月重磅合资合作一览:吉利再与...
- 蔚来7月交付超2万台,全新ES6成主力
- 小鹏销量破万,7月交付11008台新车
- 岚图汽车7月销量3412辆,同比上涨90%
- 足坛巨星梅西成为赤水河酒代言人...
- 海底捞在演唱会门口“捞人”,为...
- 比亚迪公布极端天气客户关怀:含...
- “蔚小理”披露 7 月交付数据
- 智能门锁 vs 智能门铃:哪种是...
- 隋唐西市何时对外开放?洛阳市轨...
- 中国平安: 中国平安H股公告
- 龙芯中科研制成功新一代处理器
- 湖南工业大学举办“科普育人、材...
- 太平洋寿险退保能退多少?怎么退?
- 五险一金买多少年?一年要多少钱?
- 万能型终身寿险能避税避债吗?有...
- 大学生没有毕业证可以交五险一金...
- 城乡居民医疗保险交多少年不用交...