什么是人工智能“语料库”?为什么每个人都在谈论它?
2023-07-07 15:24:01来源:ZAKER科技
编者按:比尔 · 盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论 " 语料库 ",现在是时候了解它是 " 何方神圣 " 了。本文带你深度揭秘语料库以及它如何影响人工智能平台的运行。文章来自翻译,希望能对你有所启示。
得益于 ChatGPT 和类似人工智能平台的问世与飞速发展,人工智能的崛起一直是 2023 年最引人注目的话题之一。每天都会有关于人工智能技术如何影响创新、工作或人类生活的新文章出现。
(资料图片仅供参考)
如果你一直在关注人工智能领域,你可能会注意到最近科技高管们经常谈论的一个词:" 语料库 " ( corpus ) 。Reddit(美国社交新闻站点)CEO、维基百科的创始人吉米 · 威尔士(Jimmy Wales)以及微软创始人比尔 · 盖茨都提到过。
以下是语料库的含义,以及为什么它对于理解 ChatGPT 和 Midjourney 等人工智能平台的运行至关重要。
什么是人工智能语料库?
学过拉丁语的人都知道 "corpus" 是 " 身体 " 的意思,现代英语里的 "corpse" 被译为 " 尸体 ",源自拉丁语 "corpus"。其他人可能也认识 corpus 这个词,因为它在今天仍然适用于现存法律机制中,被译为:人身保护令。这句话的字面意思是 " 你拥有人身自由权 ",它确保任何被逮捕的人都有权出庭,以确定逮捕是否合法。
但当其用于人工智能领域时," 语料库 " 一词根本不是指身体。相反,它指的是用于训练人工智能的文本库或数据集合。这个语料库是人工智能审查的材料,以使其在设计时变得智能。
每个人工智能平台的语料库都是不同的,因为是人类决定他们想要用什么样的数据来训练 AI,而人类决定训练人工智能的语料库将取决于他们希望人工智能精通哪些方面或是解决什么问题。
语料库类型
语料库的类型没有限制,人工智能语料库的构成取决于人类创造者想让它做什么。
以 Midjourney 为例,Midjourney(一款 2022 年 3 月面世的 AI 绘画工具)是一个流行的生成艺术平台,用于使用 AI 创建图像。由于 Midjourney 只允许用户使用文本提示创建图像,因此它需要接受一系列图像和相关文本描述的训练。例如,为了让 Midjounry 生成瀑布的图像,它的语料库必须包含瀑布的图像以及描述瀑布的相关文本。
还有 ChatGPT 等人工智能平台,一种被称为大型语言模型(large language model,简称 LLM)的人工智能平台。强大的 LLM 有能力基于文本数据与人类进行对话聊天——前提是他们的语料库足够大且足够丰富。LLM 模型可以处理多种自然语言任务,根据其语料库所包含的内容,它可以回答复杂的问题,甚至能够生成原创作品,如短篇小说或创建太空射击游戏代码。LLM 模型的能力仅仅取决于用于训练人工智能的语料库文本数据,它基于大量文本数据进行训练以能够理解文本的含义,并给出相应答案。
我想知道 ChatGPT 的语料库是由什么组成的,所以我直接问了它。"ChatGPT 语料库是由大量互联网文本数据组成,包括网站、书籍、文章和其他公开来源。" 它回答说。由于不满足于这个相当模糊的答案,我要求 ChatGPT 详细说明其语料库中的数据类型,这次 ChatGPT 的回答更加详细了:
网站:来自不同领域和主题的网站文本。
书籍:涵盖各种类型和主题的书籍文本。
文章:来自新闻文章、杂志特写和博客文章的相关文本。
研究论文:来自科学论文和出版物的相关文本。
会话数据:来自对话和互动的多回合文本。
社交媒体:来自 Twitter、Reddit 和其他在线论坛等平台的文本。
维基百科:维基百科文章中涵盖众多主题的文本。
注意 ChatGPT 语料库并不包括图像,其不具备图像处理能力。这是因为 ChaptGPT 是一个基于文本的 AI 生成器,它不能生成图像,因为它的语料库从来没有包含任何可以训练图像的文本数据。
Midjourney 和 ChatGPT 的文本数据只是构成语料库的两个例子,实际上语料库可以由任何类型的数据组成。例如,如果你想制作一个可以创作音乐的 AI 平台,你只需要在它的语料库中介入音频歌曲相关的文本数据即可。或者,如果你想要一个能够以海明威风格写小说的人工智能,你可以使用一个只包含海明威书面作品的语料库。
语料库是否合法?
如果你没有一个语料库来训练 AI,AI 就无法学习。你的语料库越大,AI 就会变得越熟练、越智能。但是,当涉及到版权和知识产权法时,人工智能语料库可能就会存在很大的漏洞。
用受版权保护的内容数据训练人工智能,这样的做法是否违反法律呢?例如,如果我创造了一个可以生成类似 Banksy(注:英国著名艺术家)艺术品的人工智能平台,该平台基于 Banksy 的作品语料库来训练 AI,这是否侵犯了 Banksy 的版权或知识产权?我所创造的 AI 并没有直接 " 盗用 " 他的作品,只是复制他的风格,所以这是否仍然构成侵权呢?再比如,假设我创建了一个包含蕾哈娜歌曲语料库的 AI 程序平台,它可以使用蕾哈娜的声音或与之接近的声音生成全新的原创歌曲,这合法吗?
今年早些时候,由 AI 生成的模仿加拿大歌手德雷克(Drake)和歌手 " 盆栽 "(The Weeknd)创作的新歌 "Heart On My Sleeve" 爆火并传播到了多个平台后,环球音乐集团(Universal Music Group)发表声明严厉谴责这首歌是 " 用生成式人工智能创作的侵权内容 "。但使用人工智能工具的创作者可能并不这样认为。最终,无论是人工智能生成的音频、视频还是基于文本的媒体,随着 ChatGPT 和 Midjourney 等生成式人工智能程序越来越普及,"AI 是否侵权 " 这个问题很可能会在未来几年仍然需要进一步的探讨和研究。
与此同时,各国政府已经在计划立法来监管生成人工智能模型。例如,欧盟正在提议一项法律,要求人工智能所有者披露人工智能语料库是否包含受版权保护的内容。这种透明度将使版权持有人更容易识别自己的作品被用于哪些语料库,从而寻求赔偿。
在美国,国会研究服务处(Congressional Research Service)最近向国会建议,在更新版权立法之前,它可能更希望采取 " 采取观望态度 ",建议国会监测法院在未来几年关于人工智能印发的版权案件的反应。
将出售语料库作为收入来源
当然,无论如何,一些内容创作者会选择接受人工智能为其提供的创收机会。比方说,一位在世的画家想赚些外快,她可非常容易地将自己的作品集打包在一个语料库中,并将其使用权出售给生成式人工智能公司。正如歌手格莱姆斯(Grimes)已经提出的那样,作家可以出售他们的小说集;杂志出版商可以出售过期杂志;歌手可以出售他们的人声语料库,或者要求 AI 基于他们的语料库生成的作品中获得一部分抽成。
如果埃隆 · 马斯克(Elon Musk)想为日渐走下坡路的 Twitter 带来新的收入来源,他可能会考虑将该平台上的所有推文打包成一个语料库,出售给人工智能初创公司。Meta 的 Facebook 也将从中找到新的收入来源,前提是 Twitter 和 Meta 可以声称拥有帖子的所有权。事实上,Reddit 的用户帖子语料库已经被用来帮助训练 ChatGPT 了,在最近接受《纽约 - 时报》采访时,Reddit 首席执行官史蒂夫 · 霍夫曼(Steve Huffman)表示,他知道这个语料库的价值。"Reddit 的数据库非常有价值,但我们不需要把所有这些价值免费提供给世界上一些知名的公司。" 霍夫曼说道。
从这个意义上说,随着越来越多的公司向人工智能领域扩张,强大的预包装语料库在科技界的地位可能会变得与淘金热矿工的镐一样重要,一个全新的语料库销售产业可能会随之诞生。
如果是这样的话,在未来的几个月和几年里, " 语料库 " 将成为人工智能领域的常谈话题。
译者:Araon_
责任编辑:hnmd003
相关阅读
相关阅读
-
什么是人工智能“语料库”?为什么每个人都在谈论它?
编者按:比尔·盖茨(BillGates)、Reddit首席执行官和其他科技领袖越
-
大模型生态合作共同体正式发起,云从科技、百度、阿里云等加入
品玩7月7日讯,在2023世界人工智能大会聚焦·大模型时代AIGC新浪潮论坛
-
领先新势力一个版本:这家中国制造商把 ChatGPT 集成到了自行车上
「Hey,Mercedes 」你只需要这样轻声呼唤,坐在奔驰主驾的你就可以立马
-
这世道,“ PPT 造车”之王也顶不住了
图片来源@视觉中国文|电车通处于边缘的新势力们,苟活已经成为一种奢望
-
苹果三件套该怎么选 实测数据告诉你新 15 寸 Macbook Air 入门版千万不要碰
苹果三件套是每年暑促选购中最具热度的话题没有之一,选购苹果三件套也
-
AI 热度降温又一迹象!散户 6 月加速涌入美股 关注焦点转向电动车
财联社7月7日讯(编辑卞纯)在良好回报的鼓舞下,散户投资者6月份加大
-
全球观察:美股牛市能撑多久?印度股市创新高?
6月刚刚过去,回顾下全球股市今年上半年的表现,可谓强劲。美国、日本
-
空调安装师傅,困在爆单的酷暑里
图片来源@视觉中国文|雷科技Ieitech今年入夏以来,全国多地都出现了40
-
美国纽约突发!至少 80 人受伤……
据央视新闻综合美国广播公司与《纽约邮报》报道,当地时间7月6日,美国
-
美国防部回应:目前拥有锗战略储备 但没有镓储备
财联社7月7日讯(编辑黄君芝)针对中国对镓、锗相关物项实施出口管制一
-
t5灯管长度怎么配?t5灯管长度有几种?
t5灯管长度怎么配?T5是一个5 8英寸的 LED灯管, T是一个管径,1 T是一个8英寸,5 T是5 8英寸,也...
-
t型热电偶是什么?t型热电偶测温范围和精度
t型热电偶是什么?T型热电偶又称铜-康铜热电偶(铜 镍铜热电偶,分度号T,测量范围-200~+350℃),也是一种...
-
蜂窝网络是什么意思?蜂窝网络错误怎么回事?
蜂窝网络是什么意思?蜂窝网络是指一种无线通信网络,它的名称来源于其像蜂窝一样的物理结构。蜂窝网络由...
-
中国澳门雅思报名官网入口
中国澳门雅思机考费用是多少,澳门雅思机考考点在哪,新东方在线雅思为
-
什么是cpu?gpu与cpu有什么区别?
什么是cpu?CPU也叫做中央处理器,是一台计算机的运算核心和控制核心,是计算机内的电子电路,通过执行指...
-
冗余系统包括哪些?冗余系统的工作原理
冗余系统包括哪些?1)、冗余(Redundant )有指定的独立的 N:1重元件,并且可以自 动地检测故障,切换到后...
-
第一代电脑是什么时候出来的?第一代电脑是谁发明的?
第一代电脑是什么时候出来的?第一代计算机发明于1946年。世界上第一台计算机诞生于1946年,这台计算机的...
-
长宁这场手术隔空2600公里向红河州绿春县直播
7月6日,一场双胎剖宫产手术在长宁区妇幼保健院手术室内“教科书”般进
-
学校可以强制学生买保险吗?可以买哪些保险?
不能。在实际操作中,学校可以通过制定相关规定,鼓励学生购买保险,但
-
人寿学生保险查询怎么查?保险保障有哪些?
要查询人寿学生保险的信息,首先可以通过保险公司的官方网站进行查询。
-
学生保险二次报销怎么报?需要什么手续?
二次报销的情况一般有两种: 一是因为医疗费用超过了一次报销的限额,
-
大学生保险查询怎么查?多少钱一年?
大多数保险公司都会在官网上提供详细的保险产品信息和查询服务。大学生
-
中学生有保险吗?学校给交保险吗?
在我国,中学生的保险问题并没有明确的规定。一些学校会为学生购买意外
-
可视对讲门禁怎么使用?可视对讲门禁怎么接线?
可视对讲门禁怎么使用?可视对讲门禁系统通常有两种开门方式:手动开门和远程开门。手动开门:在可视对讲...
-
欣旺达:公司在南美合作的锂矿目前正在进行钻探前期的准备、矿产资源的分析、场地平整、当地环评准备以及人员派选等工作
同花顺金融研究中心7月7日讯,有投资者向欣旺达提问,请问公司锂矿现在
-
上下一心,数字减碳,实现全产业链碳中和 要闻
上下一心,数字减碳,实现全产业链碳中和6月28日下午,绿色低碳及新能
-
并行加法器的作用是什么?并行加法器和串行加法器区别
并行加法器的作用是什么?单个全加器执行两个一位数和一个输入进位的加法。但是并行加法器是一种数字电路...
-
冰箱辐射大吗?冰箱辐射安全距离多远?
冰箱辐射大吗?冰箱有辐射,但这种辐射是非电离辐射,且辐射剂量非常小,正确使用安全、合规的冰箱对人体...
-
碳素钢有哪些?碳素钢是什么性质的材料?
碳素钢有哪些?1 低碳钢低碳钢也叫软钢,碳含量在0 05%~0 25%之间。低碳钢具有良好的可塑性和韧性,广...
-
常用参比电极有哪些?参比电极工作原理
常用参比电极有哪些?1 甘汞电极:甘汞电极是一种广泛使用的参比电极,其优点是廉价、易得、稳定。其...
精彩推荐
阅读排行
精彩推送
- 电动机是感性负载还是容性负载?...
- 港股世纪睿科拉涨超5% 公司简称...
- 家乐福中国成老赖 2次列为失信...
- 当写字楼开始购买碳配额
- 国内储能集成商第一名,赚钱也难
- 洗碗机入华 30 年,为何没像洗...
- 快手 12 岁,那些得意的和失意的
- AI 热度降温又一迹象:散户 6...
- 电磁辐射对人体有害吗?电磁辐射...
- 直流电动机主要由什么组成?直流...
- 微资讯!房地产市场下半年如何走?
- 合生创展:上半年总合约销售金额...
- 中海:上半年合约物业销售金额同...
- 离婚起诉多久能开庭?离婚起诉流...
- 民政局收养手续该怎么办?民政局...
- 不结婚可以生孩子吗?未婚生子孩...
- 千万别试!9岁女孩被蛇咬伤奶奶...
- 中国铝业午盘涨近4% 机构指云南...
- 单位租赁合同需要盖章吗?单位租...
- 打印的合同有法律效应么?打印的...
- 出具律师函怎样收费?律师函有没...
- 少儿乐保险c款能领多少钱?怎么...
- 大学生投什么保险合适?需要注意...
- 太平洋保险少儿乐a款可以领取几...
- 大学生实习责任保险有哪些好处?...
- 大学生买保险有必要么?哪个保险...
- 全球高温创历史纪录,世界首富被...
- 中小牧场迷途:有乳企变相限收生...
- 当前讯息:营销不是空喊口号,一...
- 办租赁合同去哪里办?办租赁合同...