AI 潮涌,这门生意爆了
2023-08-14 17:14:28来源:ZAKER财经
作 者丨郭美婷
编 辑丨吴立洋
AI 潮水汹涌,数据正成为一门火爆的生意。
(资料图片)
为了给人工智能喂上充足的 " 养料 ",从发掘、采集到标注,企业在数据处理的各个环节掘金。到如今,真实的数据已无法满足日渐膨胀的 AI" 胃口 ",企业开始探索 AI 自产自销的 " 假 " 数据——合成数据产业应用而生。
上个月底,国内合成数据公司 " 光轮智能 " 宣布完成天使 + 轮融资;几个月前,新加坡合成数据初创公司 Betterdata 也获得一笔 165 万美元规模的种子轮融资。互联网大厂也开始了布局。微软、英伟达、meta、亚马逊等数得上号的科技巨头中,均有合成数据相关的业务布局、投资或收购举动。
合成数据究竟是 " 何方神圣 "?它有怎样的产业价值和风险?会给 AI 产业带来怎样的颠覆?
" 人造 " 数据崛起
相比于从现实世界中采集或测量的真实数据,合成数据顾名思义是人工合成的 " 假 " 数据。由于能够反映原始数据的属性,合成数据可以作为原始数据的替代品来训练、测试和验证 AI 模型。
但人工合成并不意味着完全凭空捏造。现阶段,大部分合成数据的 " 根 " 仍然是真实数据。
Unity 中国高级软件工程师钱文亿向 21 世纪经济报道记者介绍了其合成数据产品在计算机视觉相关项目中的普遍生成过程:第一步,在现实中找到可识别的对象,通过扫描技术,将物体模型真实地还原在 3D 场景中;在此基础上,对该物体模型进行打标签,如颜色、大小等,具体标签类型依据训练需求而定;最后,将这些物体放置于各种设定的场景中,随机组合,快速地生成多张图片。
因此,训练同一个 AI 模型时,使用真实数据也许需要摄像头不断变换地捕捉物体在不同场景、状态下的多张照片,而合成数据则能够通过调整物体位置、角度、所处背景等参数,一分钟内生产成百上千张不同的图片,降低成本,提高数据集生成效率。
事实上,合成数据的概念并不新颖。据说,这一概念早在 1993 年 Donald Rubin 的一篇文章中就有雏形。近年来,随着人工智能技术一次次取得突破性发展,真实数据的采集、获取难度也水涨船高,已难以填饱 AI 训练的庞大 " 胃口 "。
合成数据常常作为真实数据的 " 平替 " 而存在。据人工智能初创公司 Cohere 首席执行官 Aiden Gomez 在上个月底透露,由于 Reddit、推特等公司的数据采集要价太高,微软、OpenAI 和 Cohere 等公司,已使用合成数据来训练 AI 模型。Gomez 表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。
但在广州大学计算机科学与网络工程学院教授王员根看来,价格反而不是选择合成数据最主要的考虑因素。
真实数据涉及大量个人隐私,冒然使用可能引起严重的法律纠纷问题,而且并非所有的真实数据都是可用的。互联网上充斥着大量真伪难辨的信息,要从杂乱无章的真实数据中挖掘出可用的信息,需要大量的人工筛选。另外,真实数据还存在分布不均衡的问题。例如,训练人脸识别系统时,从互联网上爬取到的人脸数据中亮皮肤人脸图像占多,而暗皮肤人脸图像偏少,这将导致所训练的模型存在偏见。合成数据恰能在一定程度上人为规避上述问题。
" 部分真实数据无法获取,如清晰的水下图像等,通过合成数据技术模拟生成相关数据,能够补充训练数据的完备性。" 王员根补充道,尽管现阶段大量合成数据建立在真实数据基础上,但随着技术的进步,未来对真实数据的依赖将逐步减少,目前已有技术能让直接合成的数据 " 以假乱真 "。
但合成数据并非十全十美。在 AI 训练数据服务商 Appen 澳鹏官方发布的一篇文章中,就提到合成数据缺乏异常值,而这些异常值自然出现在真实数据中,对于模型精确度至关重要。另外,合成数据的质量通常取决于用于生成的输入数据,输入数据中的偏见很容易传播到合成数据中,因此不能低估使用高质量数据作为起点的重要性。所以,企业需要将合成数据与人工标注的真实数据进行比较,作为额外的输出控制。
越敏感,越先突破
目前,合成数据主要应用于哪些领域?
相比于自然语言、音频等形式,合成数据最先在计算机视觉上展露拳脚。受访专家们认为,这与图片处理更加简单直接、人类与环境进行交互时优先通过视觉系统等因素相关。未来,其他领域的合成数据也将得到进一步的发展。
合成数据在自动驾驶、医疗、金融等场景有着广阔的应用前景。这些场景的共同点在于,真实数据敏感,难以获取,但又关涉重大,有的还涉及人身安全,对数据质量要求极高。" 哪里最有需要,哪里就会最先得到发展和应用。合成数据技术最有可能在这些敏感场景中取得突破。" 王员根表示。
以自动驾驶为例,实际驾驶过程中,车辆可能会碰到各种复杂多变的路况,甚至是极端情况,如严重的交通堵塞、事故、恶劣天气等。尤其是在极端情况下,使用真车冒险测试几乎不可能,极难采集和获取到真实数据。
合成数据可以模拟出这些情景。王员根介绍," 比如,要模拟暴雨天气,我们就用日常能够收集到的普通天气的数据,构建一个物理或网络模型,将‘暴雨’的关键参数输入进去,就能生成相应的场景。模型和参数越准确,场景的逼真程度越高。" 如此,能够在保障人员和设备安全的条件下,提升自动驾驶能力。
公开资料显示,许多自动驾驶汽车厂商都在合成数据和模拟方面进行了大量投资。例如,谷歌母公司 Alphabet 旗下的自动驾驶子公司 Waymo 在 2106 年就生成了 25 亿英里的模拟驾驶数据来训练其自动驾驶系统(相比之下,从现实世界收集的驾驶数据仅为 300 万英里)。到 2019 年,这一数字已达到 100 亿英里。
国内,腾讯自动驾驶实验室开发的自动驾驶仿真系统 TADSim 已经可以自动生成无需标注的各种交通场景数据。华为云也基于盘古大模型开发了场景重建大模型,该模型可基于采集的路采视频数据做场景重建(合成数据),普通用户很难用肉眼分清这些重建的场景跟真实场景有何区别。
然而,自动驾驶涉及人身安全,合成数据毕竟不是完全真实的,这注定了企业使用这类数据进行训练时会表现得更加谨慎。
小马智行联合创始人兼 CTO 楼天城向 21 记者强调,合成数据既有凭空生成的虚拟数据,也有基于真实数据加以修改得到的数据,目前在 L4 的感知模块中,小马智行没有使用凭空生成的虚拟数据。主要是因为 L4 方案依赖于激光雷达,对于如恶劣天气、长尾物体等难度场景,生成激光雷达的虚拟数据与真实数据的分布差异较大,无法用虚拟数据来达到在真实场景下提升的效果。
但小马智行会对真实数据加以修改来合成数据用于感知算法,对于不依赖原始传感器输入的模块,例如路径规划和一些场景理解等算法,也会使用合成数据进行训练和仿真评估。
楼天城认为,要把虚拟数据做到足够逼真对标注质量的要求反而更高。而对于一般的简单场景,做数据挖掘和智能标注的数据闭环相比于研发合成逼真的虚拟数据的成本还要低不少。目前学术界对使用完全虚拟的数据进行自动驾驶的训练有一些研究,不少公司也在做相关预研。从训练效果来看,从 0 到 80 分有帮助,但对 90 到 99 分效果一般,实际落地部署的案例并不普遍。
" 我们也在关注合成虚拟数据相关的技术进展并持开放的态度,如果某一天技术足够成熟时也会考虑应用。" 楼天城表示。
数据标注产业将被重构?
据咨询公司 Gartner 预测,到 2030 年,合成数据将彻底取代真实数据,成为 AI 模型所使用的数据的主要来源。而美国 AI 研究机构 Cognilytica 数据显示,2021 年合成数据市场规模大概在 1.1 亿美元,到 2027 年将达到 11.5 亿美元。这是一块让不少科技大厂和初创公司垂涎的大蛋糕。
多家的科技巨头均有合成数据相关的业务布局、投资或收购举动。例如,2021 年,英伟达发布了用于训练 AI 的 Omniverse Replicator 合成数据生成引擎,今年 7 月,英伟达初创加速计划成员 Rendered.ai 将 Omniverse Replicator 集成到其合成数据生成平台,使 AI 训练变得更加简单易用;亚马逊也在多个场景探索合成数据的应用,例如使用合成数据来训练、调试其虚拟助手 Alexa,以避免用户隐私问题等;Meta 则直接收购了合成数据创业公司 AI.Reverie,以整合至旗下元宇宙部门 Reality Labs。
创业公司方面,合成数据领域的投资并购持续升温。计算机视觉合成数据提供商 Datagen 于 2022 年初宣布完成 5000 万美元 B 轮融资;今年 4 月,新加坡合成数据初创公司 Betterdata 在获得一笔 165 万美元规模的种子轮融资;7 月末,国内合成数据公司 " 光轮智能 " 宣布完成天使 + 轮融资,这家今年刚成立的新公司,已经完成种子轮、天使轮、天使 + 三轮融资,累计融资金额达数千万元。
钱文亿观察到," 过去几年,全球几乎每年都有好几百甚至上千家新型初创公司建立,为各行各业提供用于算法训练的合成数据产品。"
产业繁荣之下,我国也开始鼓励和引导合成数据产业的发展。今年 3 月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于 AIGC 技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场 " 增量扩容 ",助力打造面向人工智能未来发展的数据优势。5 月 19 日,北京发布的 " 北京市通用人工智能产业创新伙伴计划 ",提到谋划建设国家级数据训练基地,也提出了支持发展基于 AIGC 技术的合成数据新产业。
而在过去很长一段时间里,人工智能对数据的海量需求催生了一批数据标注师的就业群体。如今,当合成数据逐渐成势,数据标注产业的格局是否会因此遭到冲击?
王员根认为,冲击是必然的,但需求仍在。" 首先这件事没有那么快到来,其次,标注师们要进行转型。比如,过去需要标注的是原始数据,如今则变成了 AI 生成的数据;又如在原本数据标注工作的基础上,标注师们还将被要求分辨哪些是 AI 生成的数据,哪些是自然数据等。即使合成数据越来越多、质量越来越高,也离不开人类的引导和监督,以及时修正可能出现的偏差。"
SFC
本期编辑 江佩佩 实习生 章宝怡
21 君荐读
责任编辑:hnmd003
相关阅读
相关阅读
-
AI 潮涌,这门生意爆了
作者丨郭美婷编辑丨吴立洋AI潮水汹涌,数据正成为一门火爆的生意。为了
-
未经配偶同意,男子用 144 万“卖房款”炒股亏损 70 万,法院裁定:属于严重损害夫妻共同财产利益的行为
财联社8月14日讯,近日,北京高院审理了一起因婚内炒股亏损导致夫妻财
-
大盘上演单日“ V ”型反弹,“市场底”来了吗?
财联社8月14日讯,大盘全天探底回升,三大指数仍收跌,沪指相对偏强。
-
跌跌不休!地产、汽车股萎靡不振,AI 概念股逆市反弹;业绩不达预期,2000 亿龙头股价创新低
今日,A股三大指数集体低开,沪指低开0 93%,深成指低开1 03%,创业板
-
预计2027年我国汽车改装行业市场规模分析
预计2027年我国汽车改装行业市场规模分析随着汽车消费逐渐成为大众消费
-
未来生物识别技术行业发展前景如何 预计2025年生物识别技术行业市场规模分析
随着人脸、虹膜和静脉等识别技术取得重大突破,其产品得到了广泛的应用
-
智能制药行业市场规模及增速预测
智能制药行业市场规模及增速预测随着人工智能浪潮的兴起,AI也被用于提
-
2023优质牧草行业发展趋势及市场现状分析
2023优质牧草行业发展趋势及市场现状分析优质牧草行业发展趋势及市场现
-
2023点餐系统行业现状与市场发展前景趋势分析
2023点餐系统行业现状与市场发展前景趋势分析点餐系统行业现状,点餐系
-
城投绿城·N30°梦想城丨编织繁华图景,藏纳生活惬意
生活的意义在于生活本身,也在于如何去享受生活,城投绿城·N30°梦想
-
《博德之门3》获M站官方认证:评分最高的PC游戏
《博德之门3》获M站官方认证:评分最高的PC游戏,半条命2,pc游戏,单人游
-
《博德之门3》地精营地下毒攻略分享
相信大家都知道,在博德之门3中要想变的更强,那么就必须要知道《博德
-
辛选2022年成交总额达500亿元 纯购物用户超8000万
辛选纯购物用户超8000万,用户复购率达65%,人均付款订单数超20,人均
-
北京:支持具有突出创新潜能的优秀青年科技人才挑大梁、担重任
中国青年报客户端讯(中青报·中青网记者樊未晨)记者从北京市教委获悉
-
五险里的意外险怎么报销?报销需要哪些材料?
五险里面没有意外险,但是可以自己购买意外险,然后按照规定申请报销。
-
慧馨安2022少儿重疾险购买渠道有哪些?有哪些保障?
大家如果想要投保这一款少儿重疾险,可以在保险公司的官网或者是下载保
-
达尔文6号重疾险和超级玛丽6号哪个好?怎么购买呢?
达尔文6号重疾险和超级玛丽6号都是知名保险公司推出的重疾险产品,它们
-
买人生意外险多少钱一年?怎么买?
人生意外险的价格因保险公司、保险产品和个人情况而异。 一般来说,保
-
个人购买意外险多少钱?怎么买?
视具体情况而定。 首先,个人购买意外险的价格因保险公司和保险计划的
-
洪水退去,救援队再相聚:从陌生人变“生死兄弟”
洪水退去,杨帆的生活回归慢节奏。8月11日,他决定召集当初参加涿州救
-
涿州供水未完全恢复,市民每天醒来第一件事:“接水”
“我们家已经很多天没有吃过蔬菜了,因为要洗,基本就靠烧饼、面之类的
-
反腐风暴下的医院:有医生减少手术,学术会陷争议,“正常讲课退费没道理”
医药反腐风暴汹涌。这一轮风暴已经酝酿多时。7月28日,纪检监察机关配
-
现代汽车集团(中国)与能链智电达成合作,合力推进充电基础设施建设
现代汽车集团(中国)与能链智电达成合作,合力推进充电基础设施建设8
-
Lucid因3大问题召回6,360辆电动汽车
Lucid因3大问题召回6,360辆电动汽车三起召回都是在2023年7月27日发布的
-
福特推迟电动版探险者欧洲上市时间
福特推迟电动版探险者欧洲上市时间业内人士怀疑,探险者的延迟还有一个
-
公安部交管局推出优化机动车登记服务新措施
公安部交管局14日部署各地公安交管部门进一步细化措施、优化流程,简化
-
李大霄:长期资金入市的最好时机
李大霄表示,最近股市的下跌趋势令人关注,他强调了长期资金在救市中的
-
天天收评:今日37股涨停 算力等AI概念股反弹
今日37股涨停,主要集中在通信、医药生物等行业。
-
消息称特斯拉 FSD 测试版已向部分国内用户推送
IT之家8月14日消息,推特博主TeslaChinaAnalyst近日透露,特斯拉自动驾
-
不止手机、平板,小米发布会确认有 One More Little Thing
更新:小米确认今晚发布会有OneMoreLittleThing环节。IT之家8月14日消
精彩推荐
阅读排行
精彩推送
- 赵明:荣耀将在 IFA 大展上发...
- 首位车主与贾跃亭合照亮相,法拉...
- 欢庆十周年?Apple Watch X ...
- 抢人大战,从直接发钱到首付降三成
- 中银资产被罚 100 万元:未经...
- 疾风骤雨来了!美债收益率逼近年...
- 商务部:研究推动合理缩减外资准...
- 闷声不响的淘宝,让市场惊喜了一回
- 沪铝高开后震荡走弱 宏观氛围较...
- 重庆:支持提取住房公积金直接支...
- 2名中国男子在柬埔寨绑架同胞勒...
- 医疗反腐,捍卫白大褂的纯洁
- 山东污染环境刑事案件数量连续三...
- 泰康100元意外险保障范围是什么...
- 太平保险的福禄顺禧重疾险怎么样...
- 意外险能赔几次?怎么理赔?
- 大地保险大学生意外险赔偿范围是...
- 昆仑健康增多多3号下架了吗?需...
- 2023年服贸会将设202场论坛会议...
- 欧盟天然气价格飙升 专家称制裁...
- 黑钻用户怒批携程:买票被贷款还...
- 印媒:OpenAI 可能会在 2024 ...
- 硅谷一夜解禁 RoboTaxi 所有限...
- 跟 AI 打工,贫困县也能月薪 7000
- 料酒抽检报告:有“酒精”就能做...
- 千万别再用这个姿势睡觉!当心把...
- 擅自砍伐被风吹倒或已枯死的树木...
- 已有中融信托投资人准备报案,合...
- Smart 车主刮起一股扣标风
- 寺庙文旅赛道火爆,普通寺庙如何...