大模型下探音视频 AI 市场,战争才刚刚开始
2023-06-07 14:16:35来源:ZAKER财经
大模型面向产业落地的难点是什么?
1. 当下,基于生成式的人工智能技术(AIGC),仍然需要海量数据进行训练才能得到一个回复质量较高的模型算法,初期训练成本非常之高。这对于倾向自研基础大模型的企业是必须要过的门槛。
(相关资料图)
2. 对于给出算法更加精准、训练成本更低、对于用户调取更方便的模型,这一方面的提升空间较为明晰。在媒体、游戏、营销等行业已经看到比较多典型的内容生成场景,但 AIGC 技术并不能适用于所有场景,且在商业层面的实际回报率尚未明朗。
3. 从市场需求的共性来看,企业对 AI 技术更关心,关心怎么跟业务融合,但同时也会有些担忧或紧张,新技术会不会对业务带来冲击。与此同时,各国对人工智能和数据获取监管的法律条文,以及对 " 类 ChatGPT" 的支持力度,也在反映这种观望态度。
过去半年,整个科技圈有关 AIGC 创新的新闻铺天盖地,但一顿操作猛如虎之后,还有更多仍在 " 来的路上 "。
6 月 1 日,阿里云宣布通义大模型进展,聚焦音视频 AI 的 " 通义听悟 " 正式亮相,成为国内首个开放公测的大模型应用产品。
通义听悟其前身是早在 2021 年研发投入市场的 " 听悟 " 产品,此次除了集成阿里通义千问大模型的理解与摘要能力外,还融合了阿里最先进的语音语义、多模态算法等技术。公测期间,听悟用户可通过每日登陆等多种任务领取免费转写时长,阿里云官方多个平台也会放大量 20 小时的转写口令码。除此之外,听悟企业版还在与钉钉 " 钉闪记 "、夸克 APP、阿里云盘等进行能力进行集成。
此举对于国内的 AI 语音技术服务商以及 " 类 ChatGPT" 应用企业,并不是个好消息。
从听悟到通义听悟
结合当前的官方定义来看,通义听悟具备 " 听 " 与 " 悟 " 能力,即 " 听力好 ",能高准确度生成会议记录、区分不同发言人," 悟性高 ",可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。
这其实也明确了外界对 AI 音视频技术产品的一个重要期待:要让 AI 理解人类,并且以人类可理解的方式表达出来。AI 理解人类,意味着不只要听到表面语义,甚至还要理解人的情绪和意图;AI 表达,则意味着在文本生成、内容摘要、风格及情绪表达上要有所突破。同时结合多模态技术,不只是文字、音频,还有图像、视频等方式传递给 AI 理解。
这个过程,在没有大模型技术应用前,就已经存在诸多细节性挑战。但在阿里云 CTO 周靖人看来,有了通义大模型的加持,阿里将多年积累的语音技术,以及多模态的能力有机结合起来,最终形成今天的通义听悟。" ‘知其然不知所以然’是产品没有大模型的局限性,过去的听悟只能做到将语音文字转录出来,但背后的整理、理解、信息收取,是依靠人来完成的。之前也曾用过小模型,但结果并不好。" 周靖人在会后的交流活动中指出。
以语音识别 TTS 为例,听悟内置了语音识别模型 Paraformer,它首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。配合 GPU 推理,不同版本的 Paraformer 可将推理效率提升 5~10 倍,同时,Paraformer 使用了 6 倍下采样的低帧率建模方案,可将计算量降低近 6 倍,支持大模型的高效推理。
说话人识别模型 CAM++,相较于如 ECAPA-TDNN 和 ResNet 模型,在准确识别和高效计算的同时,还实现了整体优解。在行业主流的中英文测试集 VoxCeleb 和 CN-Celeb 上均刷新了最优准确率,并且在计算效率和推理速度上有着明显优势。
而此次听悟上线测试的通义千问大模型的信息摘要能力,为保证抽取出的摘要信息的事实准确,大幅度减少幻觉,团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面,2022 年团队提出了基于大语言模型的知识探测与推理利用的框架 Proton。
对手会是讯飞吗?
业内普遍一个声音是," 很多产品因为大模型的到来会重新再做一遍 ",接入大模型能力,或将改变的是产品的业务逻辑、交互模式,甚至是收费模式。
从通义听悟当前的产品界面上看,针对的仍然是比较高频的场景,往往跟对话或交流相关,如上述提及的总结、翻译、内容摘取,其本质上是对内容语义的理解输出。据官方描述,其定位为一款工作学习 AI 助手,瞄准具有高知识附加值的音视频内容场景,如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新 AI 技术快速提炼和沉淀知识。
通义听悟的技术负责人鄢志杰一直都在从事智能语音交互相关工作,他解释道," 目前展示的视频转文字,仍然是将视频里的音频进行文字转换,尚未展示出视频直接转文字的理解过程。未来会进行多模态的理解,不仅要有音频转文字,还要辅助以视频和视觉的模态对内容进行更好的理解。"
下一步,通义听悟会被各种各样的业务系统集成,集成到智能化服务中,开发者可根据实际场景,最终打造基于业务场景的 MaaS 服务," 通义听悟一定会推出企业版,为企业场景所定制,每个企业也都会有不同的需求,也有数据安全、数据隐私等方面的要求。" 周靖人补充道。
那么,通义听悟的对手会是讯飞吗?
事实上,音视频是人机交互的重要入口,市面上成熟的 AI 音视频产品并不在少数,除了讯飞、搜狗、网易有道等具备软硬件能力的服务商外,飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具,也同样具备相似的能力。可能的区别在于,背后的 AI 技术逻辑,是否会因大模型的到来而彻底改变。
科大讯飞于上月发布星火大模型,其中软件产品讯飞听见会写已经搭载大模型开放使用,在收费模式上已经给市场参考标准——根据单次 AI 能力的使用(单次字数不超过 8000 字)按月 / 季 / 年会员收费。
互联网公司在这方面的积累也从未缺席,在不断丰富 AI 技术体系的同时,也在迅速推进大模型 + 的创新。例如从早期的 iDST 实验室到达摩院,阿里 2019 年开始投入大模型,2021 年训练实现 10 万亿参数的多模态大模型 M6,2022 年发布通义大模型,到如今的通义千问、通义听悟已经在逐步产业化融合。
《中国人工智能大模型地图研究报告》指出,据不完全统计,中国 10 亿级参数规模以上大模型已发布了 79 个,特别是在自然语言理解、机器视觉、多模态等方面,出现了多个在行业有影响力的大模型。上述提及的网易有道则基于教育场景推出了 " 子曰 " 大模型,出门问问的 " 序列猴子 " 则面向多模态生成能力的大语言模型……
可见,能容纳后来者的赛道,依然存在尚未挖掘的价值空间,更何况大模型将带来新的变量。
(本文首发钛媒体 APP,作者 | 杨丽)
责任编辑:hnmd003
相关阅读
相关阅读
-
大模型下探音视频 AI 市场,战争才刚刚开始
图片来源:视觉中国大模型面向产业落地的难点是什么?1 当下,基于生成
-
中华人民共和国刑法第一百三十三条内容是什么?危险驾驶罪的量刑标准是什么?
醉驾如果没有发生交通事故,情节轻微的能从宽免刑。醉驾情节严重的可能构成危险驾驶罪,一般处拘役,并...
-
每日精选:这家企业估值50亿美元!脑机接口概念大涨,关注两条主线
美国硅谷企业家埃隆·马斯克参与创办的脑机接口企业“神经连接”公司虽
-
全国职工数字化应用技术技能大赛决赛开幕
2023年6月7日,全国职工数字化应用技术技能大赛决赛开幕式在福建省福州海峡国际会展中心举行。大赛设置焊...
-
年金险基本保额是什么意思?保额一般有多少? 世界今头条
年金险基本保额是指投保人在购买年金险时,所确定的最低保障金额。也就
-
环球观热点:保险公司年金险好不好?怎么选?
好。保险公司年金险属于固定收益类投资品种,在风险控制方面比较可靠。
-
年金险期满可以拿回本金吗?年金险的好处有哪些?
不一定。因为年金险的本金是用来购买保险的,所以在购买年金险时,被保
-
年金险从什么时候领取划算?年金险领取的方式是什么?|环球聚焦
要根据情况定。有部分年金险产品,在投保后的第五年就可以开始领取返还
-
增额寿险与年金险的区别是什么?要怎么买?
首先,在领取方式方面,年金险在缴纳保费后会按照约定周期固定领取养老
-
富瑞:维持太平洋航运买入评级 目标价降至3.1港元|世界时快讯
富瑞发布研究报告称,维持太平洋航运(02343)“买入”评级,仍看好干
-
短期有价证券是速动资产吗?短期有价证券包括哪些?
短期有价证券是速动资产吗?短期有价证券是指投资者可在比较短的一段时间内,到期后可以将其兑现的金融资...
-
即时焦点:弘和仁爱医疗延长两笔可换股债券的到期日
6月7日,弘和仁爱医疗公布,于2023年6月6日,公司与誉锋订立誉峰修订契
-
将灯具与昆曲巧妙结合,南林这场设计展亮点多多_全球速递
现代快报讯(通讯员雷蕾记者于露文 摄)古色古香的桌椅、结合昆曲元素
-
天玑 9300 全大核 CPU 架构狂撼市场,联发科再度问鼎出货量第一
根据CounterpointResearch发布的报告,全球手机芯片市场掀起了一股惊涛
-
天天速讯:三星将于 7 月底发布 Galaxy Z Fold 5 和 Flip 5,能否延续优势地位?
三星宣布,今年的GalaxyUnpacked2023活动将于7月下旬在韩国首尔举行,
-
环球要闻:商汤与上海 AI 实验室等发布“书生 · 浦语”大模型
品玩6月7日讯,据商汤科技官方消息,商汤科技、上海AI实验室联合香港中
-
天天亮点!西部数据推出 WD_BLACK C50 扩展卡:Xbox Series X/S 专用,提供最大 1TB 产品
西部数据宣布,正式推出WD_BLACKC50扩展卡,属于高性能的黑盘产品。这
-
股票跌停能卖出吗?股票跌停买入危险吗?
股票跌停能卖出吗?跌停的股票是可以卖出的,股票监管层对股票每天上涨和下跌额度进行限制,一般控制在10...
-
股市为什么会跌?股票亏了死守会回本吗?
股市为什么会跌?原因之一:获利回吐导致股价大幅下跌。当股票突然大幅上涨,中之间的跌幅很小时,可以快...
-
企业法人是指什么?企业法人需要承担的责任与风险
企业法人是指什么?企业法人,是指以营利为目的,独立地从事商品生产和经营活动的社会经济组织。在西方某...
-
全球要闻:一起来看看视频怎么快速转音频吧
它的【视频转音频】功能可以帮助我们在保证音频效果的情况下,快速的将
-
新资讯:助力高考“益”起追梦,贝壳“高考服务站”为梦想护航
十年寒窗终不负。6月7日,一年一度的全国高考拉开帷幕。据悉,今年高考
-
热议:下一波5G技术发展在哪,苹果XR产品如何?爱立信中国区总裁方迎回应
凤凰网科技讯6月7日上午消息,爱立信夏季媒体沟通会于2023中国国际信息
-
长安汽车:未收到供应商“函件”,每年磋商供应价格是行业一贯做法
长安汽车:未收到供应商“函件”,每年磋商供应价格是行业一贯做法针对
-
【环球快播报】沪苏浙皖签署文旅发展框架协议 拟打造长三角文旅一体化新样本
《协议》聚焦共同构建世界级高品质文化和旅游目的地,把实施扩大内需战
-
蔡司或将停止生产摄影镜头 Batis 等系列产品落下帷幕
相信不少摄影师都发现,蔡司在2019年4月发布Otus100mmf 1 4定焦镜头后
-
环球讯息:荣耀 Magic V2 通过 3C 认证,依旧是 66W 快充,轻薄或超华为
国内这几年折叠屏手机产品线已相对丰富,类如华为、荣耀、小米、vivo、
-
华为孟晚舟:生成式 AI 等技术正快速融入金融业务-每日快看
钛媒体App6月7日消息,在华为全球智慧金融峰会2023上,华为轮值董事长
-
美版贴吧数据不让大模型白嫖了!年费 2000 万,Stable Diffusion 等上百个社区炸锅:暂停服务
Reddit:我们的目标就三个,搞钱、搞钱、还是**的搞钱!不想被白嫖的Re
-
三星电子与现代汽车于车载芯片解决方案首次合作,预计于 2025 年正式落地投用
美通社消息,近日,三星电子宣布其最新的汽车处理器ExynosAutoV920已定
精彩推荐
阅读排行
精彩推送
- 年金险交了一年不交了行吗?退保...
- 环球头条:中国人民人寿年金险利...
- 五险二金中的年金是什么?企业年...
- 全球新动态:年金险月领和年领的...
- 今日关注:年金险能一次性领取吗...
- “花钱吃剩菜”,买吗?
- 世界速递!4000台哪吒汽车发运海外
- 每日报道:油车危!特斯拉Model...
- 福特因起火风险在美国召回12.5万...
- 公民的政治权利主要有什么?政治...
- 林权证的作用是什么?林权证可以...
- 吸毒是违法还是犯罪?吸毒者一般...
- 共有产权房是什么意思?共有产权...
- 党内警告处分有什么影响?党内警...
- 履约能力是什么意思?履约能力从...
- 富格林:曝光阻挠出金黑幕 强劲...
- 债务承担是效力待定吗?债务承担...
- 世界首家女子马球俱乐部落地仙女...
- 被删除的 Sam Altman 谈话纪...
- 618 好物选购,想要办公娱乐皆...
- 华硕发布新款 Vivobook 16 OL...
- 索尼,爱上种田
- Reddit 宣布将解雇 5% 左右的员工
- 投资 30 亿终定档,《封神三部...
- 环球即时看!阿里、百度、值得买...
- 孟晚舟亮相!华为重磅宣布!国内...
- 【世界播资讯】拉萨市人社部门开...
- 有限责任公司是什么意思?有限责...
- 公司请丧假需要什么证明?请丧假...
- 什么是期房?期房延期交房可以退...