全球讯息:华为在手机上,率先实现本地端自然语言搜图功能
2023-07-04 13:07:50来源:ZAKER科技
机器之心原创
作者:泽南
(资料图片仅供参考)
在手机上用自然语言搜本地相册图片,业界首个移动端多模态语义检索引擎,改变了我们的手机使用体验。
习惯了搜索引擎的我们,在手机上找本地文件的时候往往却束手无策:如今每个人的智能手机上,存上千张照片已是常态,有时候想找某张具体的照片就像大海捞针。
不过在今年华为的 P60 系列发布会上出现了这样一项功能 —— 智慧搜图,基于多模态大模型技术在端侧轻量化应用,手机上第一次有了自然语言图片搜索能力。既然是自然语言,就意味着在找图这件事上可以对手机讲人话了。
如果记不得想找的照片是何时何地拍摄的,只大概记得照片中出现的人或物怎么办?只要把能想到的几个词写到搜索框里,智慧搜索就能给你找到:
或者用语音唤醒小艺用一句话形容想要找的照片内容,比如搜索「去年在长白山滑雪的照片」,就可以直接找到手机里所有那次去玩的照片:再进一步,你也可以搜索「骑自行车的人」、「户外的聚会」等描述性的概念。相比以前基于标签的照片搜索方式,智慧搜图可以让手机更加「聪明」,响应速度更快,输出结果更高效。结合多模态语义模型技术,华为的智慧搜图在云端对上亿级图文数据进行了预训练,对更通用化的语义拥有了理解能力。更重要的是,模型部署在端侧,搜索计算是在本地完成的,进一步保护隐私安全。
这不禁让人怀疑,华为的手机是不是已经有了破解图形验证码的能力?
手机自然语言搜图,为啥这么难?以前在很多手机上,你可以通过输入时间、人物、地点等关键词找到想要的特定照片。这是通过 AI 算法识别图片类型和文字,以及地理信息等文件固有标签来实现的,不过一般来说,它们只能识别出有限的类别。
在使用「常规」方法时,你需要通过短标签及其组合进行搜索,例如「风景」、「猫」、「食物」等等,手机支持的短标签数量有限,只能满足你的一小部分意图,大部分时候还是需要手动去相册里翻找,效率很低。
标签都给你打好了,但选择的种类有限。这并不奇怪,因为在它的后端顶多是简单的图像识别模型,搜索的自由度趋近于无,当然也不能理解人的意图。在使用这样的系统时,有时候结果会变成让我们猜模型到底能识别哪些标签。
要想实现「智慧搜图」,AI 模型需要能同时理解自然语言与图像两种模态的数据,而在手机上,我们还需要使用一系列压缩算法尽可能利用有限的算力,并从工程角度尽量加快推理速度。
具体而言,先不管部署到手机端的困难,要想实现对图片和文本的语义级理解,让手机自己「看懂照片」,我们需要经历一段三步走的过程。
物理世界产生的非结构化数据如图片、语音和文本,在 AI 算法中会被转化为结构化的多维向量,向量标识出关系,检索就是在计算向量之间的距离,通常距离越近相似度就越高。构建智慧的搜图技术,首先需要训练多模态语义模型,通过对比学习令相同语义的文字与图片距离特别近,不同语义的数据距离特别远,从而把自然语言及图片等多模态数据转换成相同语义空间下的向量;其次,我们需要使用该多模态模型编码被检索的图片;最后当我们输入一句话时,手机就会通过检索系统快速地定位与内容相匹配的图片了。
在整个语义搜图的过程中,首要的挑战是如何更好地将语义相同的图片与文字匹配起来。多模态模型需要编码用户的个人图片,最好是将模型部署在手机端侧,而部署到手机端,就意味着必须对多模态模型进行压缩与加速,这里将需要大量的工程实践。
业界首个手机端多模态语义模型
这个「智慧搜图」的背后,是华为通过轻量化的多模态语义模型,让手机可以高效理解自然语言和照片含义,实现了业界首个可端侧部署的轻量化多模态语义模型。相比传统打标签的方式,它的体验可是要好太多了。我们不再需要猜测图片的标签,直接输入自然语言就能检索到对应的图片。毫不夸张地说,它让手机本地搜图,从难用跳到了好用。
基础:多模态模型
在人工智能领域里,Transformer 是个里程碑式的技术,它既催生了 ChatGPT 这样的 NLP 技术突破,也在视觉领域上拥有非常不错的效果。通过 Transformer 对文本与图片同时进行表征,再通过弱监督对比学习拉近相同语义的图片与文字,拉远不同语义的图片与文字,我们就能获得一个不错的多模态模型。
这其中的重点在于对比学习,如下图所示,常规的对比学习方法会将图片与文本分别编码为不同的向量,并将该向量映射到联合多模态语义空间之中。因为不同模态的数据表示之间可能存在差异,无法进行直接的比较,因此先将不同模态的数据映射到同一个多模态空间,从而有利于后续的模型训练。
选自 arxiv: 2102.12092。在多模态的对比学习中,其目标函数即让正样本对(上图蓝框部分,I1T1、I2T2... )相似度很高,负样本对(上图白框部分)相似度很低。通过这种训练,自然语言天然就能和图像匹配上,不同模态的数据就能对齐。
为了提升模态间的对齐效果,华为通过提高正样本的相关性,并在算法层面对负样本去噪,再借助更大、更高质量的数据源,提升模型表征的准确性,从而提升语义搜索的准确性和召回率。与以往基于有限的标签集合给图片打标签,再通过标签来进行搜索的方式相比,基于语义表征进行搜索的方式能大幅提升图片检索的灵活性。
优化:模型的极致压缩
多模态是当前非常热门的 AI 研究领域,但除了华为的「智慧搜图」,还没有人能把整个推理过程都部署到手机端。其中的工程难点,显然在于如何将多模态模型在效果基本无损失的情况下,压缩到能在手机等边缘设备上运行。
在这里,也许我们需要考虑整个模型架构的参数效率,优化模型结构以在最小的计算量上达到最优的效果。例如卷积神经网络中 EfficientNet,Transformer 类模型中的 Multi Query Attention,它们都尝试优化模型结构以令参数效率达到更优。「智慧搜图」也一样,通过优化多模态模型架构,使得整体训练能获得更好的效果。
除了技术上的更新,部署到移动端更大的挑战还是在工程上。与平常我们在 GPU 上训练与推理模型不同,移动端缺少便捷高效的算子实现,优化起来也困难重重。举例来说,手机端的 CPU 芯片基本是精简指令集 Arm 架构的,那么机器学习编译器在做优化时就需要考虑很多指令层面并行处理,来最大程度利用有限的计算力。
针对底层硬件的优化适配,华为将模型的海量矩阵乘法分解到手机端 CPU 与 NPU 等设备上,并通过图算融合等方式构建出能在手机端高效运行的底层算子,进而支持整个模型的高效推理。
总结来说,华为「智慧搜图」轻量化模型通过更多的数据、更优的算法等补偿性设计及一些模型轻量化技术,首次将多模态模型部署到手机端,从而提供更好的图搜体验。
实用:向量检索引擎
我们期望通过图片信息、时空维度等不同线索,快速找到与心中期待相符的图片,而图片与自然语言请求都是多模态语义空间的向量。因此,华为面向端侧场景自研轻量级向量检索引擎,支持对海量数据进行向量索引构建,且支持时空(时间、地点)语义一站式融合检索,可以便捷、高效地通过 Query 语义特征找出匹配的照片。
上图是一个简单的向量检索引擎,假设移动端多模态模型已经将相册内的图片编码为一条条向量,并持久化存储到「Vector Database」中。每当用户有需要搜索的请求,该请求将通过「Embedding Model」,即多模态模型中的文本 Encoder 部分,将文本编码为一条向量,该向量会从向量数据库中搜索以找到一批最接近的图像。为了在移动端获得更好的搜图效果,华为自研的轻量化向量检索引擎做了一系列创新与优化。
在构建索引时,如果采用云侧常用的离线定期全量构建的方式,将会显著的增加功耗开销,因此华为在手机端采用增量实时写入的方式。并且出于可靠性目的,增量写入的数据会持久化到索引中。
同时,为了提高索引加载和检索的效率,索引的格式也是特别定制的,语义向量检索将地点、时间等信息作为索引的一部分,在检索时可以快速实现条件过滤,并返回与查询语句最相关的结果。只要关键字落在时间、地点等常见搜索条件,索引格式创新带来的加速,相比纯数据库检索,能快十多倍。
但定制化的索引格式也会带来一些困难,即新写入的索引数据不一定都保存在索引的尾部。例如在故宫新拍了一张照片,那么该照片向量的索引,需要插到同地点的那一部分索引当中,也就导致之前所有的索引都需要覆盖重写一遍。尤其是数据越来越多,如果我有十万张图片,难道每次拍一张照,十万多条索引都需要重写一遍?
在这里,华为再次找到了创新解法,其采用索引分段及压缩合并两种方式进行优化,索引分段能显著降低单次插入索引时间,通过定期进行压缩合并,完成已删除数据占用内存 / 磁盘资源的回收,达到了显著降低资源开销的目的。
一系列优化后,智慧搜图的能力也不仅限于高配置的旗舰级手机。除目前的 P60 系列和 Mate X3 之外,更多设备未来也会随 HarmonyOS 3.1 的升级陆续获得这样的能力。
智慧搜索:打造 HarmonyOS 生态的系统级入口
当然,最新的 HarmonyOS 3.1 版中,智慧搜图只是众多新能力的一小部分。光是搜索上,华为就带来了不少黑科技。
除了智慧搜图之外,华为智慧搜索将不断跨越不同 App、端侧设备、云端和本地的边界,实现真正意义上的全局搜索,结合华为长期实践的「软硬芯云一体化」能力,让端侧预置 AI 模型实现毫秒级响应速度,消除跨终端联动的延迟感,实现「多台设备合体」的搜索体验。
现在是以 App 为主的移动互联网时代,搜索有很大一部分已从网页转移到了更封闭的 App 上,华为智慧搜索却可以做到从一站式的入口获取全局内容,打破信息孤岛。
在打通所有边界之后,华为还通过 AI 技术实现了高效率的服务流转和更聪明的「意图搜索」能力。让搜索引擎理解人的意图,提供最合适的智慧服务,手机上的搜索框再也不是简单的查询工具。还记得四年前华为在开发者大会上发布的初版 HarmonyOS 吗?当时 HarmonyOS 的定义是一个全场景分布式系统,现在的 HarmonyOS 已经发展出了丰富的生态,下一步要做的则是统一:通过系统级能力的提升做到一个框架,掌控全局。
这种整合落到搜索上,就是无感知的大范围能力调用和响应,华为内部将其称为「全搜」能力。智慧搜索或将成为 HarmonyOS 生态的系统级入口,带来远超搜索框定义的功能与服务。
当需求不再被设备和形式所限制,一切以人为中心,这才是万物互联时代该有的样子。这也让我们对下一个 HarmonyOS 的产品,充满了期待。
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
相关阅读
-
全球讯息:华为在手机上,率先实现本地端自然语言搜图功能
机器之心原创作者:泽南在手机上用自然语言搜本地相册图片,业界首个移
-
Urtopia 推出首款搭载 ChatGPT 的电动自行车 Fusion
品玩7月4日讯,据insideevs报道,Urtopia近日推出一款智能电动自行车Fu
-
「电子果蝇」惊动马斯克!背后是 13 万神经元全脑图谱,可在电脑上运行 环球滚动
脑科学研究又进一大步!来自普林斯顿的科学家最新宣布,他们已经成功创
-
天天短讯!跨境电商三国杀,阿里、拼多多、SHEIN 决战海外
大佬亲自带队,阿里、拼多多、SHEIN决战海外跨境电商的战况越发胶着了
-
驾驶证怎么查真假?伪造驾驶证怎么处罚?
驾驶证怎么查真假?一、网上查询首先,准备一个可以上网的电脑或手机。然后打开电脑或手机地浏览器,进入...
-
环球焦点!假面骑士Geats:黑九尾情报公开,拥有毁灭世界的力量
最近网上也是公开了最新的关于假面骑士Geats剧场版中黑九尾的相关情报
-
新华每日电讯:千年瓷都成海内外青年“造梦工厂” 每日观察
新华社南昌电 记者裴剑容高皓亮程迪参与采写:朱雨诺王奕涵 在江
-
百万医疗住院都可以报销吗?报销比例是多少?|全球聚焦
根据具体情况而定。百万医疗保险主要是为了解决高额医疗费用带来的经济
-
“药店四小龙”哪家强?大参林一季度最赚钱,定增30亿再扩军 时快讯
文|记者何秀兰迈入“万店时代”,大参林(603233 SH)计划募资不超过30
-
人保的百万医疗怎么样?等待期是多久?
人保百万医疗作为一款知名的医疗保险产品,备受市场和消费者的信赖。作
-
【全球新视野】品味舍得·江河万象新限量礼盒套装上市,舍得酒业以文创精品领跑端午旺季
近年来,随着国潮兴起、文化自信回归,白酒的文化属性日益凸显。以文化
-
【世界聚看点】百万医疗保险保单怎么查?保单内容有哪些?
要查询百万医疗保险的保单信息,首先需要保险持有人掌握保险公司的名称
-
焦点要闻:百万医疗需要交多少年?一年多少钱?
根据具体情况而定。如果投保人购买的百万医疗险的保障期限是1年,那么
-
有五险还用交百万医疗吗?二者有什么区别? 环球信息
根据具体情况而定。虽然五险提供了一定程度的医疗保障,但仍有一些限制
-
奇瑞新能源下乡补贴优惠:小蚂蚁、无界Pro车型补贴5000元,QQ冰淇淋补贴1000元_当前热点
奇瑞新能源下乡补贴优惠:小蚂蚁、无界Pro车型补贴5000元,QQ冰淇淋补
-
关晓彤天然呆奶茶店被强执8.1万
近日,成都天然呆餐饮管理有限公司新增一则被执行人信息,执行标的8 1
-
腔镜吻合器龙头风和医疗冲刺IPO
6月30日,据上交所官网显示,风和医疗已提交科创板上市。据悉,风和医
-
坚持异质主机形态,任天堂下一代 Switch 性能直追 PS4
从5月《塞尔达传说:王国之泪》解禁以来,这一个多月我一直在沉浸在海
-
环球热文:只要装了谷歌相机,千元机也能随手拍大片
618刚刚结束没多久,相信有不少朋友在大促期间选购了自己心仪的手机,
-
小米对华为锁屏专利发起无效宣告请求,将于 7 月 21 日口审
钛媒体App7月4日消息,7月3日,国家知识产权局发布的口审公告显示,小
-
游戏平台隐晦封杀 AI 生成内容 Steam 称无法发布版权不明的游戏_焦点简讯
财联社7月4日讯(编辑马兰)游戏向来被认为是AI发展的舒适区。5月时,
-
对话 Adobe 首席产品官:深度解读软件巨头 AIGC 转型路,大象如何转身?
智东西(公众号:zhidxcom)编译|Glu编辑|李水青智东西7月4日消息,据
-
游戏平台隐晦封杀 AI 生成内容 Steam 称无法发布版权不明的游戏 全球视讯
财联社7月4日讯(编辑马兰)游戏向来被认为是AI发展的舒适区。5月时,
-
世界讯息:马斯克 VS 小扎“火药味”再升级!推特限制浏览量 Meta 趁乱推竞品
财联社7月4日讯(编辑黄君芝)近段时间以来,特斯拉首席执行官马斯克(
-
极氪卖车离不开沃尔沃-天天看点
图片来源@视觉中国文|陆玖商业评论6月以来,极氪一直站在车圈风口上:
-
天天快讯:销量跳水、质量问题频发,让马自达“塞车”的可不是梁家辉
本文来源:消费者报道作者:陈梓庆你坐马自达,怪不得你塞车。梁家辉在
-
《正当防卫》手游官宣取消,体验版已下架,官方主页统统关闭
IT之家7月4日消息,日前,SquareEnix负责《正当防卫》系列的全球负责人
-
当前快播:青春光芒点亮“七彩假期” 赤壁市余家桥乡2023年暑期公益班开班了!
青春光芒点亮“七彩假期”赤壁市余家桥乡2023年暑期公益班开班了!---
-
上半年百强房企销售总额同比微增0.1%,平稳发展成企业新目标
上半年百强房企销售总额同比微增0 1%,平稳发展成企业新目标2023-07-04
-
cdr高版本转低版本转换器_cdr版本转换器在线 世界最新
1、目前最好使用的CorelDraw版本是CorelDRAWX6CorelDRAW是加拿大著名软
精彩推荐
阅读排行
精彩推送
- 最低可采厚度(关于最低可采厚度...
- 焦点热文:球探报告——阿尔瓦罗...
- 全球快报:百万医疗是住院就给报...
- 全球热资讯!百万医疗的膳食费如...
- 买了重疾还要买百万医疗吗?有什...
- 每日快播:百万医疗转保是什么意...
- 热文:众安百万医疗保险是什么?...
- 三年亏超百亿,负债率再走高,悦...
- 天天时讯:Keep,一个伪装成健身...
- 微信支付“惹众怒”涨价背后的焦...
- 互联网“上四休三”有多难?
- 报道:认知AI治标不治本,叮当健...
- 天天热门:Instagram计划推出类似...
- 全球滚动:小鹏汽车6月交付新车8,...
- 华晨宝马与百度达成战略合作,将...
- 商业贿赂行为有哪些?如何治理商...
- 商住楼产权年限是多少年?商住楼...
- 身有残疾的人可以驾驶机动车吗?...
- 技术服务费是什么意思?技术服务...
- 全球热点评!中银证券:旗下FO...
- 榕树家宣布旗下中医诊所规模突破...
- 重庆缘生康中医拟申请知识产权资...
- 崇山生物合成胶原项目获千万首轮...
- 高质量发展调研行丨海南儋州:“...
- 房屋租赁营业税是什么税种?房屋...
- 报道:马斯克 VS 小扎“火药味...
- 荣耀 Magic V2 外观公布 屏...
- Zucks China & Telecy 携手...
- 世界热点评!日媒评论:半导体产...
- 半年增近千亿美元!马斯克身家涨...