每日头条!专访梅涛:多名科大校友支持创业,年底前做出超越 Stable Diffusion 的底层视觉模型
2023-06-14 13:18:00来源:ZAKER科技
机器之心报道
(资料图)
作者:姜菁玲
人工智能热潮正快速点燃 AI 科学家的创业热情。继原京东高级副总裁周伯文离职创业后,京东另一 AI 大牛梅涛同样在近日宣布创业。
今年春节前,梅涛告别京东集团副总裁一职,决心投身大模型创业。一个月后,HiDream.ai 成立,公司方向确定为生成式视觉多模态基础模型与应用。
梅涛毕业于中国科学技术大学,是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow。多年来,梅涛主要在计算机视觉和多媒体领域建树,是多媒体领域获得国际最佳论文奖最多的华人学者。目前,梅涛博士还是中国科学技术大学和香港中文大学(深圳)的兼职教授和博士生导师。
由多位中科大校友组成的投资方评价梅涛," 是一个足够有野心,且有 CEO 才能的人 "。正式创业前,梅涛与周伯文、何晓冬三人是京东 AI 部门的牵头人物,负责了京东拍照购、多模态内容审核与生成、多模态数字人、智能机械臂等技术的研发。更早之前,梅涛在微软亚洲研究院工作了 12 年,支持了微软图像、视频搜索与摘要、Office 图文混排等 AIGC 项目。
从能力板块上看,与许多 AI 科学家只拥有技术的极致长板不同,在微软与京东这两家世界五百强的职业经历一定程度上为他补充了产品与市场视角。
至今,HiDream.ai 已经成立三个月。机器之心在位于北京中关村苏州街上的 HiDream.ai 办公室看到的 Demo 显示,HiDream.ai 的模型不仅能够支持文生图,还能支持文生视频、图生视频以及文生 3D 内容。
其中,文生图产品支持输入 Prompt 生成图片,还能够对任意图片中的想要修改的部分进一步编辑。比如要求修改所生成图片的背景、主体等。
输入 " 小熊拉琴 ",文生视频产品能够生成相应的短视频或者动图。输入 " 冰激凌 ",文生 3D 产品能够实时生成具有高度真实感冰激凌的 3D 原型。红杉美国所发布的《Generative AI: A Creative New World》一文中提到,世界范围内,文生图片、视频、3D 领域的技术成熟度远远低于文生文。在大语言模型训练中面临的数据紧缺、商业边界不清晰等问题在生成式视觉模型上更为紧张。随着全球大模型生态的二八效应逐步加剧,追随者的成本快速增长。梅涛团队的初步目标是年底前在基础模型上超越 Stable Diffusion 最新版本,而在产品上则要赶超 MidJourney。
以下为机器之心与梅涛的对话:
年底前超越 Stable Diffusion
机器之心:HiDream.ai 的整体目标是什么?
梅涛:我们希望构建一个全球领先的视觉多模态基础模型,可以用一个基础模型实现不同模态之间的生成转换,支持文字到图片、文字到视频、图片到视频、文字到 3D 等不同应用。我们的整体构想是模型层和应用层一起发力。
机器之心:目前许多 AI 科学家选择在大语言模型方向创业,你在多模态视觉底层模型投入的理由是什么?
梅涛:从大的角度看,我认为人与人的交流天然就是多模态的形式,而不仅仅只是一个文字和语言的模块。
我们现在讲语言模型,其实忽略了一点,语言模型本身就应该是多模态的,而并非仅是像目前 ChatGPT 所实现的——仅仅是文字的交流。视觉信息其实占据了我们人类每天所产生和接受的信息量的 80% 以上,因此视觉是非常重要的一种模态。
其次,我是技术出身,因此创业一定是根据自身的特长。多年以来,我们在视觉领域做得非常深入,因此有足够的竞争力和全球视野。
虽然我们拿到算力资源开始训练不到 8 周,但是我们短期的目标是在今年年底前,在基础模型领域超越 Stable Diffusion,在文生图产品上赶超 MidJourney,我们相信自己可以做得更好。
机器之心:" 更好 " 会体现在哪些方面?
梅涛:现在大语言模型基本已经固化在 GPT 的架构上,只是大家用不一样的训练数据和训练技巧。并且 GPT 架构的天花板也很高,许多模型的参数量已经接近万亿级别。
但是目前的视觉基础模型却还有很大的进步空间。以被应用较多的 Diffussion 模型来看,它的天花板比较低,参数量只有十几亿到二十几亿。
所以我们就在想能不能做出一个比 Diffusion 框架更好更智能的底层模型,使得现在的视觉多模态基础模型可以从类似 GPT-2 的时代,向 3.0 甚至 4.0 时代进步。GPT-2 的时候,参数量是几十亿,GPT-3 进入了百亿。
那今天的视觉(类)模型还处于 2.0 时代,有没有哪家公司能做到百亿参数,使得模型在提升自己能力的同时甚至可以出现智能涌现。
机器之心:要做到这个目标,目前有哪些限制性问题需要解决?
梅涛:首先是数据问题。市场上高质量的图文配对以及用于视频理解训练的数据非常稀缺。
我们在冷启动的情况下,目前大概有 60 亿参数的训练数据。我们希望将来产品上线后,数据能形成一个飞轮反哺到模型,这样我们就可以实现算法和数据的双轮驱动。
其次是模型容量问题。当下就算我们给 Diffussion 模型投喂更多的数据,因为模型容量小、天花板低,它可能也记不住这么多的视觉信息。也就是说,即使我们拥有百亿级的数据,放到现有的模型里去训练,可能也只能得出 10-20 亿左右的参数。
所以我们会去增加一些强有力的补丁,比如说记忆增强。只有一个系统模型的容量大了,记忆力增强了,相当于我们人脑的神经元多了,这个时候你就能记住更多的信息和知识。
机器之心:算力问题您怎么考虑?
梅涛:我不觉得算力是一个问题。
首先,对于我们来说,并不需要像大语言模型那样需要上千甚至上万张卡。按照要将参数做到百亿这个目标去算,我们预计只需要几百张 A100,这对我们来说不构成困难。
其次,根据摩尔定律,在不远的将来,算力成本将会成倍降低,同时运算能力会指数增长,因此算力将不再是稀缺资源。
机器之心:你们的技术优势是什么?
梅涛:我们有三大技术优势。
首先是我们在视觉信号的编码方面有独到的方法。视觉信号与文字信号不一样,文字的 tokenization 相对简单,因为每个单词就是一个 token,并且它的语义也是相对固定的;但是从一张照片或一段视频中去做 tokenization,则是一个很难的问题。如果用像素作为 token,则意味着爆炸式的计算量,同时像素之间的相关性也很差。
而我们采用的方法是构建一个能够处理更高维度像素之间的视觉相关性的 Transformer 编码器(Contextual Vision Transformer),这样的好处是不仅能够显著增强视觉自注意力的学习能力,并且可以扩大视觉编码器的感受野,使得我们学习到的视觉 token 具备更强的表达能力。
其次是模型方面的创新,我们会通过训练一个单独的记忆模块,让现有模型的记忆力得到增强,能够接受和学习更多的视觉信息。
最后,我们希望能将现在的 Diffusion 框架在模型的深度和宽度两个维度做得更深,通过一些工程上的精细化调整,使得我们的模型规模能上一个量级,将来可以实现更精细化的和可控的视觉内容生成。
当然,在模型本身的理论创新方面,我自己的博士生们也在努力攻关,希望在原创模型上能有所突破。
用文生图来证明底层模型
机器之心:现在基于底层模型,你们有文生图、文生视频、文生 3D 内容三个具体应用,三个应用的研发节奏是怎样的?
梅涛:整体上,我们希望做一个通用的生产力工具,之后变成一个生产力平台,最终形成一个社区,大家在社区中去共享共创。工具化验证后,希望可以做成一个相对通用的产品线,不仅服务游戏和营销等相关领域,更多其他行业的客户可以通过调用 API 接口,或者定制模型来服务。
目前,我们是一边做模型,一边做文生图产品。文生图产品将会直接面向市场,我们正在与一些大行业客户旗下的设计师共同合作打磨产品,预计在 7 月底正式上线,年底前将实现规模化的实施。另外,文生视频我们会同步做,不过可能会在年底前推出。文生 3D 内容相对优先级较后,我们保持探索。
机器之心:为什么文生图产品的优先级是最高的?
梅涛:原因有三点。
第一,文生图是做好文生视频和 3D 的基础,如果没有好的文字到图像的模型,那我们也很难做好文字到视频和 3D,因此文生图是基础。
第二,我们希望用文生图的产品来验证自己的底层模型能力和商业化路径,也可以在效果上很快就能做得比现有模型好。
第三,先做文生图,也是因为文生视频和文生 3D 在技术和市场上仍然处于早期,需要一定的时间去探索。
机器之心:你如何理解这三者的市场空间?
梅涛:文生图的市场空间其实很大。参考 MidJourney 只有 11 个人的团队,已经做到超过 1 个亿美金的收入了。
在文生图的商业化上,我们目前希望切入产品设计和营销这两个价值链中最重要也是最普遍的环节。在产品设计上,我们希望首先面向专业设计师群体,通过可控、可交互的图片生成服务,帮助他们更好地实现创意,提升生产力,让设计师形成较好的使用和付费习惯,之后再不断外延到 UGC 用户。
全球有 9000 万设计师,中国有 2000 万,设计师所面临的痛点主要在于没有足够多的创意,以及验证创意的成本太高。我们希望这个工具可以帮助设计师提升个人的竞争力,可以帮助他们快速产生更多更好的创意,并加速生产流程。
而文生视频的市场空间会比文生图赛道更大,它可能会颠覆目前短视频的玩法。参考目前用户对短视频内容的大量消费情况,当 PGC 验证过后,文生视频工具在 UGC 领域的需求会是颠覆性的爆发。同时,文生视频目前还没有一家可以做到像素级丝滑(没有任何抖动)的生成,可提升空间很大,当然技术壁垒也是非常的高。
文生 3D 在游戏和 AR/VR 领域的想象空间则非常大。我们在做游戏领域的客户访谈时发现,客户最大的需求在 3D 内容创建。我们团队本身在 3D 方向拥有很多学术积累,虽然目前整体技术还很不成熟,但是值得探索。
机器之心:那么文生图将会是你们第一个面世的产品。从去年到现在,许多大厂和小厂都在文生图赛道上做了尝试。此刻切入这个市场,你们的优势是什么?
梅涛:目前文生图赛道确实很卷,市场竞争非常激烈。我们看到虽然很多公司做得还不错,但仍然有人脸、手指、景深、可控性等很多技术问题没有解决。
从技术上讲,市场上的众多文生图产品,相当于一桌满汉全席,各家有不同的搭配方法。我们清晰地知道这些是怎么搭配的,因此我们知道怎么去更好地去把这一桌菜做搭配。
从结果上看,我们模型迭代的速度很快,不到 6 个礼拜就从 0 到 1 研发并迭代了一个相对稳定的模型,其他团队可能需要几倍的时间。别人可能需要训练十次才能拿到一个比较满意的结果,而我们只需要两三次。
市场方面,我们是面向全球市场。而且文生图只是我们基于底层视觉模型来打样的一个产品,对于其他的文生图公司,我们本质上也并非竞争关系,未来他们也能够选择调用我们的基础模型来做微调(finetuning)训练或直接使用我们的 API 接口服务。
ChatGPT 的出现加速了我的创业进程
机器之心:你此前的职业路径都在大厂。创业这件事,在你的预期之中吗?
梅涛:在。我之前的职业生涯实际上是在有意识的为创业做准备。在微软期间,我主要在技术方向上磨练,之后去到京东,所做的工作离产品和市场更近了,帮我补充了技术之外的视角,是一段非常好的经历。
但没有预料到的是 ChatGPT 的爆火,为生成式 AI 带来了爆炸式的热度,这加速了我的创业计划。但即使没有这件事,我仍然会创业,早晚的事。创业这件事,在我看来,一辈子注定要做一次;如果不做,我会后悔。
另外,我创业的一个重大原因是大厂的节奏相对比较慢,而我做事特别快,我认为创业公司在节奏上会快很多。因为在这个赛道上我们已经比国外落后了 9 个月甚至 1 年,所以我认为应该用更快的加速度去追赶、甚至超越它,而不是说按部就班地去做。
我现在经常拿着背包,时刻准备着出差。有时我不知道明天会在哪个城市,感觉创业的生活有点像我们现在所做的 Decoding,每天都在解锁未知的事情,很辛苦但也很充实!
机器之心:你认为这次的人工智能创业潮与以往的有什么区别?
梅涛:这次人工智能创业的门槛非常之高。在模型层,需要你有高密度的算法科学家,其次还需要有足够的算力,足够的数据。以往的判别式 AI 公司(如人脸识别),虽然有头部公司,但是小公司跟随起来不是特别费劲,但是现在完全不同。
机器之心:公开资料显示,你已经完成了来自阿尔法公社、中喝大种子一号基金参与的种子轮融资,近期还将完成第二轮融资。目前公司在人才和资金方面的进展如何?
梅涛:公司已经运营了接近三个月的时间,目前我们的办公场所,还有早期的人才和算力已经基本到位。
资金方面,我们正在采用小步快跑的模式快速迭代,种子轮只是起步资金,今年年底前预计会分两轮完成数千万美金额度的天使轮融资。下一轮资金将用来扩张团队、购买算力资源以及商业化探索。目前团队共有十一人,预期在年底前会扩张到二十至三十人左右。我希望构建一个小规模的精干团队。
机器之心:听下来年底对你们来说是一个比较重要的节点。那接下来的半年,你们会着重解决哪些问题?
梅涛:第一个是模型方面,我能否将它做到百亿级,模型效果在参加评测时能否对标甚至略超过目前的模型;其次,在文生图产品上,我们的效果能不能超过目前世界上最好的公司;第三,我们内心完整的商业模式能否得到初步验证,比如我们能否服务好行业中的小 B 客户以及我们的用户到底喜不喜欢我们的种子产品,这对我来说是很重要的指标。我未来的半年主要就是把这三件事做好。
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
相关阅读
-
每日头条!专访梅涛:多名科大校友支持创业,年底前做出超越 Stable Diffusion 的底层视觉模型
机器之心报道作者:姜菁玲人工智能热潮正快速点燃AI科学家的创业热情。
-
诈尸?曾被公认最好用的手机系统,回归了?
近日,iOS17发布,带来的新功能有一项StandBy,它能让用户在iPhone充电
-
角逐印度手机市场,小米、OPPO 们遇到了「新挑战」_今日精选
在全球手机市场逆增长的今天,印度正在成为各大手机厂商竞相抢夺的市场
-
传沙特与华人运通签署近 56 亿美元协议 或成立汽车研发、制造与销售合资企业 世界热头条
据沙特国家通讯社报道,沙特投资部于6月11日与华人运通签署了一项价值2
-
AI 下一步已明确!黄仁勋预测的方向,特斯拉和 OpenAI 疯狂追赶 独家
大厂、初创都在卷,未来已来作者|椎名编辑|Zuri首图来源:Dribbble没能
-
西安基础教育“洗牌”之后,民办学校怎么样了?_全球速递
教育历来是最受关注的热门话题之一,基础教育更甚。尤其是双减、义务教
-
苹果大跳水,安卓厂商能顶住吗? 今日要闻
图片来源@视觉中国文|伯虎财经,作者|陈平安今年618,有朋友向我求助了
-
世界焦点!拓维信息杀跌,“散户大本营”被套!CPO 概念股继续暴涨!比赛报名火热,赶紧上车角逐大奖!
粉丝朋友们,周三上午,人工智能板块出现分化,CPO概念继续飙升,如华
-
psp神奇电池是什么?psp神奇电池使用方法
psp神奇电池是什么?神奇电池来源于索尼官方的一个修理PSP的工具。PSP在升级时可能由于断电、强烈震动、...
-
骁龙626处理器怎么样?骁龙626与660差距大吗?
骁龙626处理器怎么样?骁龙626属于中低端手机处理器,一般日常上网、运行软件没有问题,采用16纳米制程,...
-
小米48亿将被印度没收?小米官方回应!【附小米营收结构】
独立国际策略研究员、前中国人民大学国际货币研究所研究员陈佳认为,包
-
全球今热点:光明一生养老年金险怎么样?值得购买吗?
光明一生养老年金险是光大保险旗下的一款养老险产品,旨在为客户提供全
-
热讯:泰康理财保险可靠吗?一年多少钱?
可靠。作为一个知名的保险公司,泰康保险在市场上拥有较高的知名度和口
-
年金险是什么?在哪里买?
年金险是一款以缴纳一定保费为代价,向保险公司购买的一种保险产品。其
-
当前信息:意外险查询平台有哪些?怎么买划算?
1、保险公司官网:各大保险公司均有自己的官方网站,用户可以在其中查
-
人保健康百万医疗险保什么?靠谱吗? 每日快讯
人保健康百万医疗险是一款专门针对高端客户推出的医疗保险产品。该产品
-
张家港行换帅,董事长将改任督导员|最资讯
文|记者黄宇昆近日,江苏两家上市农商行的董事长进行调整。图源:图虫
-
Stellantis:正在评估特斯拉充电标准|全球资讯
Stellantis:正在评估特斯拉充电标准盖世汽车讯据外媒报道,Stellantis
-
前沿资讯!韩国楼市崩溃,首尔成交量暴跌70%
以扩大实施流动性供应,稳定国内金融市场稳定。
-
【全球独家】苹果股价直逼 3 万亿美元 瑞银却下调评级:iPhone 销量将走下坡路
财联社6月14日讯(编辑周子意)苹果股价在2023年以来一直都在走高,累
-
每日速读!余承东:阿维塔将搭 L3 驾驶辅助 比特斯拉更好更安全
近日,华为常务董事、终端BGCEO、智能汽车解决方案BUCEO余承东表示:L3
-
再次出手减持,百度携程加速切割
在政策的管控和降本增效的大背景下,互联网大厂最近两年持续削减投资版
-
「小白」2023 年中旗舰性能大横评:谁能征服星穹铁道? 当前视讯
——ZAKER,个性化推荐热门新闻,本地权威媒体资讯
-
小米空调牵手松下 将联合打造家电新品|环球今日讯
【宅秘新闻】自2018年小米推出第一台空调,到2022年米家首款自研空调面
-
占据全球超 80% 的份额,这可能是中国最混乱的暴利生意|全球快看
使用量过载的疫苗,在中国人身上显得犹为沉重。来自卫生部公开资料显示
-
观焦点:2023 年了,PD-1 还值得关注吗?
图片来源@视觉中国文|医曜庞大的适应症群(针对血液瘤和实体瘤均有效果
-
每日热门:年轻时跃入大城市,然后呢?
CityLab生活节在饮茶文化保留较好的成都、广东地区,采耳、擦鞋、占卜
-
1 亿元!华中师范大学收到建校以来最大一笔捐赠!捐赠企业老板是他,身家 150 亿元|全球时讯
据长江日报,6月12日,新产业投资股份有限公司向华中师范大学捐赠1亿元
-
丰田汉兰达,骗不动中国人了
出品|虎嗅汽车组作者|李文博编辑|周到头图|微博@丰田章男你知道理
-
化纤行业发展趋势及市场现状分析_世界观察
化纤行业发展趋势及市场现状分析化纤行业发展趋势及市场现状如何?随着
精彩推荐
阅读排行
精彩推送
- 再生金属行业发展趋势及市场现状...
- 视听新媒体行业发展趋势及市场现...
- 中国自主研发高端数控机床实现突...
- 央行降息最新消息 2023 央行“...
- 海南省养老金调整细则将出 2023...
- 共享打印机连接错误0x0000011b_...
- 车辆保险多少钱一年?怎么买划算...
- 年金险几年交最好?怎么买划算?
- 即时看!增额终身寿险避债避税吗...
- 等待期30天的重疾险有哪些?怎么...
- 天天微头条丨线上理财保险靠谱吗...
- 哪吒汽车CEO张勇:“去掉眉毛”...
- 特斯拉开启“节衣缩食”?招聘职...
- 纪委属于什么机关?监察委和纪检...
- 无形资产包括哪些种类?无形资产...
- 征地的补偿标准如何?征地补偿标...
- 差额选举的方式有几种?差额选举...
- 轩凯生物冲刺科创板IPO
- 新动态:上海:加快“元宇宙”技...
- 分析师称苹果 iPhone 和 Mac...
- 热讯:微软:站上云巅
- 苹果 Vision Pro 混合现实耳...
- 焦点快播:微软宣布终止 Win10...
- 不可抗力是什么意思?不可抗力因...
- 韩团成员文彬自杀身亡 母亲悲痛...
- 行政许可和行政审批有什么区别?...
- 当前消息!拉萨市城关区首届“日...
- 工程质量事故和安全事故有什么区...
- 什么是累犯?累犯一般判刑加重多少
- 离婚和离异有什么区别?离婚孩子...