最新资讯:大模型时代,商汤造“工厂”
2023-04-12 10:06:13来源:ZAKER科技
2018 年冬天,临港成为上海自贸区新片区的时候,特斯拉没有 Model Y,OpenAI 没有 ChatGPT。
眼下,这两块招牌背后,电动汽车和生成式 AI 已是当下全球产业中最热闹的两件事。甚至前者在 AI 展现的新能力映衬下都显得有些 " 传统 " 了。
越来越多的人隐约有一种生活状态将被颠覆的感觉。电动汽车给埋在发动机旁边一百多年的油罐做了分离手术,如果越来越多人现在已经习惯了这一点的话,ChatGPT 又扛着新的 AI 大旗说,不止出行方式,整个人类的生产方式——人类如何获取知识,如何写代码和工作方案——都要彻底改变了。
(相关资料图)
上海临港悄然站到了这两场变革的关键位置。
现在这里是国内场景最丰富的自动驾驶测试场。特斯拉在美国本土之外的首座超级工厂几年前落在这里,另一座特斯拉储能超级工厂几年后也会在这里落地——同样的,如果越来越多人现在已经习惯了这些的话——距离特斯拉超级工厂 3 公里外的一座人工智能计算中心(AIDC)则正在愈发引来新的注目。
这个建筑面积接近 20 个足球场大小的空间里,安置了 5000 个服务器机柜和多达 27000 块 GPU,背后的建造者是商汤科技。
与这个 AIDC 的建造相隔不久,商汤科技在 2019 年第一次推出了自研的 CV(计算机视觉)模型,用 10 亿的参数规模实现了当时业界最好的算法效果。两年之后,商汤开始训练 30 亿参数的多模态大模型 " 书生 ",并在 2022 年开源。
4 月 10 日,商汤科技 CEO 徐立出现在临港 AIDC 的现场,背后是一张 AI 生成的图案,画面上是一个人类宇航员正在走入一个新的科技世界。
这个在复杂而具体的商业场景中成长起来的中国 AI 公司,正式拉开了自己的大模型叙事。一整套大模型
商汤大模型研究的起点,可以回溯到 4、5 年前。
数据库 ImageNet 项目中有 1400 万张手动标注的图像,是目前世界上最大的视觉数据库。任何一个 CV(计算机视觉)模型都绕不开它。在利用 ImageNet 训练 AlexNet 模型时,可以大致衡量一个 CV 大模型的学习能力。
2019 年,商汤科技团队和新加坡南洋理工大学的研究者一起,用 512 块 GPU 把在 ImageNet 数据集上训练 AlexNet 的时间缩短到 90 秒,大幅提升此前腾讯用 1024 块 GPU 创造的 4 分钟最短时间。
数据库 ImageNet 项目中有 1400 万张手动标注的图像,是目前世界上最大的视觉数据库。利用 ImageNet 训练 AlexNet 模型的耗时,是高性能 AI 训练和计算的一个衡量尺度,关乎 AI 生产及后续迭代的研发效率。这次性能突破在行业之外并不惹眼,但对商汤科技在大模型研发中的架构能力发展意义重大。
商汤科技从 2018 年开始了 AI 大模型的研发,一年之后已经具备了千卡并行的系统能力。那两年是商汤在大模型研发的起步。2019 年,商汤自研了一个 10 亿参数的 CV 大模型,实现了当时业界最好的算法效果。
这个 10 亿参数的模型现在已进一步发展成一个 320 亿参数量的、全球最大的 CV 大模型,并且从去年开始在自动驾驶、工业质检等多个领域发挥作用。而这个 CV 大模型现在只是商汤科技大模型体系中的一个。
4月 10 日的上海临港 AIDC,商汤科技首次公布了 " 日日新 SenseNova" 的大模型体系。同样首次公布的,还有在 NLP(自然语言处理)、AIGC(人工智能内容生成)领域的多个 AI 大模型。
图源:商汤科技依托于千亿级参数的 NLP 模型,商汤科技发布了最新的自研中文语言大模型应用平台 " 商量 SenseChat"。
如同名字的字面意思,生成式自然语言大模型最重要的能力并不只是问答,在与人的多轮对话中步步逼近精准答案的能力同样重要。这考验着大模型在语义理解基础上的逻辑推演水平。
徐立在现场实时演示了如何用 " 商量 " 来完成童话故事的续写、邀请函的文本创作和细节修改。在展示中," 商量 " 已经具备相当的逻辑推理能力,并且在多轮对话中展现了不错的上下文理解水平。
图源:商汤科技商汤科技也展示了语言大模型支持下的几项创新应用,比如帮助开发者更高效地编写和调试代码,或者为用户提供个性化的医疗建议。值得一提的是," 商量 " 在短时间内完成了对一整部《专利法》的理解,并且能够顺利的从中提取和概括信息来回答问题,答案准确。这显示这个语言大模型也具备了一定的对超长文本的理解能力。
图源:商汤科技基于这个大语言模型,商汤科技发布了包括 AI 文生图创作、2D/3D 数字人生成、大场景 / 小物体生成等一系列自研的生成式 AI 应用。
文生图创作平台 " 秒画 SenseMirage" 展现了光影真实、细节丰富、风格多变的强大文生图能力,可支持 6K 高清图的生成;客户还可根据自身需求训练生成模型;AI 数字人视频生成平台 " 如影 SenseAvatar" 仅需一段 5 分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。
图源:商汤科技" 琼宇 SenseSpace" 和 " 格物 SenseThings" 则是两个 3D 内容生成平台。基于神经辐射场技术(NeRF)," 琼宇 SenseSpace" 具备城市级大尺度的空间重建生成能力,只需要 2 天即可完成 100 平方公里的空间生成(算力为 1200 TFLOPS 的标准下),建模效率相当于传统人工建模的 500 人水平;" 格物 SenseThings" 可实现各品类物体,包括光照和材质维度在内的细致还原,并且支持如航天器模型、室内盆栽等复杂结构物体的复刻。两套平台生成的各类 3D 内容都能够进行再编辑再创作。
图源:商汤科技从 " 秒画 SenseMirage"、" 如影 SenseAvatar" 到 " 琼宇 SenseSpace" 和 " 格物 SenseThings",可被视为一个完整的视频内容的制作和生成工具平台。人、物到空间的数字化闭环都包含在这套生成式 AI 应用矩阵里。将为未来短视频、直播产业带来生产力的提升。
这些都归于商汤科技 " 日日新 SenseNova" 的大模型体系之下。
徐立表示,这个名字取自《大学》的第三章中,汤之《盘铭》的一句 " 苟日新、日日新、又日新 "。商汤科技也希望商汤大模型体系的迭代速度及处理问题的能力上可以日日更新。
做大模型,也做流水线工厂
一个大模型里,参数量与处理数据量的乘积,就是所需要的计算量。
Meta 在今年 2 月发布了语言模型 LLaMA,这个仅有 130 亿参数的语言模型在性能表现上超过了拥有十倍于它(1750 亿)参数的 GPT-3,这或许是一个新的趋势。
当计算量由于有限的可调用资源而被设定出一个上限时,大模型的迭代开始变成一个参数量与数据量的分配问题。大量权重会给到数据,因此现实场景中的垂直领域大模型,其参数量不能肆无忌惮的增长。
从一个通用的千亿(甚至万亿)大模型里追求智能涌现,然后蒸馏出百亿或者数十亿级参数规模的大模型,以此为垂直领域大模型的训练起点,这是目前 AI 领域大模型落地的研发思路。因此对于最终意在服务于具体场景的商汤科技来说,一个通用、全修的大模型是必须的。
但这只是基础。
从生产方式上,此前人类历史上闪耀的算法模型,从谷歌、抖音的信息流算法,甚至到 Bert 与 GPT-3,某种程度上都仍然出自小模型时代模型的生产方法。
在 ChatGPT 劈开红海后,关于大模型最曲折的一段共识道路已经走完。当大模型开始规模化的成为一种生产力工具,其批量生产所需要的算力以及资源效率需要一个新的生产范式。
这意味着大模型的研发已经从一场思维竞赛,过渡到一个数据获取和算力调配的效率竞赛。
" 很多人认为,只要买了这么多 GPU,就可以去搭建超大规模的训练集群,这是很大的误区。其实训练人工智能大模型,造超级 AI 计算机去完成任务,我认为是工程的奇迹。" 陈宇恒表示。
过去 5 年,超大参数 AI 大模型的参数量几乎每一年提升一个数量级。过往的 10 年,最好的 AI 算法对于算力的需求增长超过了 100 万倍。但算力并不只是 GPU 数量的正相关。上万张 GPU 的并行效率背后是系统架构和网络架构设计的复杂工程。否则,虽然 1 万张卡和 1000 张卡理论来说是有 10 倍的训练速度,但实际上可能 1 万张卡只能有 1000 张卡 2 倍的训练效率。
集群框架的设计,数据存储等因素都是修炼大模型时需要前置的问题。换句话说,大模型的修炼开始普遍成为一个工程学问题。
如何让大模型的生产范式从小作坊转变到流水线工厂——汤科技希望临港 AIDC 能成为那个工程学答案。
为什么是商汤
临港 AIDC ——或者叫做 "SenseCore AI 大装置 " ——正是为此而搭建的。这是一个巨大的算力中心,也是一个融合了 " 大模型 + 大算力 " 体系的研发实体。
临港 AIDC 图源:新民晚报临港 AIDC 在算力规模、并行训练能力以及稳定性方面的基础素质,使其可以为大模型研发提供强大的驱动力。
SenseCore 商汤 AI 大装置目前包含 27,000 块 GPU,可输出 5000 Petaflops 算力,是亚洲最大的智能计算平台之一。
以巨大算力规模为基础,SenseCore AI 大装置目前可支持 20 个千亿参数量的超大模型同时训练,并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务体系,并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务体系。
在 AI 大模型时代,衡量算力能力和核心指标不是简单的数字,其一是多卡并行状态下的有效利用率,即能够支撑大模型训练的实际算力;其二是系统能够持续稳定运行的时长。
SenseCore AI 大装置拥有出色的并行计算能力,能够以最大 4000 卡规模集群进行单任务训练,并可做到七天以上不间断的稳定训练。SenseCore AI 大装置在 2022 年已支持了超过 10 个大模型训练项目,其中不仅有商汤自身的大模型训练项目,也包含了一些其他企业自定义的模型训练任务。在 4000 卡规模集群的训练关键指标达到世界领先之后,SenseCore AI 大装置将为商汤科技未来万亿级参数规模的大模型训练提供基础。
算力层、以及平台层和算法层的三层结构组成了 SenseCore 商汤 AI 大装置的整体架构。基于 AI 大装置和 " 日日新 SenseNova" 大模型体系,商汤科技也将面向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务(Model-as-a-Service)。
图源:商汤科技某种程度上,大模型算法本身是大模型在实际场景落地中那个最容易跨越的环节,更多的矛盾集中在后续的工程能力,以及成本控制上。垂直领域大模型近年在技术上已经开始越过工业红线,但它的成本仍然太高。换句话说,AI 已经证明了 " 能不能 " 的问题,接下来的问题是 " 够不够便宜 "。
这些都是 SenseCore 商汤 AI 大装置在数据标注效率、模型部署成本等环节希望解决的问题。
" 它不单是说在 AI 的生产上做了产品的壳,它是提供了一整套工具和产品以及解决方案,把人工智能大模型的新的生产范式去做整体的商业化,以及对外的服务,去推进人工智能领域的整个商业化的发展。" 陈宇恒这样描述 SenseCore 商汤 AI 大装置的角色定位。
换个角度,SenseCore 商汤 AI 大装置是一套 IaaS+PaaS 的产品体系。
从每个模型单独标注数据、单独训练的模式的 " 小作坊 " 模式,过渡到由少数大模型不断生产、迭代进化,由大模型支撑领域模型升级,再通过精调等手段,生产行业及场景模型,迅速达到应用标准的 " 流水线 " 模式。商汤科技需要这样一个大模型生产 " 工厂 ",在未来大量新的 AI 大模型的研发过程中尽早和产业场景做结合,从研发端开始压缩这条技术链路。
这决定了大模型研发降本增效的程度,AI 在生产和应用端的成本降低会引导出新的商业模式,这最终会缩短 AI 与现实的距离。
一位国内自然语言公司的从业者曾对品玩表示," 技术和场景,一家 AI 公司好只选一头 "。这句话的背景是 2016 年左右人工智能在国内激起的第一波浪潮,言下之意,彼时一穷二白的人工智能初创公司,需要集中精力先生存。
商汤科技也是在那一次浪潮中涌现出来的人工智能公司,但却是其中少有最终完成上市的一个。现在新的大模型浪潮涌动,作为一家人工智能平台型公司的商汤科技,面临的局面也今时不同往日。
当下大模型竞争的重要参与者,微软、Google 包括近日推出 Segment 的 Meta,大模型的背后都是坚实的场景支撑,并且两者会在很早期就开始融合。商汤的处境相似,一家人工智能公司要长久保持技术活力。需要在技术和场景两端同时建立脉络。
" 技术和商业要齐头并进 ",陈宇恒表达了类似的判断。这既是说大模型要尽早的进入现实环境中去自我优化,也可以理解为未来大模型的研发过程本身就要尽早放入相应的产业语境里来完成,以产品的形式来形成用户反馈的闭环。
而已经走入智慧汽车、智慧城市等领域产业深处的商汤科技,需要承担起这个未来大模型生产方式变革中的基础设施角色。
责任编辑:hnmd003
相关阅读
-
环球热文:首届开源鸿蒙 OpenHarmony 开发者大会 2023 定档 4 月 19 日
品玩4月12日讯,据OpenAtomOpenHarmony官方宣布,OpenHarmony开发者大会2023将于4月19日在北京召开。据...
2023-04-12 -
华为鸿蒙 OS 真不是安卓!全球第三大系统全速增长 首届开源鸿蒙开发者大会来了_环球关注
快科技4月12日消息,首届开源鸿蒙OpenHarmony开发者大会终于要来了,4月19日正式就行,而大会的战略伙伴...
2023-04-12 -
【新要闻】97 版三兄弟代言!《天龙八部 2:飞龙战天》4 月 14 日公测:完美世界发行
快科技4月12日消息,《天龙八部2:飞龙战天》官方已宣布,将于2023年4月14日上午9:00正式开启公测。此次...
2023-04-12
相关阅读
-
最新资讯:大模型时代,商汤造“工厂”
2018年冬天,临港成为上海自贸区新片区的时候,特斯拉没有ModelY,OpenAI没有ChatGPT。眼下,这两块招牌...
-
环球热文:首届开源鸿蒙 OpenHarmony 开发者大会 2023 定档 4 月 19 日
品玩4月12日讯,据OpenAtomOpenHarmony官方宣布,OpenHarmony开发者大会2023将于4月19日在北京召开。据...
-
警惕冒充公检法诈骗!骗子发来“逮捕令” 呼市一市民被骗一百多万元......
呼市公安局反诈中心赵书锐:“第一步就是获取我们的信任,诈骗分子应该是通过一些非法渠道获取到了李女...
-
快报:紧盯春耕备耕生产关键节点 严打制售假劣农资犯罪 我区破获农资领域刑事案件13起 涉案金额6069万元
据了解,今年初,内蒙古公安厅将严厉打击农资领域犯罪列为2023年全区公安工作的一项重要内容部署各地推...
-
天天观热点:警方侦破一起冒充领导重特大电信诈骗案涉案金额达198万余元
针对这起重特大电信诈骗案,反诈民警提醒:如遇到自称领导的人通过短信、微信、QQ等聊天工具添加好友,...
-
什么是钓鱼网站?钓鱼网站如何获取个人信息的?
什么是钓鱼网站?钓鱼网站是指欺骗用户的虚假网站。钓鱼网站的页面与真实网站界面基本一致,欺骗消费者或...
-
美股反弹难续?富国银行:未来 3-6 个月内标普 500 将回调 10% 热文
财联社4月12日讯(编辑黄君芝)富国银行(WellsFargo&Co )旗下证券部门股票策略主管ChrisHarvey周二表...
-
微资讯!包头市多点发力推进“无废城市”建设
近年来,包头市深入推进“无废城市”建设,从政策引导、标准制定、监督管理和科技创新四方面发力,持续...
-
大超预期!3 月社融新增超 5.3 万亿,债市为何无视利空?80 家房企融资环比增长超 4 成:焦点关注
债市要闻【3月社融大超预期,为何债市无视利空?通缩或是核心关切】据财联社报道,4月11日,央行公布的...
-
包头:口袋公园装满百姓美好生活:环球今日报
近年来,包头市绿化建设充分体现以人民为中心的城市建设理念,通过建设一批小微绿地、口袋公园等,推进...
-
头条:巴菲特又卖出比亚迪!伯克希尔哈撒韦持股比例降至 10.9%
财联社4月11日讯(编辑周新旸)巴菲特旗下伯克希尔·哈撒韦减持比亚迪的步伐还未停止。根据港交所4月11...
-
全球要闻:包头:北方股份公司晋级自治区科技领军企业
日前,内蒙古自治区科技厅发布2022年度科技领军企业名单,北重集团北方股份公司榜上有名。-内蒙古财经网
-
世界快看点丨包头市青山区:感受一场贯通古今的婚俗文化盛宴
4月8日,包头市青山区第六届“知往鉴来·知仪鉴礼”时代秀集体婚礼、第六届“甜蜜鹿城·青春有约”青年...
-
全球新动态:今年一季度 西藏旅游总收入超20亿元
进入4月,西藏开始柳绿花红,各地旅游市场加速回暖,各景区、乡村旅游景点迎来游客热潮。
-
西藏经营主体总体发展态势较好 总量达44.89万户 当前信息
近日,记者从西藏自治区市场监督管理局获悉,截至3月底,全区经营主体总体发展态势较好,总量达到44 89...
-
当前动态:西藏阿里地区第二届网络影像节颁奖典礼举行
近日,“天上西藏·秘境阿里”第二届网络影像节颁奖典礼在西藏自治区阿里地区举行,为广大网络影像爱好...
-
2022年西藏樟木口岸农产品出口贸易值达2.25亿元 环球聚焦
近日,记者从拉萨海关获悉,2022年西藏自治区樟木口岸农产品出口贸易值达2 25亿元、贸易量达2 96万吨...
-
今年西藏将继续实施“播雨”行动计划_世界时讯
利用科技手段干预天气,可增加雨雪、防止冰雹灾害等,造福人类。
-
olt设备是什么意思?olt设备和交换机的区别
olt设备是什么意思?olt是光线路终端的简称,是用于连接光纤干线的一种终端设备。OLT设备是重要的中央局...
-
jar是什么文件?jar文件用什么打开方式?
jar是什么文件?在软件领域,JAR文件(Java归档,英语:Java Archive)是一种软件包文件格式,通常用于聚...
-
ps路径是什么?ps路径怎么填充颜色?
ps路径是什么?路径(PATHS)是PS中的重要工具,其主要用于进行光滑图像选择区域及辅助抠图,绘制光滑线条...
-
我心中的那一曲长生殿作文怎么写?我心中的那一曲长生殿作文范文? 环球今热点
我心中的那一曲长生殿作文爱是长生殿。《长生殿》是一首昆曲,如其他昆曲,咿咿呀呀个半天,所以歌词我...
-
2023司机个人年终工作总结怎么写?2023司机个人年终工作总结文稿?|报资讯
2023司机个人年终工作总结(精选13篇)时间如流水,转眼间我们又将迎来了新的一年,回望过去一年的工作...
-
全球资讯:感恩老师满分作文400字怎么写?感恩老师满分作文400字范文?
感恩老师满分作文400字苍鹰、小鸟感恩蓝天,是因为蓝天给了他们一个温暖的家,我感恩老师,是因为老师给...
-
微笑着面对优秀作文怎么写?微笑着面对优秀作文范文?
微笑着面对优秀作文光阴似箭,日月如梭。在时空的隧道,人生只是一瞬间。在这短短的瞬间,任何人都有过...
-
每日速读!感恩节的作文怎么写?感恩节的作文范文?
有关感恩节的作文(通用32篇)在学习、工作乃至生活中,大家最不陌生的就是作文了吧,作文可分为小学作...
-
描写春天景色的作文怎么写?描写春天景色的作文范文?
描写春天景色的作文【热】在平时的学习、工作或生活中,大家或多或少都会接触过作文吧,写作文是培养人...
-
珍惜生命作文怎么写?珍惜生命作文范文?_观焦点
珍惜生命作文(精选7篇)在日常学习、工作和生活中,大家都经常看到作文的身影吧,作文是人们把记忆中所...
-
《秦兵马俑》教案设计怎么写?《秦兵马俑》教案设计范文?
《秦兵马俑》教案设计篇一:秦兵马俑教学设计及反思《秦兵马俑》教学设计:四、教学过程:一、师导入:在...
-
当前关注:怎样选择网球拍?选择网球拍主要看哪几方面?
怎样选择网球拍导语:网球拍是生活中很常见的,它的打网球的工具,在对它选择上,都是不能随意的进行,...
精彩推荐
阅读排行
精彩推送
- 错过的风景作文怎么写?错过的风...
- 什么是html语言?html语言标记区...
- 图片透明度越高越透明吗?ppt如...
- 长相伴太平洋保险靠谱吗?多少钱...
- 头条:长相伴庆典版终身寿险的特...
- 香港保险分红实现率是多少?怎么...
- 人寿保险的国寿福终身寿险好不好...
- 招商人寿仁和保险靠谱吗?客服电...
- 天天通讯!香型争霸战:酱酒不再...
- 充电线中6A是什么意思?充电线中...
- 东方甄选奖励154人8.83亿港元,...
- 环球热点!马斯克被曝暗中购买上...
- 消息称前理想AI芯片一号位骄旸加...
- 环球热推荐:小鹏汽车智能化的思...
- 环球微速讯:办税大厅来了“小小...
- 检察机关能动履职 企业安享优质...
- 190余幅作品亮相昆区师生书法作品展
- 【环球速看料】文明实践在行动|...
- 达茂旗清洁能源企业一季度发电量...
- a1530是苹果什么型号手机?A1530...
- 网络电缆是哪一根?网络电缆被拔...
- gsm网络是什么?gsm网络由几部分...
- 驱动器中没有磁盘怎么解决?驱动...
- 巴西总统卢拉将于4月12日至15日...
- “五个一百”,用主旋律奏响凝心...
- 每日观察!开局之春话经济丨规模...
- 世界速递!消博会有多好逛?八大...
- 华为鸿蒙 OS 真不是安卓!全球...
- 选择一加 11 木星岩限定版的 ...
- 快讯:持续加码云平台,申港证券...