首页 > 新闻 > 智能 > 正文

全球微资讯!微软许建志:AI-First App,一个既残酷、又美好的时代

2023-05-22 18:27:58来源:ZAKER科技  

责编 | Carol

出品 | CSDN(ID:CSDNnews)

内容编辑应该都有做网站专题的经历,通过给定网站模板套用来搭建页面。这样确实方便,但问题是对于千变万化的内容,并非几套,或者数十上百套模板就能够尽情呈现精华,更不用说在找模板匹配内容上花费的大量时间。


【资料图】

还有一种方法,是直接在 " 代码丛林 " 中找到合适的代码,用 HTML 构建页面框架结构,可以自行调整内容的布局、字体、颜色等外观属性。然而,编辑毕竟不是程序员,稍有不慎便迷失在大量代码中,搞出一推 Bug 还得前端来查找修改,反而浪费了更多时间。

事实上,内容专业不懂技术,技术专业不了解内容——是不分产业领域和工作职能,所有公司都头痛的问题。解决方法无非让内容人会写代码,或者让技术人做出 " 傻瓜式 " 呈现工具,前者不切实际,而后者却是大模型时代下 AI 能够为产业带来的最大变革所在。

然而,GPT 能够实现的便捷化 " 威力 " 有目共睹,但当它实际落地,又会以什么形式呈现?对此,微软首席产品经理主管许建志认为,是如何运用 AIGC 的方法,通过自然语言直接生成网站:

" 去年微软总部给到我们建议,让根据内容自动提供 SharePoint 网站主题的设计 , 在大致了解市场格局之后我们发现,已经有很多 Web 厂商在着力开发这块儿。为了避免做 "Me too" 的产品苦苦追赶,我就突发奇想,如果把高度拉高 , 直接做网站的生成,就可以呈现完整的,包含内容、图片、设计、排版的页面 , 甚至可以设定网站内容的层次结构,更加贴近用户需求,从而直接使用。"

就这样,text-to-site 应运而生。

访谈嘉宾

许建志,微软首席产品经理主管

负责 OneDrive 与 SharePoint 用户体验产品经理团队。在微软的职业生涯超过 20 年,工作经历涵盖众多产品部门,包括开发工具、Windows 以及 Azure。目前在生产力部门工作,引领和改善用户在微软生产力工具中的体验。

从 ASP 写脚本到 text-to-site

想法固然重要,但罗马不是一日建成的。

目前的 AIGC 除了语义生成,还包括图片(text-to-image)和视频(text-to-video)内容的生成,但还缺少网站(text-to-site)直接生成的能力,这也是微软在近日宣布将 AI 助理 Copilot 加入到 SharePoint 的重要原因。

在没有 Copilot 之前,SharePoint 主要通过企业应用程序的集成来实现网站开发,而当 "Copilot in SharePoint" 之后,通过使用生成式 AI 自动产生内容与设计元素,no write,甚至 no design 指日可待。

对于这一趋势,许建志感慨到:" 这是 SharePoint 发展史中又一次改变游戏规则的变化。"

记得二十多年前,许建志写的第一本书是教授开发者如何开发网站,那个时候主要使用 ASP 写脚本。2001 年,SharePoint 正式推出,从需要写代码,到利用图形界面 ( GUI ) 来点选需要的页面与组件,后来又历经了 no operate,实现了云端的 SharePoint Online。

据许建志介绍,从第一代版本一路走来,SharePoint 一直延续着 no code 的理念:" 这次通过使用生成式 AI,接受自然语言提示 ( prompt ) 会慢慢取代传统的 GUI,可以更大幅度降低技术的应用门槛,只需要口头描述需求,连我五岁的女儿都可以在弹指之间直接创建网站。"

ASP 写脚本到 text-to-site,除了 no code 贯穿其中,no operate、no write,以及 no design,都成为终极能力实现背后的理念助推力。而在这些理念的背后,又是技术的点滴突破为产品迭代不断赋予了创造性。

"GPT 就是技术不断突破下的集大成者,微软现在有不少产品都整合了 GPT 的能力。当在给 text-to-site 进行产品命名时,考虑到将 GPT 能力在 SharePoint 上最大化呈现,我们使用了‘ Copilot in SharePoint ’。而如果是叫‘ SharePoint Copilot ’,只是将单独的产品加上了 GPT 的能力,但我们希望的是通过 Microsoft 365 Copilot 来主导整个生产力相关产品的 AI 体验,从底层把数据和能力打通。"

自然语言提示、落地数据、复杂提示

截至目前,Copilot in SharePoint 可以实现的功能包括:自然语言提示 ( Natural Language Prompt ) 、落地数据 ( Grounding Data ) ,以及复杂提示 ( Complex Prompt ) 。

其中,判断自然语言输入能力的大小主要在于所需 prompt 的简化程度。比如,当输入 "onboarding site ( 员工入职 ) ",通过两个词的提示,能够让 GPT 根据其世界知识推荐需要的页面和内容,并通过 Copilot 来创建网站。这样的能力实现主要在于大语言模型无需用户遵循精准提示,使用类似 "I need an onboarding site" 或是 "Create an onboarding site for me" 就可以达到一样的效果。

" 当我自己在使用 Copilot in SharePoint 的时候,发现了一些意想不到的效果。像在输入不完全精准 prompt 的情况下,GPT 产出的内容并不会受到影响。有一次我在给美国的副总裁展示 text-to-site 的时候将单词错输成 "appl purple theme",虽然对方给到我善意提醒,但我还是故意按了回车键,成功完成网站主题的设置。"

基于向量处理文字之间的关系而非关键字的比对,GPT 实现了 " 错字过滤 ",从而更好地理解用户意图。

不过,虽然可以通过世界知识实现提示,但对企业内部的私有数据如果没有给到内容,GPT 还是无从知晓。所以,想让生成的网站具备实用性 , 必须把页面内容的个性化程度做到极致才能更好落地。

在个性化数据上,微软的优势在于客户有自己的云上数据,包括公司目录、文档、邮件、会议记录、网站……各类数据都可以在云上获取。底层通过 Microsoft Graph 把用户选定的落地数据提供给在同一个云里的 GPT 模型 , 便可以在隐私资讯不外流的情况下生成个性化网站。

例如输入:

"I need an #ODSP onboarding site for product managers with teal theme. Please include a welcome message from @Adam on the first page"。

" 上述提示包括了目的 ( onboarding site ) ,对象 ( product managers ) ,设计 ( teal theme ) ,另外还有指定来自特定人员 ( Adam ) 的一个页面区域 ( welcome message ) 。这些元素的顺序并不重要,也都可以选择 , 用户可以自己根据需要进行组合,看是新增或移除。"

其中,提示里 "#" 标示的是通过微软的 Viva Topics,使用 AI 在企业内网自动建立出来类似维基百科的关键字或缩写。#ODSP 是落地数据,会取出缩写的意义(OneDrive & SharePoint)、相关的人与相关的文件列表给到 GPT。@Adam 也是落地数据 , 可以把标示人员的名字、职称和邮件提供到 GPT 模型里,从而产生出推荐网页的内容。

" 从以上截图可以看到 , 通过 Adam 的邮箱,GPT 已经猜到这是要给微软使用的网站 , 除了标示‘ Welcome to Microsoft ’之外 , 所产生的页面介绍公司文化的部分来自 GPT 自己的世界知识 , 完全和我们公司一致。另外由于前述 Viva Topics 的落地数据 , 让 GPT 也可以更好地知道与描述 ODSP,并把 Topics 里的相关人员也自动建立为页面里的主要联系人。" 许建志介绍说。

然而,尽管精简的提示可以大幅降低技术使用的瓶颈,真正生产力的爆发却是有明确的需求,并通过复杂提示来生成需要的网站。据许建志计算,传统上使用的图形界面单是创建一个有七个页面,每个页面有五个区块的需求明确的网站,通过鼠标点选数百次图形界面来新增所需元素是必须的。而如果输入以下提示便可以一次生成需要的网站:

"I need an ODSP onboarding site for our team members with teal theme. The site has 7 pages including Home, Get Started, About ODSP, Culture, Who Does What, Learning Library, and Managers & Bussies. For first page, I need below sections: Welcome to the team, Key Pages, Meet our newest teammates, News, Meet the ODSP Onboarding v-team, What the v-Team Does."

在具体落地场景中,GPT 的赋能让 text-to-site 更了解不同行业的应用:" 为了测试 Copilot in SharePoint 不同以往的功能,我们进行了一些功能附加,比如当生成地震处理危机网站时,GPT 会建议特别强调并加上地图,以及即时通知的页面和功能。而如果是疫情危机处理网站则会加上疫情政策、趋势图表,以及隔离在家工作的规定等页面。"

大语言模型与 Microsoft Graph 的融合

作为微软大力推广的 AI-First App,许建志介绍,Copilot 能够将底层数据和能力打通的关键在于大语言模型与 Microsoft Graph 的融合。

最初,当许建志将 "text-to-site" 的想法分享给工程团队的时候,大家的第一反应是实现需要一到两年的时间。" 我的同仁们说,完成这项工作需要捡起遗忘已久的数学,了解模型运作与算法,包括如何判读用户输入的自然语言的意图,甚至还得使用数据训练模型等等,然后才开始打造应用需要的功能。我自己也在一年多前和研发主管讨论过是否需要建立我们自己的 AI 团队,好打造 AI 功能。幸运的是,在 GPT 大语言模型与强 AI 的加持下,上面这些需求统统不需要了。"

事实上,大语言模型可以看作是一个已经被训练过,吸收了世界知识的大学生,具备理解意图与自行处理需求的能力。其中包括两个重点:

首先是提示指令。提示是唯一和用户交互的界面,为了简化用户输入,需要在用户自己的提示 ( user prompt ) 之外,加上传送给 GPT 的系统提示。例如,当用户输入 "onboarding site",就可以加上额外的提示指令从而 " 催眠 GPT 唤醒它某方面的能力(比如,可以让它当 SharePoint 网站开发者),并提供足够的背景资料来生成用户想要的结果:

"You are a SharePoint developer and will help the user to create a website. The output needs to have suggested content hierarchy including page and section, corresponding webpart, sample content, theme …… Below is the site the user wants to build:"

" 通过 SharePoint developer 的关键字,会强调并唤醒模型里 SharePoint 的知识,另外可以让 GPT 知道 create website 是主要目的。接着只需要把系统提示与用户提示接起来,一起传送给 GPT 产生结果即可。"

除了系统提示之外,另一个重点是描述并指定所需要输出的元数据,比如上面范例中的内容结构、页面、页面区域等等。这种方式的优点是:应用开发者不需要关注如何从不同的用户提示分析意图与目的,直接在最后让 GPT 输出所要求的元数据内容即可,甚至可以是指定不同格式,例如,JSON 或 Jave Script 代码。下面提示的范例虽然各有不同,但是生成的元数据与内容是一样的:

"I need an onboarding site for product manager with indigo theme."

"Create a product manager onboarding site. Apply indigo theme."

"Onboarding site with indigo theme. Target audience of the site is product manager."

" 通过上述系统提示、用户提示,以及指定的元数据结构,加上企业自己的落地数据,便可以生成极具个性化的内容搭配功能,建构起需要的应用。从内部技术结构来说,我推荐使用微软发布的 Semantic Kernel ( 语义内核 ) SDK 来实现。"

" 文字提示会是 AIGC 世界里的通用货币 "

CSDN:在构建 text-to-site 的过程中,您最大的感触是什么?

许建志:当充分了解到 AI-First App 的威力后,我确实有不小的感触,包括对编程语言、数据,以及自然语言等层面。

首先是编程语言将平民化。这是回归 OpenAI 的 Andrej Karpathy(前特斯拉人工智能和自动驾驶部门负责人,今年再次加入 OpenAI)提出的观察。

"The hottest new programming language is English(目前最热门的编程语言是英文)。"

我们的用户在使用 Copilot in SharePoint 的过程,和使用传统批次命令列指令类似,不同的是使用自然语言可以大幅降低技术门槛,高容错性让提示中即使有错字也可以被理解意图。

其次,落地数据是个性化服务的关键。虽然 GPT 掌握了世界知识 , 但是通过落地数据的使用将可以协助每个公司大幅释放既有数据潜力,提升员工生产力。当然,隐私会是其中关键 , 通过 Azure 的 OpenAI 服务,或者 OpenAI 即将推出的企业 GPT 皆是可行的落地实践选项。这里需要注意的是,并不是使用企业自己的数据来训练 GPT。

此外,自然语言会是新一代的人机界面。现在的应用几乎都是 GUI 人机界面 , 很值得借用大语言模型再增加自然语言界面 , 从整合 GPT 的 Copilot in SharePoint 来看,的确可以降低技术门槛,增强员工生产力。给传统图形界面融入大语言模型的支持 , 演变为 AI-First App。

同时,我也意识到文字提示会是 AIGC 世界里的通用货币 , 因此为项目立下了一个原则 , 尽量减少不需要的图形界面元素。这样一来可以方便之后接入不同的 AIGC 新服务。另外,也可以把 text-to-site 转为服务接入到其他应用或服务。

CSDN:对于text-to-site 的技术生成和落地运营,您个人更感兴趣的是哪个方面?目前项目还面临哪些难题,将如何应对?

许建志:我个人本身对技术细节并不是太有兴趣,只知道大致运作机制。而真正着迷的是如何将其应用到各行各业,服务不同的人群需求。就像电被发现并建立起电网可以接通到不同家里、公司,或者工厂之后,我们可以怎么利用与应用电力改善人类生活,这也是我们团队的共识。虽然大语言模型研究已经发展多年,但是当我们需要考虑的是千万甚至亿级为单位的受众与单位的时候,最需要着重的是该如何设计大语言模型的应用,好照顾到不同族群、不同背景,从一般入门用户、进阶用户,甚至是企业的需求。

这里提到的设计不只局限于用户体验的视觉设计。开发大语言模型就像涉入一个未知的新领域,从协助用户理解大语言模型的使用与限制、如何为提示加上落地数据、视觉化地呈现互动体验,到提供建议提示等用户体验设计之外,我们还需要考虑底层架构的设计,包括如何优化 token、设计出可延展支持不同技能的架构、优化与提升效能、防止用户滥用、商务方面如何打造商务模型、分析成本结构、如何收费与设计 SKU ……是一个横跨多面向,但是没有既定游戏规则,可以抄袭的局面。

这是一个前无古人的新蓝海,虽然有很多未知,得通过很多讨论与客户验证,甚至通过失败来迭代改进,但也会拥有抢先制定游戏规则的乐趣。同时微软也通过开源,慢慢把我们在推进 AI 时代的所思所学分享出来。

AI-First App 是如何架构的?

CSDN:具体来说,text-to-site 如何辨识用户指令意图 , 完成想要的操作?

许建志:就像我前面说的,大语言模型擅长的是分辨语义 ( semantic ) ,辨识出用户的意图,提示的叙述可以更弹性,顺序也不重要。但是传统的代码则非常强调语法 ( syntax ) ,必须非常精准,不可以有错字。对于想要开发 AI-First App 的开发者来说,将两者整合会是不小的挑战。

以 Copilot in SharePoint 为例,辨识完用户意图是根据需求创建网站,也了解相关的背景资料包括落地数据之后,接下来需要拆解成不同步骤执行对应的代码,包括创建网站结构、页面、页面段落、webpart、图片、排版、设计……

这些流程其实很固定(见下图),也和这阵子流行的 AutoGPT 或是 AgentGPT 很像,把用户的目标 ( ASK ) 拆解并规划 ( planner ) ,用不同技能 ( skills ) 实现,最后逐步执行。微软前一阵子开源的 Semantic Kernel SDK 就是一个可以直接套用协助开发者快速开发 AI-First App 的利器。

以里面推荐的 Copilot Chat 为例,除了自动生成文本之外,还具备个性化推荐、数据与文档导入、可扩展、智能客服等功能。所以,开发者想构建智能客服、个性化推荐系统、人力资源助手、电子商务智能助手等功能,都可以通过 Copilot Chat 实现。

CSDN:从技术细节来看,Grounding data 是如何实现的?或者说是如何让 GPT 了解并整合落地端的数据,结合 LLM 生成精准内容?技术逻辑是怎样的?

许建志:落地数据的使用必须从前端与后台两个方面来考虑。

首先是用户体验,虽然用户可以直接把落地数据加到用户提示里,例如上述的欢迎信息可以直接输入用户提示 "welcome message from Adam, who is the VP PM and his email is adam@microsoft.com"。但是一旦落地数据量比较大,这就变成很不实际的用户体验。此时便可以通过类似 # 或 @选择的方式简化这个过程,让用户在输入用户提示的时候可以选择人员、文档、网站等。当然,之后就和上述系统提示接上用户提示类似,在后台将用户选择的落地数据展开并改成文字内容整合到用户提示里。下图是一个 Topics 落地数据用户体验的例子 :

AI-First App 正在颠覆传统开发者和设计师

CSDN:目前可应用功能还存在哪些缺陷,将会如何优化?近期还会创建哪些新的功能?

许建志:目前大语言模型的通病都很类似,下面是几个例子。

在实践过程,我们发现 GPT 不止数学不大好,设计的美感也需要再提升。我们曾经创建一个地震应变的网站,但是网页背景居然显示的是大剌剌的红色,询问原因之后 GPT 回答是:" 因为地震很危险,红色是表示危险的颜色 "。我们优化的方式是改为设计师提供专业的设计样板并加上语义描述,然后让 GPT 来挑选合适的设计。

另外,效率是一个大问题,因为网站是多模态呈现,包括文字、图片、视频,还会根据目的有多个不同页面。创建这些内容很花时间,我们可以通过用户体验与技术让用户可以在 15 秒内看到生成的结果。当然 token 的限制也可以通过一些创意解决,例如原先一次会话处理整个网站的提示与生成内容,可以改为分批次不同会话产生不同的页面内容。

CSDN:克服了更多挑战之后,未来 Copilot in SharePoint 将呈现出怎样的应用生态?有哪些构想?

许建志:未来会是 AI 无所不在的环境,因此使用 text-to-site 的能力不会只限制在 SharePoint。可能是通过 Microsoft 365 Biz Chat 的沉浸式交谈机器人 , 调用不同应用的功能。可能上一个提示还在使用 AI 整理刚结束的新项目会议里提到的 To Do,但下一个提示可能就直接请 SharePoint 根据会议内容与参与人,创建一个新项目的协同网站,并把会议录影与相关文档一起放到网站上并设置好权限,而不需要单独再打开浏览器到 SharePoint 里完成后面描述的这些工作。

另外,SharePoint 也同时扮演着 Teams 小程序,以及微软另外一个 AI 产品线 Viva 两者底层平台的角色。除了我们会协助第三方 SharePoint 样板与 WebPart 利用自然语言大语言模型的能力之外,也可以预期围绕在上述两个方向也会有很多创新。

CSDN:进入到 AI-First App 时代,对开发者来说有哪些变化?您有什么想要对开发者说的?

许建志:我记得有人说过," 开发大语言模型的应用就像训练一只狗 "。和传统追求精准、效率的工程理念不同,以前是通过图形人机界面能够尽量产生接近用户需要的数字化内容,现在演化到 AIGC 的时代,不止提示不需要精准,甚至可能也是通过数十次、数百次不同迭代产生的结果,选出最喜欢的方案,而根本原因就是自然语言的输入成本很低。

这些新一代的 AI-First App 也在颠覆传统开发者、设计师,以及产品经理的技能与认知。这会是一个既残酷,但是又美好的时代,因为每个开发者都有机会参与历史,在前往 AI 星辰大海的旅途中留下足迹。虽然目前对大语言模型的投资越来越多,但是鉴于超大算力与超大数据的需求,留下的 " 电力公司 " 并不会太多。相反的,对于一般的开发者来说,打造大语言模型的应用将会是绝佳难得的人生机会,相信很多领头公司会陆续提供包括提示工程、插件开发、Semantic Kernel 等。与用户体验设计指南等学习资源,千万不要错过!

关键词:

责任编辑:hnmd003

相关阅读

相关阅读

推荐阅读