大模型无法一步到位?还得是“熟悉的配方”|焦点分析“我住一楼,凭什么要

文|沈筱

编辑|王与桐

逛完2023年的WAIC世界人工智能大会,应该没有谁会否认大模型的主角地位。

2022年的WAIC,和大模型相关的论坛寥寥无几,而今年,不聊大模型的论坛屈指可数,参展的大模型高达30余个。

但是,相比于年初,创业者、学术大拿、技术大牛讲大模型概念、讲机遇和挑战,此刻,更多人开始关心结果。

大模型作为主演,是否真的发挥了价值?答案可能会不尽相同,横看成岭侧成峰。

得出答案的角度,可能包括自研大模型厂商的技术追赶进度、是否有明确的商业化计划,以及直面实际应用场景的To B AI应用厂商们在做什么。

或许对自研大模型的厂商而言,商业化的事还可以拖一拖,底层技术创新是第一要务。但对To B AI应用厂商来说,一边是新技术对现有技术路线带来的潜在颠覆效应,另一边是新需求诞生创造出的市场增长想象空间。如何弥合新技术和需求场景之间的鸿沟,似乎是更加急迫的事情。

为此,36氪在会场与多家企业进行了交流,并同达观数据CEO陈运文、竹间智能总裁兼COO孙彬,以及中科智云高级副总裁李源,围绕大模型落地的问题展开了深入探讨。

达观数据和竹间智能作为专注于NLP领域的AI公司,几乎一届不落地参加了WAIC,而今年也是专注于CV领域的中科智云第二次参会。

01 市场“教育”创业者

“万人空巷”,可能是对这半年大模型火热程度的最好描述。

但表象之下,真实情况并不尽如人意。在供给侧,通用大语言模型还有系列未解决问题的情况下,需求侧日益高涨的“想用起来”的激情,似乎成了To B人工智能厂商幸福的烦恼。

在“生产力革命”、“人工智能的iPhone时刻”这些关于大模型的形容铺天盖地的情境下,客户对大模型的理解和从业者,有着“鸿沟”。

“大模型拥有理解、生成的能力,但是这种能力要用在B端,比如客服、销售助手领域,就一定要变成甲方可用的应用,切实帮助它开展业务。这就涉及模型的产品化、能力化,这个鸿沟是需要被跨越的。”竹间智能总裁兼COO孙彬告诉36氪:“今天有一个数万人企业的CIO问我,大模型那么厉害,如何才能帮我提升人效?”

简单概括,B端客户要的就是最终效果。而很多创业公司,还是处于老生常谈的状态:拿着锤子找钉子。

二者之所以存在着偏差,源于两个“误区”。

一是对大模型的能力边界没有充分认知。

不要神化大模型,是多个参展的AI厂商希望通过36氪传递给市场的声音。

“现在很多人都觉得大模型好像可以包打天下,人工智能前面一马平川。但实际上,模型还有产生幻觉的普遍问题,在一些抽取、审阅等非生成式任务上的效果也不稳定。”达观数据CEO陈运文博士说,上一阶段,利用大模型可以有效解决哪些问题,以及什么产品形态能让模型能力真正发挥作用,是AI厂商需要反复思考和摸索的。而放眼当下,重点是怎么把这些务实的思考传递给客户。

现阶段,大模型并不是不能落地应用,也并非产生不了惊艳效果,但当务之急是需要在从溢美之辞中解放大模型,揭大模型的“短”

这也是竹间孙彬的看法。他认为,要明确大语言模型的使用边界,并不是所有场景都适合用大模型。有部分行业应用场景,数据本身就是结构化、标准化的,不需要训练到模型里,反而用模型调取回答更准确更可控;还有的误区是,大语言模型是对话模型,并不是计算和计算模型,所以,有的应用场景解决方案已经solid,比如,天气预报本来就可以用数学模型解决,财务分析也可以用原来的金融模型。

而这样的理解误区传导到工业领域,还需要再多一层“扒衣服”的工作。为什么?中科智云高级副总裁李源告诉36氪,工业领域谈大模型,更多是机器视觉CV大模型,但现在火热的是大语言模型。

“不是说不能将大语言模型应用到领域里,我们也响应客户需求开发了一些AIGC产品,比如设备检修的智能手册。但工业领域更多需要的是一个反映物理世界的语义模型。”他进一步向36氪阐释,“二者差别是,自然语言作为输入、输出本身不具备物理特性,不带定位等物理信息,也不够准确,我们希望能有一种语义特征的方式,而不是仅用自然语言去描述这个世界。”

二是认为大模型开箱即用。

“一些客户兴冲冲邀请我们去交流,非常想立刻用上大模型,但是一问,连GPU都没有,数据、知识库储备也不够。”按照达观陈运文的观察,很多企业是被人工智能这波大模型浪潮裹挟着往前走的,对要用大模型需要作何准备还没有清晰认识和准备。

竹间孙彬也有类似体感:“客户的成熟度千差万别,很多企业没有用大模型的know-how,也没有用大模型的条件。”缺条件,比如没算力、没数据、没有可以打通的企业应用系统。涉及企业或行业知识对话的场景中,大模型和企业私域数据是相辅相成的。要同时发挥企业知识库的能力和大模型的语义理解能力,对话机器人才能灵活地给出准确答案。另外,在这个过程中,可能还要打通人力资源系统、ERP系统。

可见,在技术发展初期,市场兴致勃勃的阶段,除了帮助客户去伪存真,找到真实需求,帮他们打基础也是AI应用厂商的重要任务。

而隐藏在第二个误区中,还有一个需要正视的事:准备算力,是整个生态的任务。

芯片卡脖子已经是共识。一方面,受限于美国政策,英伟达A100和H100买不到,就算能买A800,现在全球缺货也要排队等到货;另一方面,当前对技术认知更清晰、付费心智更成熟的银行、证券、保险等金融行业客户,有强烈的私有化部署和信创采购需求。尽管近年来,国产GPU发展较快,但与英伟达相比差距还较大。

优刻得董事长兼CEO季昕华,在WAIC大会现场与36氪和其他媒体交流时表示,目前国产GPU的通信性能在推理方面,今年能够实现使用,但是训练方面还需要一点时间。

除了提升芯片硬件性能,软件生态也亟需完善。要充分发挥算力效能,软件的适配和兼容是关键。正如季昕华指出的,造成芯片技术差距的原因之一就是当前大部分人工智能是基于英伟达CUDA来做的,国产芯片要支持CUDA,对生态要求较高。而芯片商要自研AI芯片软件栈,也离不开产业上下游厂商的支持。

回到大模型落地应用的实际过程中,围绕客户算力问题出谋划策,成了云计算、芯片、AI应用厂商肩上共同的担子

达观陈运文告诉36氪:“在服务客户时,我们甚至会帮他们规划算力方案。不管是达观和燧原、优刻得,还是和华为昇腾的合作,目的都是为客户后续能真正把大模型用起来打基础。”

02 AI应用厂商的“曲线救国”

问题提出了,更需要被解决。

既然大模型并不是万能的,客户要的又是最终效果,那么让大模型在适当场景中,适时地发挥其出色的语义理解和学习能力是否就成了关键?

实际上,从36氪上半年观察到的现象来看,正按照上述思路实践的AI应用厂商不在少数。

总的来说,无论是新涌现的创业公司,还是已有产品和市场的在位者,切入AIGC赛道的方法大致可以分为两类:一是,通过大小模型协同、多个大模型API调用等方法,去大模型糟粕,取其精华;二是“借力打力”,利用大语言模型的能力解决特定领域的具体问题。

在WAIC现场,达观数据、竹间智能、中科智云三家公司也分别展示了自家的方案。前两者正是采用了多模型融合的方式,而中科智云则是“借力打力”。

WAIC分论坛上,达观数据推出了智能文本处理领域垂直大模型「曹植」。

论坛中,陈运文向观众阐释了曹植采用的多模型并联(Ensemble)技术架构,即融合多个模型能力,包括基于新一代LLM的大模型架构、并融合以往的Bert模型、知识图谱,以及过去在NLP领域建立的业务规则引擎等,并借鉴了复旦Moss的插件思想,多模型和多插件融合来发挥最好的效果。

达观数据对这一多模型融合思路做了形象比喻:如果把各类模型比作各种各样的武器,之前的Bert模型是冲锋枪,业务规则引擎是手枪,GPT(生成式预训练)模型是大炮。GPT威力是要强大很多,但并不表示以后打仗只需要用大炮,不用冲锋枪和手枪了。

陈运文告诉36氪:“每个模型都有自身的缺点。要完成复杂任务,需要在模型之间灵活的分工、协调。不同模型承担不同的职责,有的模型生成的文字通畅,有的解析文档表格能力强,有的则擅长解决数学一致性检查,有的还要画图,或做规则校验等。像知识图谱就能确保输出结果的准确性、专业性。”

最简单的例子是,在具体的专业报告写作中,往往通常需要边抽取边写作,也就是从A文档中抽取内容,融合一些内容组织语言后,再写入到B文档中。其中,内容抽取Bert模型其实挺不错的,生成和润色则是GPT模型的拿手好戏,几种方法是相互融合的。

陈运文认为,最终的业务客户其实并不在意内部用的是什么模型技术,关键还是解决最终问题的效果如何。大小模型融合,甚至多个大模型并用是未来的发展趋势,因此达观的Ensemble模型还设置了支持外接第三方模型的扩展功能。

竹间智能在会场展示的模型工厂「99万实验室」也异曲同工。

据孙彬介绍,基于模型工厂,竹间智能聚焦对话「KKBot/Bot Factory+」、培训陪练「Emoti Coach」、生成写作「Magic Writer」、企业知识库「Knowledge Factory」四个应用平台落地。他告诉36氪:“我们的办法就是用最合适、最经济的模型来服务不同场景中的不同任务。”

谈到具体如何实现,孙彬描述,竹间智能首先扮演选择模型,或者训练出合适模型的操盘者。各类大模型进入模型工厂后,竹间可以调用、训练不同模型,再把训练好的模型放到应用平台上,也支持客户使用平台工具自主调用和训练模型;其次,竹间需要开发好大模型应用平台。比如客户方需要智能客服场景,就是需要对话平台能够调用企业知识库,打通CRM系统,同时要为客户的运营人员提供低代码工具,支持其按需设置、配置对话机器人,部署到云端、手机端、电脑端,用起来。

对专注CV领域的中科智云而言,LLM如何看似是“身外之物”,实则不然。

关于如何“借力打力”,李源介绍,中科智云在这方面已经做了两件事,一是响应客户需求,面向轨交、航空等领域,开发了检修和故障排查的智能手册。采用embedding的方式,借用大模型的语义理解和语义特征检索能力,实现精准的智能对话查询;二是基于预训练模型实现了小样本在X-Brain平台上的自动标注和主动学习。

李源告诉36氪:“大语言模型,尤其是GPT3发布之后,从我们的角度,得到的启示是,如何将它对语义的理解能力和零样本、小样本学习能力,作为突破或打开工业应用的钥匙。”例如,工业领域涉及很多异常检测的场景,而在实际生产中发生异常情况的频率很低,难以获得足够的样本。这使得该场景下的AI应用难以基于传统的深度学习方式实现。

同时,中科智云在会场展示了智能建造黑灯工地的模拟场景。据李源介绍,黑灯工厂概念背后蕴藏的设计思路是,将物理世界通过特征提取的方式变成一个语义向量构成模型空间,以支持多个下游计算任务,支撑工程建造模型,扮演建造工程的大脑,同时把信号传递给建筑机器人,进行施工操作,实现感控一体。

李源表示,这是受LLM启发,中科智云正在做,并且认为未来一定会实现的事。但现阶段,中科智云关注的重点是通过自监督的方式训练能够提取语义特征的特征提取器,作为图像大模型的基座。

以SAM(Segment Anything Model)为例,李源解释道:“该模型现在已经有语义、object的概念,因此可以对所有东西进行分割。我们也是类似的想法,但更希望能够支持很多更精准的下游任务,比如目标检测,另外还需要把二维的图像推广到3D点云上。因为除了简单的识别,还需要定位,要有坐标。”

值得一提的是,虽然在WAIC之前,36氪也与多个AIGC公司进行过交流,但很少有公司会主动谈及取长补短的落地方式。一些公司在描述为何采用embedding的做法时,则更像是退而求其次的无奈之举。

但,不管是迫于无奈,还是主动为之,现阶段,B端客户要见效果,直接上大模型就是难以一步到位。

03 经济账能算,但不全是甜头

如何盘算经济账,是目前大模型应用落地的另一团迷雾:

站在B端企业客户的角度,只有应用大模型技术可以创造价值增量,才值得为之持续支付溢价。

站在AI应用厂商的角度,客户愿意支付的溢价要能支撑其cover新增成本,商业运营才是健康、可持续的。

在业务还没跑起来的当下,各方的投入产出比都难以衡量。但目前36氪从上述三家公司得到的回答都是比较乐观的,各家的客户也愿意为了新的产品支付百万级别的溢价。

这样来看,如果AI应用厂商的成本相对可控,LLM就是一剂“强心剂”。

对达观数据而言,大模型加速了企业产品创新、降低研发成本,同时原有的IDP、RPA产品又拓展了大模型的能力边界。双方叠加,一是能拓展更多新的应用场景增加收入来源,二是可以更好地满足客户需求,获取upsales。

“没有大模型,我们在产品的多语种能力方面的研发资金、精力投入会多一个数量级。同时,尽管我们之前的功能覆盖自动写作,但现在流畅度和多样性要好很多了。对客户提出的相应需求,我们之前能只能完成固定段落的写作,现在能完成至少70%的内容的写作。”陈运文告诉36氪,“RPA的作用则是帮助曹植自动链接企业的各类内外部系统,以随时获取最新的外部知识、信息来扩展大模型的知识。”

对中科智云来说,李源介绍,一方面,用语义特征提取的大模型支撑自动标注,实现小样本训练,已经成为公司核心技术之一;另一方面,通过将其产品化,内置于AI+物模型平台X-Brain中,也将为企业打开新的市场增长空间。

而谈及直接利用LLM为工业企业客户提供智能手册这样的AIGC产品,李源显得更加审慎:“我们要考虑工业实现,投入产出比要划算。所以这类应用开发,为避免‘杀鸡用牛刀’,我们必须选客户确实有痛点,且价格不敏感,同时大模型技术能发挥所长的场景。”

竹间智能给36氪的回答则主要涉及几点:一是有了大模型,问答效率和灵活性,以及对话机器人等产品的交付效率得以提高;二是源于个性化个人助手、企业知识库等场景的新商机;三是可以实现业务和对应盈利模式的分层,为企业在不同级别提供持续现金流,保证利润合理。

在第一点上,孙彬举例,一方面,LLM可以直接用于知识文档阅读和回答,不用人工预设知识和设计流程;另一方面,可以用LLM生成训练语料或标准问题,再利用NLP QA方式回答,保障回答可控,同时方便私有部署。

新商机方面,以个人助手为例,每个人的使用场景和习惯都极大不同,孙彬认为过去小模型实现起来不经济,现在有了大模型的通用能力,也变得可实现了。

怎么实现业务分层呢?

“大模型会降低过去一些项目的成本,例如部分文档对话场景大模型能够直接阅读并回答,就无需运营人员,赛道可以做得更轻,更标准化、规模化,给客户的价格也会更低。”孙彬向36氪阐释,“同样,公司也一定要有高利润的产品,比如对深度场景定制。”

但值得一提的是,尽管在达观数据针对Office和WPS推出了专门的写作插件,竹间智能的KKBot也是同时面向个人和企业推出的Copilot,但双方均强调商业化仍聚焦在B端。

在乐观回应的背后,36氪同样关注到,大模型为三家公司带来的也不全是“甜头”。或许有两种困难摆在眼前。

一种困难是,各家方案的落地涉及新增的工作量。

达观数据需要探索如何更灵活地组合多类模型。比如,不同模型在解决不同问题时,组合方式可以多样化。因此,公司正在研发能够自动完成多模型融合的算法,而非依赖人类专家来配置规则。

而挑选、训练合适的模型则成为了竹间智能,为实现打通“企业大模型落地的最后一公里路”的愿景,需要承担的新任务。交付团队规模减少,模型训练团队规模可能需要相应增加。但孙彬也表示:“过去,我们团队是所有东西都要自己做,现在这部分负担其实减轻了。只是,随着新技术迭代,我们必然需要学习新技术,提供新服务。”

对中科智云而言,新增工作量一方面体现为工业领域需求的碎片化,使得公司需要探索低成本、高效率完成模型训练的方法;另一方面,则是对探索性创新的研发投入。

李源告诉36氪:“我们没有机器视觉或工业异常检测领域的现成范式可学,需要彻底创新,研发投入是巨大的。这也意味着,选择当前的技术路线可能要放弃对另外一些模式的探索。如果不是最优选择,会造成资源浪费。”但同时,他表示,中科智云会一直保持敏感性和警惕性,不会因为自己恰好赶上了时代潮流而寄希望于所有问题都要靠大模型解决。

“大模型是个好的途径,我们可以借它的力来解决很多问题,但是不是最好的方法,我们是不能停止探索和思考的。”李源阐释道,“如果目前的技术路线可行,中科智云希望找到更优的方案,不需要用训练代理轻量模型的方式,而是直接通过大模型量化、压缩,变成可以载到边缘设备,或者算力较小的设备上运行的模型,直接用于工业异常检测、资源高效调配、人员管理、设备状态维护等领域。”

在工作量之外,对NLP领域的AI厂商来说,LLM的出现是否会拉平企业间过往的技术差距,也是一个新的问题。

达观陈运文告诉36氪:“就像之前说的,冲锋枪和手枪还是会有用,而且会长期发挥价值。技术方面要厚积薄发,比如文档的格式理解、表格解析,包括我们前几年独创了无锚点的自由格式文档版面理解。这些技术接下来都能综合运用到大模型的语义理解上持续发挥价值。”

竹间孙彬则将问题抛了回来:“马车变成汽车了,汽车的性能、排量可能都一样的,但是为什么还会有公司做得更好?”他补充道:“虽然新技术来了,大家可能会站在相似起跑线,但新需求会带来新挑战。比如,要填补大模型产品化鸿沟,就需要有模型训练方法,以及工程化能力的积淀。”

不管是冲锋枪还是手枪,马车还是汽车,站在此刻,或许很难判断未来究竟如何。但是时间会告诉我们答案,见真章的时刻或许就在半年后。