闭门对话实录|多模态大模型应用的新想象90年代,倪萍和一个友人在长

5月31日,由品玩主办的「模型思辨」国内大模型产业生态研讨会在北京举办。360集团创始人周鸿祎、百度、阿里巴巴、商汤科技、Zilliz、瀚博半导体等来自大模型产业链上的头部互联网公司、芯片、数据库、应用项目、投资机构等100多位VP级的嘉宾参与此次研讨会,深度探讨中国大模型产业生态的建设。

广告
可御可甜 有颜有料 惩罚整蛊任你选 >>进入直播间与主播亲密互动
×

“多模态大模型应用的创机变”的圆桌对话,由品玩新技术分析师申远主持,对话嘉宾有:山景智能技术合伙人郭亮、竹间智能总裁兼首席运营官孙彬、格灵深瞳副总裁周瑞、PingCAP副总裁刘松、深势科技战略负责人王小佛、衔远科技算法负责人陈华清,主要聚焦在多模态大模型在中国各行业的落地。

在金融领域,山景智能正在借力大模型来帮助金融客户实现真正的数字化转型。山景智能技术合伙人郭亮表示,“大模型下的数据安全问题不容忽视,现在有多方安全计算、隐私计算等技术可以帮助我们解决这样的问题,我们也在探索用其它方式,包括合成数据,私有化学习数据的特性,再去外部借助ChatGPT的能力解决领域问题,保证数据不出域或者不用真实数据的情况下提供这样的大模型能力。”

广告
美女秀场 真人直播 >>进入直播间与主播亲密互动
×

聚焦科学智能,深势科技战略负责人王小佛针对面临如何使用AI解决科学领域的挑战,如何处理使用模型平衡“新的AI方法”和“已有科学原理”展开了讨论:“科学场景和语言场景的最大不同就是有客观的好坏标准。这的确给我们带来的更高的要求,但同时也是非常独特的机会,因为我们可以使用科学原理、物理仿真来生成高质量的数据,以弥补昂贵实验数据的稀缺;同时,我们也对AI的算法骨架进行设计,让AI在训练步骤中”显性”地保持对物理原理的遵守,这样能极大的提高训练的效率和效果,在很大程度上规避了传统AI训练中“摸黑”的问题”。

对于“产业化最后一公里要走多久?”竹间智能总裁兼首席运营官孙彬表示:“其实大模型距离甲方的业务需求很远,真正的To B服务都是要形成业务应用,满足业务要求。十年前我们谈论中国的公有云和私有云,今天的大语言模型也是一样,仍然有模型的边界,分为通用大模型和产业大模型,而且技术成长路线也惊人地相似,可能会有数个通用大语言模型诞生,同时会有千千万万的行业模型、企业模型出现。“

格灵深瞳副总裁周瑞则表示,大模型给计算机视觉行业带来的变革也是非常明显的,“GPT-4的推理能力让我们组织Pipeline的压力变小,把我们从之前大量的需要人工介入的工作中解放出来,比如理解一些规则并将相关操作有序拼接在一起。这最终会带来效率的巨大提升,在一些垂直业务领域,大模型提供了一种更优雅的方式帮助我们更好地解决业务问题。也一定会带来一个新的开发和交付的范式诞生。”

PingCAP副总裁刘松在会上着重探讨了AI+DB(人工智能+数据库技术)怎样影响下一代的数据服务 ,他表示“目前,大模型技术和数据技术尚处于浅层次结合,包括数据获取、ETL再到数据处理,BI(商业智能)这样一套生态流程,每个环节大模型都能够提效,但我觉得更深层次的结合应该是大模型技术与数据技术的深度融合。 未来,实时化的数据服务,结合AI 基于更精确的语义和推理, 可以让一个CEO问题或者外卖小哥的自然语言问题都能够很精确、快速地被响应。”

衔远科技算法负责人陈华清表示,“企业需要对海量的消费数据进行洞察,在多模态大模型出现前的主流方法是人工对图片、视频等进行打标,即标签化”,“而多模态技术与大模型的发展,使得图片、视频等多模态信息能够被统一转化为文字,从而帮助企业更加全面、高效地完成信息洞察。”

以下是“多模态大模型应用的创机变”圆桌对话实录:

主持人申远:本次圆桌请到的品玩好朋友也是这个领域在国内做得非常优秀的公司,很高兴有这个机会和大家一起探讨。首先请嘉宾做一个简单的自我介绍,可以说说自己都是聚焦在什么领域。

郭亮:山景智能成立于2019年,主要是面向金融行业,为客户提供从数据治理、到模型服务,再到业务决策的一整套决策智能解决方案。目前我们也在探索如何借助大模型之力,更快更好地帮助客户实现真正的数字化转型。

孙彬:竹间智能的团队拼了八年,专门在智能语义赛道做To B服务,过去我们是把AIGC技术进行产业数字化,ChatGPT到来以后直接把赛道完全颠覆。接下来我们的团队就是要玩转所有模型,希望用“模型工厂”的方式将各大模型聚集起来进行落地,不管是写作、对话、培训还是知识库,能够在模型落地的领域成为行业第一梯队。

周瑞:格灵深瞳是一家计算机视觉领域的AI公司,我们主要专注于将先进的计算机视觉、大数据分析、机器人和人机交互技术与应用场景深度融合,提供面向智慧金融、城市管理、商业零售、轨交运维、体育健康、元宇宙等领域的人工智能产品及解决方案。个人主要是在公司负责技术底座的搭建和研发。

刘松:PingCAP这个名字的意思其实就是分布式原理的不可能三角形,希望通过分布式数据库解决海量实时数据处理的问题。我们既做中国,也做全球,美国、日本、东南亚和印度都有很多客户。我个人也是深耕云和数据库,今年1月10日 PingCAP 发布了 Chat2Query,是数据库公司里第一个集成OpenAI,可以在几秒钟以内将自然语言转化为 SQL,再由 TiDB HTAP 数据库实现实时查询。今天最想传递的就是AI+DB怎样影响下一代的数据服务。

王小佛:深势科技是做科学智能,通过人工智能解决科学领域的问题,比如在制药行业、新材料行业,我们帮助客户重新设计新的药物分子、电池材料的配方,面临如何使用AI的挑战,包括数据结构、训练策略、如何处理使用模型平衡AI和物理原理,可能跟前面大家聊的语言模型、图像模型会有很大的不同,所以非常高兴能够今天和大家交流和切磋。

陈华清:衔远科技是一家致力于链接消费者与商品的人工智能公司,团队依托数百亿级参数规模,通过独特的训练方式,让自研大模型在具备通用能力的基础之上,更加擅长理解人与商品的二元关系,帮助企业实现从产品洞察、定位、设计、研发到营销的全流程创新,真正做到用AI重塑商品价值。

申远:看来大家都是垂直具体赛道,去年年底的ChatGPT风潮对所有从事人工智能行业的公司都掀起了一轮风暴,请问大模型对各自业务的冲击是什么?特别是多模态大模型在国内的场景是率先开启落地化和商业化的步伐,面对现在这种非常前沿的技术和非常现实的商业化市场,各位负责人都有什么想法?

郭亮:去年年底开始,我们山景跟客户一直在探索大模型在金融行业到底应该怎样落地。基于山景之前的产品,包括帮助银行去做数据治理和模型开发、模型服务,怎样去构建模型市场等等。有了大模型以后,我们对产品的规划也有了新的思路,甚至都有一些颠覆。举个例子,之前我们帮助银行做基于交互式AI的管理驾驶舱,主要就是用传统的NLP方式,怎样构建pipeline,怎样去做意图识别、实体抽取、对话上下文管理等等,整个产品是围绕这样的流程构建的。而ChatGPT出现之后,可以端到端帮助我们解决这样的问题。过去不管是模型、产品可能都面临真正需要重构的问题,需要不断跟客户深度交互、交流,了解他们的业务目标是什么,怎么利用ChatGPT帮助我们更好地为客户服务。银行最终的落脚点,要么是为了降低成本,要么是为了实现业务增量价值,有了ChatGPT以后可以去做很多的尝试。

申远:所谓的模型定义已经改变了,因为大模型跟之前是完全不一样的东西。金融行业一直是人工智能比较垂直的赛道,有了大模型以后,大家很多时候都在探讨安全隐私方面的问题,金融这个垂类肯定是联系比较紧密的,不知道有没有什么可以分享的?

郭亮:您讲的是一个很重要的问题,不管是数据还是数据合规,我们跟银行合作的过程中,希望用大模型解决现在的业务问题,但又不希望数据资产外泄。现在有多方安全计算、隐私计算等技术可以帮助我们解决这样的问题,我们也在探索用其它方式,包括合成数据,私有化学习数据的特性,再去外部借助ChatGPT的能力解决领域问题,保证数据不出域或者不用真实数据的情况下提供这样的大模型能力。

申远:合规问题真的是非常重要的问题。

孙彬:我们做了八年的NLP,所以去年第一时间就去熟悉GPT3.0、GPT3.5等大语言模型。GPT现象火了以后我们有两个感受:超级兴奋,极度焦虑。过去我们在各个To B的领域已经将准确率提高了一个数量级,不管是金融、保险、证券、医院和教育行业都是如此,NLP能够落地的场景几乎都已经打通。但技术天花板也让我们陷入焦虑,因为过去的技术全部被覆盖掉了。过去我们花很大心思做的泛化识别和流程设计等,都被大语言模型迭代掉了,这些经验真的都白费了吗?但我们同样看到行业的兴奋,讨论大模型的弊病应该如何避免,最终的工程实践应该是将大模型、企业私有化数据和工程能力结合在一起。所以我们的经验非常有价值,大模型对我们这样的企业来说,给了我们更强的能力,让我们变得更加专业。

申远:孙总说到一个很有意思的问题,大模型来了以后,之前很多年一直从事NLP的一夜之间又从同一个起跑线出发,但这是从技术层面来说,因为技术路径上是一个革新。谈到大模型的时候,大家普遍有一个说法,就是我们在追赶OpenAI技术层面,不管是硬件还是数据库,可能还有一些距离,但中国在应用落地方面,特别是本土化或者商业化的程度还是具有非常大的优势。

孙彬: 我们很清楚产业化落地的最后一公里要走多久。客户真的仅仅是需要一个大模型接口吗?目前大银行能用ChatGPT做客服、做培训吗?其实大模型距离甲方的业务需求很远,真正的To B服务都是要形成业务应用,满足业务要求。十年前我们谈论中国的公有云和私有云,今天的大语言模型也是一样,仍然有模型的边界,分为通用大模型和产业大模型,而且技术成长路线也惊人地相似,可能会有数个通用大语言模型诞生,同时会有千千万万的行业模型、企业模型出现。

申远:既然说到云计算,我们就请刘总来讲一讲。

刘松:大模型对我们的影响是什么?未来大模型时代就是这样一种自然语言,大家讨论的很多东西其实是围绕AIGC内容生成,但这是更显性更常见的形式,包括图片、语言文字的问答和视频,所以这是目前最容易做的。因为内容生成甚至创意暂时屏蔽了大语言模型现在面临的精确性问题,包括压缩的文件,这些东西放大就不能看了,但在内容生成中不受影响,最后就会落到基础架构上来。所有知识性的行业,客户相关的、解决客户问题的,甚至是数据库里面的智能运维,换句话说只要有工程师的应用就有GPT的益处,因为把知识显性化。工程师也很重要,AI能够提供很多编程能力,是不是可以有自动开发的体验?未来提升几十倍的话,怎么解决数据结构、数据库的可扩展性?所以这样也会对数据库带来很重要的要求。最后就是分析,目前就是云原生,确定的就是AI+DB,并且云底层的技术还需要从云原生走向 Serverless,去年我们就有发布Serverless数据库。怎么用自然语言自动生成SQL,然后丢给我们的数据库。其实之前是分布式,后来就是HTAP,不用关心AP还是TP,只要给个SQL就可以自动选择优劣。

这跟十年前的Hadoop不一样,今天是PB级别在线数据平台,反过来讲,不管大模型生成代码的速度,以及所有前端知识型的应用,都有对数据库的访问,这一下子解决了工程的问题。我们需要回答企业CEO和部门主管的关键问题,然后又回到企业数据平台,怎样用更严谨、可预测、准确、负责任的回答。未来很有可能出现的分析是两层:前面的一层是用通用大模型,进来以后进入每个领域,甚至银行里面也有垂直领域继续回答问题,这些小模型就是基于专有数据训练。

申远:这也是我们定义为大模型产业研讨会的原因,因为从技术上突破带动产业链上下游所有东西都跟着大模型技术变革。

刘松:因为大家看到的是显性To C非结构化,逐步延伸的就是垂直的、延伸的、更加结构化的、跟数据的深度融合。

申远:大模型来了,会对公司各自的核心业务有什么冲击和帮助?

周瑞:我个人的感受和孙总很像,因为一直在关注AI相关领域,中间发生的很多事情多多少少都有了解,GPT4确实是让所有人都大吃一惊,表现出来的能力是非常惊人的,大模型的能力不仅强,迭代速度也很快,所以我的焦虑也来自于此。我们公司在计算机视觉领域真的是做得非常优秀,作为一家计算机视觉领域的AI公司,我们在视觉领域确实积累了成熟的前沿技术,也在多年的长尾业务应用实践过程中,沉淀了大量提升效率和泛化能力的范式,而基于语言模型理解能力的新的范式将会给我们提供更大的帮助。其实这带来的行业变革是很明显的,大家的效率都会提升,会有很多非常垂直的业务,能够用一些更优雅的方法解决。比如GPT-4的推理能力让我们组织Pipeline的压力变小,把我们从之前大量的需要人工介入的工作中解放出来,比如理解一些规则并将相关操作有序拼接在一起,想必前面几位也有过这样的经历了。就像我前面讲的,还是要弄清楚目前发生了什么以及我们能做什么,当然这需要大量的时间,在没有搞清楚之前,焦虑不会消散。

申远:好像是给所有人都平添了一份焦虑。请问王总,因为AI4Science特别是制药领域,大模型到来之前已经是一个比较热门的赛道,但这个赛道格外垂直,稍微外行一点的人对其中的东西了解得都不是特别清楚,有了大模型的加持,请王总分享一下相关领域的改变。

王小佛:很受周总回答的启发,科学这个领域和语言最大的差别就是有客观标准,科学领域想去实现新的科学发现非常难,但要想验证一个发现是不是真的,成本其实是相对低的。我们面向客户以及很多科学家的时候对我们的要求是非常高的,现在有十个模型写十首诗,很难排个优劣,甚至给每个排序打一个分。而比如制药领域里,这就是我们面对的标准。如果生成了十个分子数,拿去做实验,最后就是要去看每个分子和蛋白结合的亲和力,这是可以量化排序比较的,所以一上来是有非常高的要求。

为什么说和周总的回答非常有共鸣?深势科技既有材料侧的合作也有很多医药侧的合作。生物医疗侧的预训练模型就要包括碳元素、氢元素、氮元素,要是做电池材料就有磷、铁、锂等等,要是做半导体就需要硅、磷、硼等等。深势科技的DPA大模型有效覆盖常用的绝大多数元素,因此科学家用户不需要从零大量投入训练数据。我们希望后续更多地发挥大模型的优势,真正加速科学上的发展。科学场景中的新工具需要和实验比较,过去的方案其实大家或多或少都觉得不够好,但大模型这次好像达到了实验验证的拐点,大家开始把这种模型作为生产力的一部分。

陈华清:企业需要对海量的消费数据进行洞察,在多模态大模型出现前的主流方法是人工对图片、视频等进行打标,即标签化。但当面对更大规模、更为复杂的数据时,仅凭人工打标已无法满足企业对数据质量和打标效率的要求。

而多模态技术与大模型的发展,使得图片、视频等多模态信息能够被统一转化为文字,从而帮助企业更加全面、高效地完成信息洞察。同时,结合AIGC技术生成所需的内容。举个例子,电商营销需要投入大量的人员和成本制作商品详情页,但却无法面向不同顾客进行有针对性的推荐。而通过大模型、多模态以及生成式AI的能力,则可以让电商实时掌握每一位消费者的喜好和需求,并生成“千人千面”的商品推荐图文,实现更优质的营销触达与消费转化。让每一件商品都应需而生,让每一个消费者都得偿所愿。

申远:所以内容营销领域还是和AIGC结合得非常紧密,广告创意和营销方式都有所谓的范式性改变。

陈华清:是的,就像是详情页这类物料的制作,需要耗费大量的人力、时间和资金成本,最终的营销效果也难以评估,因为它是通用物料所有人看到的都一样。但如果借助大模型的能力,并通过专业的多模态和AIGC技术去洞察和生成,则是“更快、更高、更强”,全面提升物料的制作效率、质量、触达与转化效果。

申远:第三场圆桌的主题是非常清晰的,请各个垂类赛道熟悉各行各业的资深业内人士上来分享,因为大模型确实是在改变千行百业,不管是本身的处理或者行业本身,就像刚才陈总说的,因为有了AIGC,很多内容生成的逻辑直接就被颠覆掉了,背后的营销和算法肯定都要跟着改变。目前业内讨论比较多的问题就是有了通用大模型,包括GPT的接口,相对于垂直的赛道是不是还需要训练一些垂直模型,或者用一个不那么准确的词来说叫做大模型的小型化,变成一个小模型?

孙彬:模型就是模型,各种各样的模型解决的是不同的任务。今天大家熟悉的GPT3.5或者GPT4也是多个模型,对话有对话模型,生成有生成模型。我担心的是过度大模型化,大模型的使用空间和范围其实有限。传统NLP的问答模式是用模型来理解客户对话,然后对应企业客户给出的标准答案,再给出最终的回复,所以过去的服务和答案都是准确的。今天大语言模型注重的是对话,不是知识的问答,所以会妥协,会认错。它的目的是让对话继续,但由于它是用互联网数据训练的,所以给出的答案往往并不准确。如果客户的场景需要准确的知识、准确的答案,例如政务类场景,那还是离不开工程能力,以此来控制大模型的出话,优先使用企业提供的准确知识。所以专业的做法,应该是依托模型的优势和工程的能力,结合客户给出的准确数据,完成业务相关的各种任务。不同的种模型适用于不同的场景,利用工程能力充分发挥模型的优势,实现精准无误的问答,才是toB业务服务的最佳实践。

申远:应该还是和垂直赛道结合比较紧密的,前面也有嘉宾提到通用大模型解决的是通用的问题,真正垂直到某个领域,要是ChatGPT的话就会给出比较模棱两可或者不准确的答案,不会构成真正商业化落地的能力。

刘松:大方向跟我们是一致的,只是可以大概拆分一下,任何一个大型企业,无论是基于服务还是互联网公司都有两类场景:一类是面向海量消费,要在大模型的基础上做一定的训练和价值洞察,解决通用的问题,包括电商系和金融服务系,更加依赖于大模型的通用规模和广域的知识。另一类是医疗行业,由于大模型目前欠缺的对推理的透明性和知识的精确性,甚至有些行业常识的东西,本质上是以数据为中心的领域。数据的质量决定模型最终产出给客户解决问题的能力,敢不敢依赖?敢不敢有责任?时间还是会更长。互联网公司还有薅羊毛的情况,所以风控一定是跟数据预训练和不断演进有关。我们还是要围绕特定的场景,越是面向C端通用的大模型越是专业垂直,包括医疗领域,数据本身的准备和数据的组织就更重要,是不是一体化的数据平台?包括结构化和非结构化的数据融合,需要有一个考量,其实还是回到原来做BI或者DW分析需要的,只是今天有了大模型以后做这件事情本身又多了一个助力。

我们也跟大型分析机构聊过,现在给我的答案就是通常说的一般客户的数据技术使用,包括数据获取、ETL(数据仓库技术)再到存取,BI(商业智能)这样一套生态流程,每个环节大模型都能够提效,但我觉得这还是大模型技术和数据技术结合的浅层次。更深层次就是知识和工程能力应该落在数据技术每个SQL的形态,到了数据库的优化到底应该怎么拆分。到了那个层次,数据就绪和数据库的现代化,结合AI界面给出的基于更精确的语义辨识和推理,可能在五年八年以后,任何一个客户的CEO问题还是外卖小哥的问题都能够很精确、很快速地被这套机制解决。

申远:数据层面的问题其实也是在大模型落地商业化的过程中,现在刚出来,大家可能还没有特别碰到这种问题。多模态大模型在中国的落地也一直是品玩非常关注的方向,未来我们也会一直关注垂直赛道民营企业的进展、进行追踪和报道。这些东西技术很好,但只有落地商业化、走通闭环才是真正有意义的事物。无论是创、机还是变,我们都要在中国这个非常庞大、非常有机会、处于剧烈变革的市场,抓住无论是电商还是很多领域都涌现出很多机会的时代。