跳转到内容

火山引擎的新产品:HiAgent,大模型实验场

每当一种颠覆性的新技术出现时,都会为一些公司提供绝佳的机会,让它们能够快速超越竞争对手。比如在2002年夏天,亚马逊推出了一个名为Amazon.com Web Service的云服务平台。这个平台允许开发者通过互联网访问亚马逊的商品数据库,其中包含书名、出版书号和价格等信息。在那个淘宝还未出现的年代,这种做法是非常创新的,但当时看起来并没有太大价值,可能最实用的功能就是用来查询书籍的售价。

然而,经过四年的市场需求探索和产品改进,这个平台实现了重大突破。亚马逊推出了S3服务,允许用户通过互联网访问存储空间,以及EC2服务,提供计算能力。这些服务最终发展成为全球最大的云计算平台AWS,帮助亚马逊成为市值达万亿美元的巨头。许多突破性的技术和伟大的产品,最初都是从那些看似前途未卜的实验开始的。经过不断的改进和调整,它们逐渐找到了与市场需求的契合点,最终得以发展壮大。比如,YouTube 最早只是一个视频约会网站,字节跳动的第一个内容产品并没有使用推荐算法,而 iPhone 刚问世时也没有应用商店。

现在,我们看到的大模型应用正处于类似的阶段。消费者甚至开发者都开始对市面上的 AI 应用产生疑问:这些应用到底有什么实际用途呢?根据数据调研机构 IDC 在 9 月发布的一份报告显示,市场上最早推出的聊天机器人应用,不论是定位为个人助理还是情感陪伴助手,用户在使用30天后继续留存下来的比例都很低,仅有大约 6%。整个科技行业都在努力寻找新的突破点。OpenAI 不断为 ChatGPT 增加新功能;微软和 Google 等国际巨头公司则把 AI 技术融入到已有的互联网产品中,以吸引更多用户使用。同时,过去一年里,各家公司都对 Agent(智能体)技术表现出浓厚兴趣,希望通过大模型与工具和数据库的结合,找到新的应用方向。

字节跳动也不甘落后,他们不仅开发了超过十款直接面向消费者的大模型产品,还在企业服务市场进行了全面布局。

在12月18日,字节跳动旗下的云计算平台火山引擎举办了冬季 FORCE 原动力大会。在会上,他们升级了豆包系列的基础模型,推出了新的视觉理解模型,并特别介绍了一款此前不太为外界所知的产品——HiAgent。HiAgent 是一个专为企业打造的平台,旨在帮助他们快速创建基于大模型的应用程序和智能助手。可以把 HiAgent 想象成企业开发应用的工具包,就像 Android 是手机操作系统的工具包一样。火山引擎的副总裁张鑫这样形容。

在过去的一年多时间里,张鑫拜访了上百家企业。他发现,大多数公司都在尝试利用大模型来提高工作效率,但几乎没有公司能明确知道哪种使用方式最有效。

尽管没人能准确预测大模型未来的最佳使用方式,但企业不愿意错过这个机会。他们需要一个简单易用的平台,方便他们快速尝试和调整大模型应用。而这个平台也需要有足够多的企业参与,以便不断改进和更新。AI 应用未来不明朗,先搭建平台

HiAgent 并不是一个经过长时间反复推敲和深思熟虑后才推出的产品。今年 1 月,张鑫有了一个初步的想法后,便向火山引擎总裁谭待汇报,并迅速组建了一个十多人的小团队开始开发,边测试边改进。

2023 年初,ChatGPT 在国内引发了一股大模型开发的热潮。到 2023 年 4 月,火山引擎举办了一场发布会,谭待表示,中国有七成的大模型公司都在使用火山引擎的云服务。两个月后,火山引擎推出了一个名为“火山方舟”的大模型服务平台,为企业客户提供大模型的微调、推理、评估和部署等一系列服务。到了年底,大模型云计算市场的格局开始发生变化。随着国外开源模型技术的日益成熟,中国企业对从零开始开发大模型的热情逐渐减弱,直接购买GPU计算能力的客户数量也显著减少。即便是那些仍在购买的客户,也面临着更加激烈的市场竞争——例如,阿里巴巴投资了多家领先的大模型创业公司,其中一部分投资被转换为阿里云的计算资源。

与此同时,大模型的使用成本在下降,企业开发大模型应用的兴趣与日俱增。火山引擎内部迅速达成共识:大模型的计算资源使用重点将从以训练大模型为主,转向以使用大模型(即推理)为主。

火山引擎之前的方舟平台可以满足部分需求,但它仍然是一个对开发和工程经验要求较高的产品。正如张鑫所说,“它本质上是一个需要大量编程的工具。” 对大多数企业来说,使用起来仍然有一定的难度。今年2月,字节跳动在国内推出了一个名为“扣子”的AI应用开发平台。这个平台的特别之处在于,它把各种大型AI模型打包成简单易用的API接口。这样一来,开发者就可以更轻松地调用这些强大的AI模型,用于开发、调试和优化他们的AI应用。

虽然“扣子”扩大了字节跳动在企业服务领域的影响力,但它并没有完全满足传统企业在探索AI应用时的所有需求。

火山引擎总结了企业在使用AI时面临的五大挑战:首先是缺乏AI专业人才;其次是企业担心数据泄露;然后是开发专属应用的难度较大;再者是将AI集成到现有业务系统中的复杂性;最后是很难评估AI应用的效果。这些问题为HiAgent的价值提供了发挥的空间。HiAgent 的目标是帮助企业更好地进行 AI 转型,确保业务适配和安全性。简单来说,就是让每个人都能像搭建乐高一样轻松创建 AI 应用。为此,他们把开发 AI 应用的工具打包成不同的模块,比如“聊天机器人”、“插件”、“工作流”、“知识库”等,让企业可以方便地使用。

张鑫认为,现在很多企业对于大模型的实际需求还不太明确,因此快速开发和试错的能力非常重要。这种方法也是字节跳动开发产品的一个重要策略,火山引擎希望通过 HiAgent 将这种能力传递给企业。为了激发企业客户对大模型应用的兴趣,他们为这些应用设定了成熟度等级。张鑫解释说:“企业在开发AI应用时,往往没有一个明确的步骤,这让他们在投资时犹豫不决,不知道是应该随着技术逐步成长,还是等到技术完全成熟后再一次性投入。” 对于那些正在开发AI应用的企业来说,他们也很难判断自己处于什么水平。

在新技术出现时,为其划定等级是行业常见的做法。例如,在自动驾驶领域,技术水平从L0到L5不等,依据的是人类参与的程度。然而,这类分级通常充满了专业术语,让人难以理解。火山引擎则借鉴了游戏中的段位,如“青铜”、“黄金”、“王者”,以此来降低理解的难度。火山引擎根据大模型的能力,发现了两个未来可能会有巨大潜力的应用方向:

  1. 人力密集且员工流动频繁的场景:比如客服和导购行业。企业通常很难找到一种高效的方法来培训员工,并将所需技能标准化。大模型可以通过分析大量的数据,提炼出员工需要遵循的模式,从而帮助企业降低培训和运营成本。

  2. 知识密集且员工成本高的场景:例如科研、教育和法律领域。在这些领域,专家的长期知识积累为企业带来了很高的价值。虽然大模型短期内无法达到顶级或资深专家的水平,但它可以通过学习大量的文献资料来满足一些初级或中级的需求。

从超过100个客户的反馈中,火山引擎总结出了三个重要趋势。今年5月15日,名为HiAgent的产品正式推出。同时,火山引擎平台上的豆包大模型也大幅降价,这使得HiAgent迅速成为火山引擎增长最快的企业服务产品之一。

根据张鑫的介绍,自HiAgent上线7个月以来,已经有超过100家客户选择了它。这些客户来自各个领域的知名公司,比如宁德时代和飞鹤,金融行业的华泰证券和国信证券,以及高校如浙江大学和南开大学等。

这些客户不仅为火山引擎带来了新的收入,还帮助HiAgent不断改进。12月18日,火山引擎发布了HiAgent的1.5版本,这次升级的核心功能是基于他们观察到的AI应用落地趋势。

即使不会编程,也能开发AI应用HiAgent 刚刚推出没多久,火山引擎就与浙江大学达成了合作,这让张鑫感到非常意外。

在这个项目中,他们原本计划像推广云平台服务一样,不仅要负责培训用户如何使用平台,还准备亲自参与开发一些应用。然而,令人惊讶的是,仅仅在上线一周后,浙大就已经开发出了6款应用。这些应用包括科研助手、课堂问答、教务问答、百事通以及本地生活助手等。

这些应用的开发主要由浙大的老师、学生以及校园内各种信息系统的服务商完成。张鑫表示,以前的应用开发流程是用户提出需求,然后由IT部门开发,这样容易导致用户等待时间过长,而且最终功能可能不符合预期。而现在,最了解业务的人直接成为了开发者。在他看来,这个变化带来了两个好消息,解决了云计算行业一直以来的两个难题。首先,以前企业购买云计算产品后,效果不容易立竿见影,因为这些产品大多是在软件的底层运行。但现在,开发流程变得简单明了,企业可以直接看到成果,像是“眼见为实”。其次,云计算公司推出的低代码软件开发工具常常让人无所适从:专业用户觉得这些工具限制太多,不够灵活;而新手用户则觉得太复杂,难以上手。如今,这些问题都有了改善的可能。火山引擎在为国家管网等客户提供 HiAgent 服务时,发现了类似的需求。因此,他们为 HiAgent 设计的首要功能就是“普敏捷”,这意味着他们希望降低平台的使用难度,让更多人能够轻松开发 AI 应用。在最近的发布会上,火山引擎还推出了 HiAgent 上的 100 种行业“模板”,企业客户可以一键复制这些模板,用于开发自己的应用。

为了更好地解决问题,大型模型需要通过知识增强来提升能力。张鑫对一家知名电池公司的合作印象深刻。与浙江大学仅用一周时间就开发出大模型应用不同,这家电池公司的业务情况更为复杂。火山引擎与这家公司合作时,投入了几十名人员,历时半年,才初步将 HiAgent 应用落地。

当火山引擎开始与这家电池公司合作时,他们已经整理出上千种可以引入 AI 的业务场景。这些场景涉及提升内部流程效率、研发支持、市场营销等多个领域。他们也组建了团队,尝试开发大模型应用,但通常需要一个月甚至更长的时间。

HiAgent 能够加速应用开发的过程,但无法快速解决电池公司面临的核心问题——如何整理过去十多年积累的文档,并将其转化为大模型可以轻松使用的工具,以便更好地解决实际问题。在这次合作中,他们深刻体会到大模型在企业应用中的一些限制:大模型只能回答现有的问题,而不能主动提出新问题;它能够分析和总结已有的知识,但无法创造出新的知识;它擅长处理特定结构化的信息,却难以应对不规则的数据体系;此外,它对现实世界的理解仍然不够全面,有时会产生错误的理解或“幻觉”。

“关键在于做好知识工程。”张鑫表示,与顶尖电池公司的合作中,大部分时间都用于加强知识的整合和应用,为大模型的有效使用打下基础。

目前,大模型行业中有一套常见的企业应用开发流程:首先,使用企业专有的数据来微调大模型,或者将这些数据转化为向量数据库。然后,通过检索增强方法(RAG),让大模型能够更好地调用这些数据,以便解决问题。张鑫指出,从数据到知识之间存在很大的差距。真正的知识往往不在企业的文档或数据库中,而是蕴藏在员工的头脑和经验中,以及企业的决策流程中。为了解决这个问题,他们采取了一种结合技术手段的“社会工程”方法。

他们的做法是,首先基于已有的文档和数据,对电池公司各个领域的专家进行访谈,从中提取信息,建立一个知识库。接下来,他们对模型进行训练,并召集员工对模型的回答进行反馈。这一过程被称为基于人类反馈的强化学习,目的是根据实际情况对模型进行调整和优化。在这个基础上,火山引擎推出了 HiAgent 的第二个功能点——“图知识”。这个功能利用 GraphRAG 等技术,能够更好地处理分散的文档和零碎的信息,建立起不同知识之间的联系。这样一来,就能帮助客户整理出一个更能发挥大模型能力的知识库,从而提升大模型的逻辑推理能力。相比传统的 RAG 技术,GraphRAG 还能让大模型的回答更加准确。

张鑫认为,“积累知识资产是客户更愿意投入的地方。” 随着强大大模型的普及,企业之间的竞争优势可能会被削弱,而知识增强工程将成为新的竞争力。

仅仅依靠大模型聊天机器人是不够的,还需要更丰富的互动方式自从 ChatGPT 出现后,我们发现大型人工智能模型在理解和处理自然语言方面真的很厉害。这让很多行业开始更加重视自然语言的交流方式,大家也都认为:就像手机和电脑时代的图形界面(GUI)一样,自然语言交流(LUI)将会变得越来越普遍,成为大模型时代的主要交流方式。

聊天机器人也因此成为了大模型应用的一个重要形式,并且发展得非常快。根据市场调研公司 Mordor Intelligence 的数据,预计到 2024 年,聊天机器人的市场规模将达到 70 亿美元,而在接下来的五年里,这个数字将增长到 208 亿美元。在电池行业引入 HiAgent 的过程中,张鑫意识到仅仅依靠聊天机器人来使用大模型是不够的。他指出,大模型需要与企业内部的流程和工具相结合,尤其是在严肃的生产环境中,更需要将大模型与小模型结合使用。因为有些问题如果交给通用的大模型来解决,会非常耗时耗力,而使用一个成熟的小算法可能更快更有效。

为了将各种大模型应用整合到企业的流程中,需要一个统一的框架或平台。否则,每次开发一个新应用时,都需要重新与业务系统和各种工具进行对接。火山引擎的解决方案是,将企业内部使用的工具和算法制作成插件,这样大模型应用可以方便地调用这些插件,并在一个插件中心进行管理,简化开发过程。现在,很多企业在内部使用 HiAgent 来建立自己的大模型应用系统。为此,火山引擎推出了 HiAgent 的一个新功能,叫做“富交互”。这个功能结合了自然语言和图形界面的互动,推出了一种叫“生成式画布”的新工具。

除了这些核心功能,火山引擎还为 HiAgent 增加了一个名为“AI 咨询”的服务,并将其作为一个独立的商业产品。正如张鑫所说,要让大模型应用成功,云服务提供商的技术只能解决一半的问题,另一半需要企业自身的努力。企业需要在日常业务中不断积累数据和知识,并对 AI 系统进行调整和训练。虽然云计算厂商能提供的帮助有限,但通过咨询服务,他们可以为企业提供一些有价值的建议和启发。

大模型应用于企业:云计算的新挑战云计算行业对后来者并不太友好。当一家公司长期使用某个云平台时,不仅会把大量数据存储在该平台上,开发人员也会习惯于使用这个平台的开发工具和方法。如果公司想要换到另一个云平台,可能会面临很高的成本和麻烦。

此外,云计算业务还具有明显的规模效应。那些早早进入市场的公司积累了大量客户后,不仅能在与供应商和客户的价格谈判中占据优势,还能通过合理安排用户使用资源的时间,出售更多的计算资源。这使得他们有更大的空间来降低价格,吸引更多客户。曾在 Google Cloud 工作的张鑫,亲身感受到了竞争对手的追赶。起初,Google 想通过其 Web 应用程序开发和托管平台 App Engine 来占据市场。然而,这个平台并不够简单,功能也不如企业内部系统完善。那时,客户更关注的是基础资源,如灵活的计算能力和存储空间。后来,Google 开放了容器化应用程序 Kubernetes(简称 K8s),这让使用云平台的客户更方便地进行迁移。

正因为如此,张鑫创立了才云科技,专注于提供基于 K8s 的云服务。他发现,K8s 让客户不再过于依赖某一个公共云平台。他提到,“有些客户在使用 K8s 后,发现他们甚至不再需要公共云。”到了2020年,字节跳动收购了才云科技,张鑫也因此加入了字节跳动旗下的火山引擎团队。

当火山引擎开始提供服务时,中国的云计算行业已经有了多年的发展,竞争非常激烈,但市场的普及率还不高。云计算公司们面临一个共同的挑战:它们无法控制电力、带宽等基础设施的成本。同时,许多传统企业出于各种原因选择自己建立数据中心。

大模型的出现为云计算市场带来了新的变化。大模型的运行需要大量的GPU支持,而不是以前云计算平台主要依赖的CPU芯片。这意味着在这个新兴市场中,各大云平台几乎都站在同一起跑线上。大模型技术的迅猛发展将促使许多新创业公司涌现。正如张鑫所说,这些公司通常不是云计算领域的传统客户,但这却是一个类似互联网和移动互联网刚起步时的巨大机会。过去市场上的大型云平台都是随着技术的革新而逐步壮大的。

开发大模型应用程序非常依赖于底层的模型和基础设施。张鑫指出,即使是开源模型,如果没有优质的基础设施支持,也很难顺利运行。要想开发出优秀的大模型应用程序,相关的工具是必不可少的。如果要进行多模态应用开发,还需要调用语音、图片等不同类型的模型。

从2023年开始,字节公司已经训练了一系列基础模型,涵盖了语言、语音、图像生成和视频生成等所有主要领域。字节公司在现有大模型技术的基础上,推出了多个面向消费者的产品,比如豆包、猫箱和扣子等。其中,豆包App在中国市场上表现突出,成为日活跃用户数最高的大模型应用,远远超过了排名第二的产品。此外,字节还通过火山引擎开放了模型API,迅速进入企业市场。今年5月,火山引擎大幅降低了豆包大模型的使用费用,其核心语言模型的价格一度比竞争对手低了99.3%。

到了年中,当中国的大模型行业开始显现疲软迹象时,字节加大了投入力度,并吸引了一批优秀人才加入团队。HiAgent 是火山引擎在企业服务市场推出的一项新技术。与传统的 K8s 技术不同,HiAgent 与豆包大模型紧密合作。字节跳动开发的一系列大模型为 HiAgent 提供了强大的技术支持,而像豆包 App 这样的消费者产品也能为 HiAgent 带来更多用户。反过来,HiAgent 也成为企业客户使用豆包大模型的入口,使他们能够快速开发 AI 应用程序,这不仅增加了豆包等基础模型的使用,还推动了计算资源的消耗,帮助字节跳动不断改进和完善其大模型的基础设施和产品。

火山引擎的总裁谭待透露,今年 12 月,豆包系列模型的日均使用量已经超过了 40000 亿次 tokens,比 5 月增长了 33 倍。根据市场研究公司IDC的数据,今年上半年,火山引擎虽然没有投资任何大模型初创公司,但在中国的大模型基础设施即服务(IaaS)市场中,已经占据了第二的位置,仅次于阿里云。

我们了解到,火山引擎在大模型领域的快速增长也促进了其传统云计算服务的发展。现在,火山引擎的一部分CPU计算能力和数据库需求是由大模型客户带来的。

每当有颠覆性的新技术出现时,总会有一些公司抓住机会实现快速发展。这不仅是那些使用大模型技术的企业的机会,也是那些为企业提供大模型支持的平台的机会。