跳转到内容

对话谷歌 Project Astra 研究主管:主动视频交互和全双工对话是未来重点


Project Astra 的愿景之一是:「不仅在你说话时能回应,还能在整个过程中帮助你。」

最近,Google DeepMind 的 YouTube 频道采访了他们的研究主管格雷格·韦恩 (Greg Wayne)。
他在 DeepMind 的许多突破性研究中都发挥了重要作用,这些研究涉及强化学习、神经网络架构搜索和大型语言模型等领域。
这次访谈深入探讨了一个名为 Project Astra 的项目,这是一个旨在探索未来通用人工智能助手能力的研究原型,目标是更好地理解用户周围的世界。主持人与格雷格·韦恩讨论了这个研究原型的灵感来源、当前的优点和限制,以及未来可能的应用场景。
我们从访谈中挑选了一些精彩内容,希望能为大家带来新的启发,enjoy~
核心要点


基于 Gemini 的智能助手原型: Project Astra 是一个比 Google Assistant 和 Gemini 更先进的智能助手,设计目的是与用户一起观察、交流并理解世界,并能够通过多种设备进行互动。

多模态交互的核心体验: Astra 结合了视觉、语音和语言模型等多种技术,提供实时的识别、理解和互动体验,还支持多语言对话和动态推理。

智能眼镜的终极目标: 虽然 Astra 目前主要在智能手机上使用,但它的终极梦想是通过智能眼镜等设备,为用户带来更自然、更真实的增强现实体验。未来,它也有可能在手机、电脑或VR头显上运行,为用户提供更多选择。

主动性和记忆功能的突破: Astra 不仅可以根据用户的指令执行任务,还能主动提供帮助,比如提醒用户购买东西。此外,它还能记住过去10分钟内发生的事情,并提取出重要的信息。

计算机视觉与神经科学的启发: 这个项目从神经科学和人类社会智能中汲取灵感,特别关注如何模拟人类的行为、记忆和协作能力,并强调视频在“原始通用人工智能”系统中作为“连接纽带”的重要角色。

未来发展的重点: 团队将致力于开发能够主动监测视频、实时引导用户的功能,以及支持同时听和说的全双工自然对话功能。

Project Astra:
与 Greg Wayne 一起探索通用AI助手
Project Astra: 探索一个通用AI助手,与Greg Wayne一同探讨

主持人: Hannah Fry
受访者: Greg Wayne,Google DeepMind研究主管

注:为了便于阅读,本文内容已被简化,并非完整对话。你可以访问原文收听完整版播客。

在 Gemini 基础上更进一步的 AI 助手

**Hannah Fry:**欢迎收听 Google DeepMind 的播客。在今天的节目中,我们将探讨一个名为 Project Astra 的研究原型,这个项目正在突破通用 AI 助手的界限。Greg,欢迎再次加入我们的讨论。
**Greg Wayne:**你好,Hannah。
Hannah Fry:让我们从头开始吧。Project Astra 到底是什么呢?
Greg Wayne:Project Astra 是一个旨在开发一种具备视觉、听觉和语音能力的 AI 助手。这个助手可以通过
智能眼镜、手机或电脑
随时随地陪伴在你身边,观察你的活动并与你互动。
**Hannah Fry:**就像一个坐在你肩膀上的小助手一样?
**Greg Wayne:**是的,类似于一只栖息在你肩膀上的鹦鹉,它能与你一起观察周围的世界,并与你交流。**Hannah Fry:**而且它比你更聪明。**Greg Wayne:**在某些方面确实如此。
**Hannah Fry:**这与 Google Assistant 或 Gemini 有什么不同呢?

**Greg Wayne:**是的,以前的 Google Assistant 更像是一个用来控制家里设备或获取信息的工具。而 Project Astra 则更像是一个可以和你一起讨论各种话题的伙伴。它是基于一个叫 Gemini 的智能核心开发的,Astra 和 Gemini 之间有着紧密的合作关系,它们相互影响和塑造。

**Hannah Fry:**Project Astra 还是一个研究中的原型,为什么现在要展示它呢?

**Greg Wayne:**让公众参与进来是件好事。人们应该知道实验室里正在研究什么,并且可以提供他们的意见。这是一个共同创造的过程,不仅仅是在实验室里进行的,而是和全世界的用户一起合作完成的。

**Hannah Fry:**所以已经有人在现实生活中使用它了吗?

**Greg Wayne:**是的,我们有一些值得信赖的测试者,他们是早期的用户。

**Hannah Fry:**人们用它来做什么?

**Greg Wayne:**比如说,他们用它来获取时尚建议。Project Astra 就像一个朋友,你可以问它「这件衣服该怎么搭配?我怎样才能更时尚?」

「Astra 可以在后台运行,并在它认为合适的时候提醒你」

**Hannah Fry:**那么硬件方面呢?现在它是在智能手机上运行。将来会出现在眼镜上吗?

**Greg Wayne:**是的,智能眼镜给人的体验是非常贴近生活的,简直让人惊叹,因为它让你感觉自己像是得到了某种增强。不过,这种技术的核心软件其实并不依赖于特定的设备,它可以在手机、电脑甚至VR头显上运行。

**Hannah Fry:**对于那些视力受损或失明的人来说,这项技术也有可能带来很大的帮助。

**Greg Wayne:**是的,这正是我非常关注的一个方面。这项技术可以在很大程度上模拟一个在现实世界中帮助他们的伙伴。比如,它可以帮助那些在识别情绪和面部表情上有困难的人。它也可以用来进行自我训练,你可以通过它练习理解面部表情,并从Astra那里得到反馈。当然,还有记忆功能,当摄像头开启时,它会记住过去10分钟内的图像和谈话内容。我们还很兴奋的一点是它的主动性,它能够自己判断你需要什么,并在你没有明确指示的情况下提供帮助。比如,它可能会提醒你一些事情,比如「别忘了,你回家的路上需要买这个。」

**Hannah Fry:**所以你不需要主动去启动它或与它对话,它可以在后台默默运行,并在它认为合适的时候提醒你。

**Greg Wayne:**是的。比如当你快到家时,它可能会提醒你,「别忘了你需要买橙汁,因为你今天早上喝完了。」

Astra 依然面临「鸡尾酒会问题」挑战

**Hannah Fry:**你会经常需要纠正它吗?你会注意到一些小问题吗?

Greg Wayne: 没错。有时候,它会假装看不见明明就在眼前的东西。如果你用某种方式提醒它「你能看见」,它就会承认,「是的,我能看见。」
Hannah Fry: 所以它很容易受到鼓励?
Greg Wayne: 是的。
Hannah Fry: 在什么情况下它的表现会不太好呢?
Greg Wayne: 在嘈杂的环境中,它很难分辨出不同的声音。它可能会把这些声音误以为是用户的声音。嘈杂的环境会让它感到困惑。
Hannah Fry: 当你说分辨不同的声音时,是指音波的形状吗?
Greg Wayne: 是的。这是一个老问题,叫做鸡尾酒会问题,技术上称为源分离。意思是把一个声音源和另一个声音源区分开来。
Hannah Fry: 我猜这让 Project Astra 变得很有挑战性,但同时也充满潜力。
Greg Wayne: 是的,它应该能够在更多背景信息下解决歧义。
Hannah Fry: 那不同的语言呢?它目前只支持英语吗?
Greg Wayne: 其实它是多语种的,能够处理大约 20 种语言,你甚至可以在同一次对话中切换语言。
Hannah Fry: 这真是太神奇了。

Greg Wayne: 我对这个系统在语言学习方面的应用感到非常兴奋。想象一下,你可以在不同的地方走动,然后问它,「那是什么?」就像在学校里学习一样,它会教你。

从动物中获得的“主动记忆”灵感

Hannah Fry: 当你在和这个系统互动时,它的内部到底是怎么运作的?有哪些不同的部分呢?
Greg Wayne: 首先,有一个应用程序负责收集视频和音频数据。它连接到一个服务器,服务器上有视觉和音频编码器。还有一个专门的音频系统,用来判断你什么时候停止说话。这些都和一个叫做Gemini的大型语言模型相连。感觉编码器收集到的信息会直接发送给Gemini,然后Gemini会做出回应。还有一个叫做“智能体”的部分,它会获取视频和音频,并调用一些搜索工具,比如Google Lens、Google Search或Google Maps,还有一个记忆系统。
Hannah Fry: 我试着想象一下,我们只是用它来识别一本书,底层就有计算机视觉、语音识别、大型语言模型、Google Search在支持,还有一个帮助你做出决策的代理层。所有这些的反应几乎是瞬间的。这真是非常复杂的事情。
Greg Wayne: 是的,确实很复杂。很少有人能完全理解输入到这个模型的数据。而且,为什么它会产生这样的结果,可能没有人能真正解释清楚。

**Hannah Fry:**让我们聊聊AI的起源。在我们播客的第一季,你是首位嘉宾,当时你从动物的行为中找到了研究智能的灵感。特别是,你提到了西丛鸦,它们的行为启发了AI在复杂记忆能力上的进步。我来放一段当时的录音。
播放 Greg Wayne 之前的录音 :……想象一下有一个巨大的数据库,记录了你所做和所见的一切,然后用这些信息来指导你未来的行动——比如我饿了,想吃虫子,我该去哪里找呢?这就是我们想要模仿的……
**Hannah Fry:**你们成功了吗?
Greg Wayne:(笑)你好,Project Astra。你能帮我找些虫子吗?
**Hannah Fry:**这和你之前提到的橙汁例子很相似,不是吗?
**Greg Wayne:**这就是主动记忆的一个例子。

视频是「原始通用人工智能」的关键纽带

**Hannah Fry:**你的神经科学背景在多大程度上影响了Project Astra的开发?

**Greg Wayne:**我们通过研究大脑的工作方式来判断我们什么时候做得足够好,这样我们就能更深入地思考“记忆到底是什么”。如果我们想要开发一种更贴近人类的智能,也许我们应该朝着一种更像人类的方式发展,而不仅仅是依赖文字界面。比如,我对 Michael Tomasello 的研究很感兴趣,他认为交流的基础是两个人在同一个地方,通过共同推理来达成目标,然后一起合作。这正是我们在这项技术中尝试模拟的内容。语音即入口:AI 语音交互如何重塑下一代智能应用

**Hannah Fry:**这个项目的最初灵感来自哪里?它是何时启动的?

Greg Wayne:DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战,让我们去思考什么是“原始的通用人工智能”。我更关注智能的社会性。我认为我们可以将“原始通用人工智能”与一个有益的助手联系起来,其主要目标是为与之互动的人类创造价值。当我试图让它变得非常自然时,我逐渐意识到视频可能是系统最终的关键连接点

**Hannah Fry:**在这个过程中,有没有出现过重大的突破?

Greg Wayne: 我们当时有一个重要的发现,就是我们意识到了“提示”的概念。也就是说,我们告诉系统它可以通过用户的摄像头来观察世界,这就像是给了它一种自己的视角。之前,我们不太确定是否能够有效地提示多模态系统。Hannah Fry: 这真是太有趣了。当有人提议要创建一个“原始通用人工智能”时,有人怀疑或不相信这种东西能实现吗?

Greg Wayne: 是的。回过头来看,AI 的发展确实有些奇怪,因为它进步得太快了,人们的观点也随着快速变化。当时,很多人对“系统是否真的能够理解世界”持怀疑态度。我们甚至没有关于不同性能水平的系统所需数据量的基本了解。Hannah Fry: 那么,有没有哪个时候你觉得这不可能实现?

Greg Wayne: 没有。我一直相信这有可能实现。有段时间我可能想过放弃。我认为在 Gemini 出现之前有一段发展较慢的时期,那段时间很艰难。但我从未动摇过它一定能实现的信念。Hannah Fry: 我听说,在测试阶段,你们有一个叫 Project Astra 的房间。那里发生了什么?

Greg Wayne: 我们在一个特别的房间里玩各种游戏。那里有一个完整的酒吧,所以 Astra 可以帮你调酒。还有一个美术馆,你可以在屏幕上展示不同的画作,然后问一些关于艺术的问题。

Astra 系统的低延迟实现

Hannah Fry: 我们来聊聊Astra系统背后的运作。延迟问题很重要,你们是怎么解决的呢?

Greg Wayne: 我们通过让应用程序更快地传递信息来改进视频流。视频进入视觉系统后,我们会尽量加快处理速度。而且,我们把大型语言模型和视频处理放在同一个地方、同一组计算机上,这样就不需要跨越国家或大陆进行数据传输。

Hannah Fry: 所以,为了实现实时理解,你们需要把这些运行模型的计算机硬件放在一起?

Greg Wayne: 没错。我们还考虑使用原生音频。以前的系统需要先把音频转换成文本,而我们现在直接处理音频,这样就不需要额外的步骤。直接使用音频的好处是,它能理解一些不常见的词汇或发音。最后,我们的团队在「端点检测」方面做得很好,它能准确判断你什么时候停止说话,并在你话音刚落时,快速做出反应。

Hannah Fry: 你们会提前预测可能的答案吗?

Greg Wayne: 是的,这确实很有挑战性。我们的系统需要具备「语义理解」能力,因为它不仅要理解上下文,还要理解声音。

Project Astra的推理能力

**Hannah Fry:**你觉得Project Astra能进行推理吗?

**Greg Wayne:**是的。它的推理主要依赖于神经网络内部的复杂结构,这种方式非常难以直接观察。它有时也会通过对话来进行推理。

记忆功能与隐私保护

**Hannah Fry:**我想多了解一下它的记忆功能。它能记住过去10分钟内发生的事情,对吗?

**Greg Wayne:**是的,基本上是10分钟。这是因为芯片上的内存容量有限。

**Hannah Fry:**所以它就像一个录像机,记录了过去10分钟发生的一切?

**Greg Wayne:**没错。此外,还有一个二级系统,当你关闭它时,它会对对话进行总结,并提取出相关的信息。

**Hannah Fry:**它是如何判断哪些信息值得记住的?

**Greg Wayne:**它使用了一种启发式的方法。如果你明确要求它记住某些内容,它会记住。否则,它会分析用户是否表达了新的、有趣的或与之前偏好不同的观点。

**Hannah Fry:**关于隐私问题,你们是如何处理的?

**Greg Wayne:**我们主要依靠用户的同意。用户可以查看、删除或管理他们之前记录的数据。

**Hannah Fry:**用户确实会最终掌控它所了解的个人信息。
**Greg Wayne:**没错。
**Hannah Fry:**DeepMind 的伦理学家 Iason Gabriel 的研究对你们的 Astra 项目有多大影响?
**Greg Wayne:**我们与 Iason 进行了很多交流,并与他的团队密切合作。他们一直在研究模型和整个代理系统,分析其在不同情境下的表现。我们还设置了一层安全过滤器,以防止用户受到伤害。

未来的重点:互动视频和自然对话

**Hannah Fry:**那么,你们接下来的重点是什么呢?
**Greg Wayne:**我对互动视频的研究非常感兴趣。也就是说,系统不仅仅是在你说话时做出反应,还能在整个过程中为你提供帮助。比如,这可以用于为盲人提供视觉指导。当你在走动时,因为看不见,系统会提醒你,「小心前面的桌子」。它可以持续地引导你。我们在音频输出方面也做了很多工作,涉及到所谓的「全双工」技术。它可以同时进行听和说,这可能有点让人分心。它可能会打断你,但这更接近于自然对话。当你说话时,我可能会回应「嗯嗯」、「嗯嗯」,这就是确认的一部分。正如你所说,我们还会在推理、深层记忆和反思等方面投入更多精力。当系统调用工具进行更深入的查询和研究时,还有很多事情需要改进。

Hannah Fry: 非常感谢你来参加我们的节目,Greg。
Greg Wayne: 谢谢你,Hannah。
Hannah Fry: 我们对人工智能的期待变化得真快。现在,我们有了一个多模态代理的初步版本。这个系统可以看、听、记忆,理解上下文,进行推理,并且可以进行多语言的实时对话。虽然它还不是通用人工智能(AGI),但相比两年前我们讨论的系统,它已经有了显著的进步。

原视频链接:https://www.youtube.com/watch?v=ctWfv4WUp2I