在人工智能的发展长河中,我们正站在一个激动人心的转折点。
想象一下,未来的人工智能什么样?只需简单一个指令,它们便能领悟并执行复杂的任务;它们还能通过视觉捕捉用户的表情和动作,判断其情绪状态。这不再是好莱坞科幻电影中的场景,而是正逐步走进现实的AI智能体时代。
早在2023年11月,微软创始人比尔·盖茨就发文表示,智能体不仅会改变每个人与计算机交互的方式,还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。OpenAI首席执行官山姆·奥特曼也曾在多个场合表示:构建庞大AI模型的时代已经结束,AI智能体才是未来的真正挑战。今年4月份,AI著名学者、斯坦福大学教授吴恩达指出,智能体工作流将在今年推动AI取得巨大进步,甚至可能超过下一代基础模型。
类比智能电动汽车,犹如其在新能源技术应用和里程焦虑之间寻找到某种平衡的增程路线一样,AI智能体让人工智能进入了“增程模式”,在AI技术和行业应用之间尽可能达成新的平衡。
被看好的AI智能体
顾名思义,AI智能体就是具有智能的实体,能够自主感知环境、做出决策并执行行动,它可以是一个程序、一个系统,也可以是一个机器人。
去年,斯坦福大学和谷歌的联合研究团队发表了一篇题为《生成式智能体:人类行为的交互式模拟》的研究论文。在文中,居住在虚拟小镇Smallville的25个虚拟人在接入ChatGPT之后,表现出各种类似人类的行为,由此带火了AI智能体概念。
此后,很多研究团队将自己研发的大模型接入《我的世界》等游戏,比如,英伟达首席科学家Jim Fan在《我的世界》中创造出了一个名叫Voyager的AI智能体,很快, Voyager表现出了十分高超的学习能力,可以无师自通地学习到挖掘、建房屋、收集、打猎等游戏中的技能,还会根据不同的地形条件调整自己的资源收集策略。
OpenAI曾列出实现通用人工智能的五级路线图:L1是聊天机器人;L2是推理者,即像人类一样能够解决问题的AI;L3是智能体,即不仅能思考,还可采取行动的AI系统;L4是创新者;L5是组织者。这其中,AI智能体恰好位于承前启后的关键位置。
作为人工智能领域的一个重要概念,学术界和产业界对AI智能体提出了各种定义。大致来说,一个AI智能体应具备类似人类的思考和规划能力,并具备一定的技能以便与环境和人类进行交互,完成特定的任务。
或许把AI智能体类比成计算机环境中的数字人,我们会更好理解——数字人的大脑就是大语言模型或是人工智能算法,能够处理信息、在实时交互中做出决策;感知模块就相当于眼睛、耳朵等感官,用来获得文本、声音、图像等不同环境状态的信息;记忆和检索模块则像神经元,用来存储经验、辅助决策;行动执行模块则是四肢,用来执行大脑做出的决策。
长久以来,人类一直在追求更加“类人”甚至“超人”的人工智能,而智能体被认为是实现这一追求的有效手段。近些年,随着大数据和计算能力的提升,各种深度学习大模型得到了迅猛发展。这为开发新一代AI智能体提供了巨大支撑,并在实践中取得了较为显著的进展。
比如,谷歌DeepMind人工智能系统展示了用于机器人的AI智能体“RoboCat”;亚马逊云科技推出了Amazon Bedrock智能体,可以自动分解企业AI应用开发任务等等。Bedrock中的智能体能够理解目标、制定计划并采取行动。新的记忆保留功能允许智能体随时间记住并从互动中学习,实现更复杂、更长期运行和更具适应性的任务。
这些AI智能体的核心是人工智能算法,包括机器学习、深度学习、强化学习、人工神经网络等技术。通过这些算法,AI智能体可以从大量数据中学习并改进自身的性能,不断优化自己的决策和行为,还可以根据环境变化做出灵活地调整,适应不同场景和任务。
目前,AI智能体已在不少场景中得到应用,如客服、编程、内容创作、知识获取、财务、手机助手、工业制造等。AI智能体的出现,标志着人工智能从简单的规则匹配和计算模拟向更高级别的自主智能迈进,促进了生产效率的提升和生产方式的变革,开辟了人们认识和改造世界的新境界。
AI智能体的感官革命
莫拉维克悖论(Moravec’s paradox)指出,对于人工智能系统而言,高级推理只需非常少的计算能力,而实现人类习以为常的感知运动技能却需要耗费巨大的计算资源。实质上,与人类本能可以完成的基本感官任务相比,复杂的逻辑任务对AI而言更加容易。这一悖论凸显了现阶段的AI与人类认知能力之间的差异。
著名计算机科学家吴恩达曾说:“人类是多模态的生物,我们的AI也应该是多模态的。”这句话道出了多模态AI的核心价值——让机器更接近人类的认知方式,从而实现更自然、更高效的人机交互。
我们每个人就像一个智能终端,通常需要去学校上课接受学识熏陶(训练),但训练与学习的目的和结果是我们有能力自主工作和生活,而不需要总是依赖外部的指令和控制。人们通过视觉、语言、声音、触觉、味觉和嗅觉等多种感官模式来了解周围的世界,进而审时度势,进行分析、推理、决断并采取行动。
AI智能体的核心在于“智能”,自主性是其主要特点之一。它们可以在没有人类干预的情况下,根据预设的规则和目标,独立地完成任务。
想象一下,一辆无人驾驶车装备了先进的摄像头、雷达和传感器,这些高科技的“眼睛”让它能够“观察”周围的世界,捕捉到道路的实时状况、其他车辆的动向、行人的位置以及交通信号的变化等信息。这些信息被传输到无人驾驶车的大脑——一个复杂的智能决策系统,这个系统能够迅速分析这些数据,并制定出相应的驾驶策略。
例如,面对错综复杂的交通环境,自动驾驶汽车能够计算出最优的行驶路线,甚至在需要时做出变道等复杂决策。一旦决策制定,执行系统便将这些智能决策转化为具体的驾驶动作,比如转向、加速和制动。
在基于庞大数据和复杂算法构建的大型智能体模型中,交互性体现得较为明显。能够“听懂”并回应人类复杂多变的自然语言,正是AI智能体的神奇之处——它们不仅能够“理解”人类的语言,还能够进行流畅而富有洞察力的交互。
AI智能体不仅能迅速适应各种任务和环境,还能通过持续学习不断优化自己的性能。自深度学习技术取得突破以来,各种智能体模型通过不断积累数据和自我完善,变得更加精准和高效。
此外,AI智能体对环境的适应性也十分强大,在仓库工作的自动化机器人能够实时监测并避开障碍物。当感知到某个货架位置发生变化时,它会立即更新其路径规划,有效地完成货物的拣选和搬运任务。
AI智能体的适应性还体现在它们能够根据用户的反馈进行自我调整。通过识别用户的需求和偏好,AI智能体可以不断优化自己的行为和输出,提供更加个性化的服务,比如音乐软件的音乐推荐、智能医疗的个性化治疗等等。
多模态大模型和世界模型的出现,显著提升了智能体的感知、交互和推理能力。多模态大模型能够处理多种感知模式(如视觉、语言),使智能体能够更全面地理解和响应复杂的环境。世界模型则通过模拟和理解物理环境中的规律,为智能体提供了更强的预测和规划能力。
经过多年的传感器融合和AI演进,机器人现阶段基本上都配备有多模态传感器。随着机器人等边缘设备开始具备更多的计算能力,这些设备正变得愈加智能,能够感知周围环境,理解并以自然语言进行沟通,通过数字传感界面获得触觉,以及通过加速计、陀螺仪与磁力计等的组合,来感知机器人的比力、角速度,甚至机器人周围的磁场。
在Transformer和大语言模型(LLM)出现之前,要在AI中实现多模态,通常需要用到多个负责不同类型数据(文本、图像、音频)的单独模型,并通过复杂的过程对不同模态进行集成。
而在Transformer和LLM出现后,多模态变得更加集成化,使得单个模型可以同时处理和理解多种数据类型,从而产生对环境综合感知能力更强大的AI系统,这一转变大大提高了多模态AI应用的效率和有效性。