什么是Agent

workflow

我们当前使用LLM的方式是Non-agentic workflow (zero-shot) 的,就是问LLM一个问题,让它从头到尾一次性把内容写完。

比如: Please type out an essay on topic X from start to finish in one go, without using backspace.

而Agent的工作方式是不断循环迭代的,就像一个人的工作流程一样。

Agentic workflow也许长这样:

Write an essay outline on topic X

Do you need any web research?

Write a first draft.

Consider what parts need revision or more research.

Revise your draft.

Agentic Reasoning Design Patterns

四个主要的模式,前两个属于robust technology,通常是有效的,能得到效果提升;后两个是emerging technology,并不总是生效,但有时会让得到非常惊艳的结果。

  1. Reflection反思

例子:除了像prompt一个LLM一样让LLM为某个任务写代码,还在过程中与LLM有交互,比如在LLM给出代码后,继续追问说:“here’s code intended for a toas” 然后把LLM刚刚返回回来的代码再输入进去,然后让LLM继续 “the code carefully for correctness、efficiency、good construction”之类的。

只是简单把输入重新传给LLM,re-prompt它,就通常能得到很好的效果

  1. Tool use

例子:写单测,然后运行

人在处理问题时会大量借助工具,比如 分析工具(Wolfram Alpha、Bearly Code Interpreter、Code Execution)、搜索工具(Web browsing、Wikipedia、Productivity)、生产工具(Email、Calendar、Cloud Storage)、图像处理相关工具(Image generation、Image captioning、Object detection)等等

  1. Planning

例子:一个来自HuggingGPT的例子,输入是一张小男孩在骑脚踏车的图片,要求生产一张新图片,是一个女孩子在读书,姿势与传入的示例图片一样,然后用我的声音讲述一下图片内容。

这需要一套解决方案,要使用好几套模型,并把他们串起来:先做Pose Determination,生成一个“openpose model”,然后找一个Pose-to-Image模型,生成小女生照片,最后调用Image-toText和Text-To-Speech。

  1. Multi-agent collaboration

例子:两个agent,一个是coder agent、一个是Critic agent,然后两个agent对话。

搞个Agent玩一玩

参考文献

https://www.youtube.com/watch?v=sal78ACtGTc Andrew Ng对AI Agent的总结视频

Self-Refine: Iterative Refinement with Self-Feedback, Madaan et al. (2023)

Reflexion: Language Agents with Verbal Reinforcement Learning, Shinn et al. (2023)

Gorilla: Large Language Model Connected with Massive APIs, Patil et al. (2023)

MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action, Yang et al. (2023)

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Wei et al. (2022)

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face, Shen et al. (2023)

Communicative Agents for Software Development, Qian et al. (2023)

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, Wu et al. (2023)