提高大型语言模型的推理能力的技术

结合自然语言和编程，使 LLM 能够透明地解决数值、分析和基于语言的任务

Adam Zewe | MIT 新闻

2024 年 6 月 14 日

一项新技术使 GPT-4 等大型语言模型能够通过编写 Python 程序来更准确地解决数字或符号推理任务，该程序会生成对用户查询的正确答案。
图片来源：Christine Daniloff，麻省理工学院；iStock

大型语言模型（如支持 ChatGPT 的模型）在起草法律摘要、分析客户评论的情绪或将文档翻译成不同语言等任务上表现出色。

这些机器学习模型通常仅使用自然语言来处理信息和回答查询，这可能使它们难以执行需要数字或符号推理的任务。

例如，大型语言模型可能能够记住并背诵最近几任美国总统及其生日的列表，但如果问“1950 年后当选的哪位美国总统出生在星期三？”（答案是吉米·卡特），该模型可能会失败。

麻省理工学院和其他地方的研究人员提出了一种新技术，通过生成程序，使大型语言模型能够解决自然语言、数学和数据分析以及符号推理任务。

他们的方法称为自然语言嵌入式程序 (NLEP)，涉及提示语言模型创建和执行 Python 程序来解决用户的查询，然后将解决方案输出为自然语言。

他们发现 NLEP 使大型语言模型能够在广泛的推理任务上实现更高的准确性。该方法也是可推广的，这意味着一个 NLEP 提示可以重复用于多个任务。

NLEP 还提高了透明度，因为用户可以检查程序以准确了解模型如何推理查询，并在模型给出错误答案时修复程序。

“我们希望人工智能能够以透明和值得信赖的方式进行复杂的推理。虽然还有很长的路要走，但我们已经证明，在大型语言模型中结合编程和自然语言的能力，是迈向未来人们能够完全理解和信任他们的人工智能模型内部发生的事情的非常好的潜在第一步，”麻省理工学院博士后、NLEP 论文的共同主要作者 Hongyin Luo 博士 ’22 说道。

与 Luo 一起撰写这篇论文的还有香港中文大学研究生张天华、北京大学本科生葛嘉欣、麻省理工学院电气工程与计算机科学系助理教授兼计算机科学与人工智能实验室 (CSAIL) 成员 Yoon Kim、CSAIL 高级研究科学家兼口语系统小组负责人 James Glass 等人。这项研究将在计算语言学协会北美分会的年度会议上发表。

使用程序解决问题

许多流行的大型语言模型通过预测给定一些自然语言输入的下一个单词或标记来工作。虽然像 GPT-4 这样的模型可用于编写程序，但它们将这些程序嵌入自然语言中，这可能导致程序推理或结果出现错误。

对于 NLEP，麻省理工学院的研究人员采取了相反的方法。他们提示模型完全用 Python 代码生成一个分步程序，然后将必要的自然语言嵌入程序中。

NLEP 是一个包含四个步骤的问题解决模板。首先，模型调用解决任务所需的必要包或函数。第二步涉及导入任务所需知识的自然语言表示（例如美国总统生日列表）。对于第三步，模型实现了一个计算答案的函数。最后一步，模型将结果输出为一行自然语言，并在需要时自动进行数据可视化。

“它就像一个数字计算器，只要程序正确，它就总能给出正确的计算结果，”罗说。

用户可以轻松调查程序并直接修复代码中的任何错误，而不需要重新运行整个模型来排除故障。

这种方法还比其他一些方法更高效。如果用户有很多类似的问题，他们可以生成一个核心程序，然后替换某些变量，而无需重复运行模型。

为了提示模型生成 NLEP，研究人员给它一个编写 Python 程序的总体指令，提供两个 NLEP 示例（一个是数学的，一个是自然语言的）和一个测试问题。

“通常，当人们进行这种少量提示时，他们仍然必须为每项任务设计提示。我们发现我们可以为许多任务设置一个提示，因为它不是教 LLM 解决一个问题的提示，而是教 LLM 通过编写程序解决许多问题的提示，”Luo 说。

“让语言模型用代码推理为工具使用、输出验证、对模型功能和思维方式的更结构化的理解等提供了许多机会，”MIT-IBM Watson AI 实验室首席科学家 Leonid Karlinsky 说。

“这里没有魔法”

NLEP 在提示 GPT-4 解决一系列符号推理任务（例如跟踪打乱的物体或玩 24 点游戏）以及遵循指令和文本分类任务时实现了超过 90% 的准确率。研究人员发现，NLEP 的准确率甚至比特定于任务的提示方法高出 30%。该方法还显示出优于开源 LLM 的改进。