8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png
AI干货
AI 提示词工程最新概述 AI教程和课程
AI助手 19天前 98

原作者:Aayush Mittal 翻译整理增减:开山怪

提示词工程,即设计提示 词输入给 LLM ,以 期望其反应的艺术和科学,已成为研究和开发的一个重要领域。

从增强 大语言模型(LLM) 推理能力到实现与外部工具和程序的无缝集成,提示词工程的最新进展正在开启 AI 的新领域。在这篇全面的技术博客中,我们将概述塑造提示词工程未来的最新技术和策略。

 

零样本提示包括在提示词中描述任务并要求 LLM 在没有任何示例的情况下解决该任务。例如,要将“奶酪”翻译成法语,零样本提示可能是:

Translate the following English word to French: cheese.

这种方法很简单,但可能会受到任务描述的模糊性的限制。

 

通过包含多个任务示例,小样本提示在零样本提示的基础上进行了改进。例如:

Translate the following English words to French:

1. apple => pomme

2. house => maison

3. cheese => fromage

该方法减少了歧义并为模型提供了更清晰的指导,利用了 LLM 的上下文学习能力。

指令提示明确描述了所需的输出,这对于经过训练可以遵循指令的模型特别有效。例如:

Translate the word "cheese" to French. The correct translation is "fromage."

GPT-4 等模型已经过特殊微调,可以准确遵循此类指令。

从 少到多的提示将复杂问题分解为更简单的子问题,按顺序解决每个问题,并使用先前解决方案的背景来指导后续步骤。这种方法对多步骤推理任务很有帮助。

提示词工程中最重要的突破之一是思维 (Chain of Tought) 提示的发展。该技术旨在通过鼓励 LLM 在提供最终答案之前生成逐步的思维过程或基本原理来引出和提高法学硕士的推理能力。

CoT 提示的工作原理是向 LLM 展示示例,这些示例不仅包括输入和输出,还包括导致解决方案的中间推理步骤或“思路链”。通过从这些示例中学习,LLM 可以在遇到新问题时生成自己的思路链,从而提高其解决复杂推理任务的能力。

例子:

输入:娜塔莉有 3 个苹果,她想和她的 2 个朋友平等分享。每个人能得到多少个苹果?思路:好的,让我们一步一步地分解一下:

娜塔莉有 3 个苹果

她想和两个朋友平等分享

所以总共有 3 个人(Natalie 和她的 2 个朋友)

为了平等地分享苹果,我们将苹果的总数( 3)除以人数(3)

3 除以 3 等于 1

因此,每个人将得到 1 个苹果。输出:每个人将得到 1 个苹果。

 

论文链接:arxiv.org/abs/2201.11903

自洽性 (Self- Consistency)通过生成多个思路链并对最终答案进行多数表决,提高了 CoT 提示的可靠性。这种方法可以减轻任何单一错误推理路径的影响。它首先对一组不同的推理路径进行采样,而不是只采用贪婪的路径,然后通过边缘化采样的推理路径来选择最一致的 答案。自洽利用了这样一种直觉,即复杂的推理问题通常允许多种不同的思维方式,从而得出其唯一的正确答案。

 

论文链接:arxiv.org/abs/2203.11171

虽然 CoT 提示已被证明对许多推理任务有效,但研究人员已经探索了更先进的提示策略来解决更复杂的问题。其中一种方法是 树( ToT)Tree of Though ts提示,它允许法学硕士同时生成多条推理或思维,评估自己解决问题的进展,并根据需要回溯或探索替代路径。这种方法利用广度优先或深度优先搜索等搜索算法,使法学硕士能 够在解决问题的过程中进行前瞻和回溯。

 

思维树提示已证明在 24 点游戏、创意写作和迷你填字游戏这三个需要非平凡规划或搜索的任务上,显著增强了 LLM 的解决能力。例如,在“24 点游戏”中,采用思 链提示的 GPT-4 仅解决了 4% 的任务,而 ToT 的方法成功率达到了 74%。

论文链接:arxiv.org/abs/2305.10601

思维图 (Graph-of- Thought)提高了 LLM 在执行复杂任务时的灵活性和效率。GoT 的图形结构可以实现动态路径选择,超越了传统的线性和树状认知模型。开源引擎 GoTFlow 展示了 GoT 的实际应用,促进了各个领域的自动化、数据驱动的决策。尽管在复杂性和透明度方面存在挑战,但 GoTFlow 在改进业务流程方面的潜力巨大。

 

论文链接:arxiv.org/abs/2401.06801

虽然 LLM 功能强大,但它们也存在固有的局限性,例如无法获取最新信息或进行精确的数学推理。为了解决这些缺点,研究人员开发出了一些技术,使 LLM 能够与外部工具和程序无缝集成。

个别 LLM 例如 ChatGPT 的插件商店就是集成了外部工具和程序。字节跳动的 Coze 平台也是集成有插件库。国内手机上的大语言模型 APP ,例如豆包、Kimi等,官方已经内置了网络搜索插件,可以让 LLM 执行搜索功能。

另外的第三方工具 Toolformer,它教导 LLM 识别需要使用外部工具的场景、指定要使用的工具、提供相关输入,并将工具的输出合并到最终响应中。这种方法涉及构建一个合成训练数据集,以演示各种文本到文本 API 的正确使用方法。

论文链接:arxiv.org/abs/2302.04761

另一个创新框架 Chameleon 采用“即插即用”方法,允许基于 LLM 的中央控制器生成自然语言程序,这些程序可组成和执行各种工具,包括 LLM、视觉模型、网络搜索引擎和 Python 函数。这种模块化方法使 Chameleon 能够利用不同工具和模型的优势来解决复杂的多模态推理任务。

论文链接:arxiv.org/abs/2304.09842

GPT4Tools通过自我指导方法对开源 LLM 进行微调以使用多模式工具,表明即使是非专有模型也可以有效地利用外部工具来提高性能。该 方法有助于开源 LLM 解决一系列视觉问题,包括视觉理解和图像生成。

论文链接:arxiv.org/abs/2305.18752

HuggingGPT将 LLM 与在线提供的专门深度学习模型集成在一起。这些系统分别使用检索感知微调过程和规划与协调方法来解决涉及多个模型的复杂任务。

项目地址:

huggingface.co/spaces/microsoft/HuggingGPT

除了与外部工具集成之外,研究人员还探索了通过将自然语言与编程结构相结合来增强 LLM 解决问题能力的方法。程序辅助语言模型 (PAL) 和思维程序 (PoT) 就是两种利用代码来增强 LLM 推理过程的方法。

PAL促使 LLM 生成一个将自然语言与代码(例如 Python)交织在一起的推理,然后可以执行该推理以产生最终解决方案。这种方法解决了 LLM 生成正确推理但产生不正确最终答案的常见失败情况。

论文链接:arxiv.org/abs/2211.10435

类似地, PoT 采用 SymPy 之类的符号数学库,允许 LLM 定义数学符号和表达式,这些符号和表达式可以使用 SymPy 的求解函数进行组合和求值。通过将复杂的计算委托给代码解释器,这些技术将推理与计算分离开来,使 LLM 能够有效地解决更复杂的问题。

理解和利用上下文窗口

LLM 的表现在很大程度上取决于他们处理和利用提示中提供的上下文的能力。研究人员已经研究了 LLM 如何处理长上下文以及不相关或分散注意力的信息对其输出的影响。

“ 迷失在中间”现象凸显了法学硕士往往更关注上下文开头和结尾的信息,而中间的信息经常被忽视或“丢失”。这一见解对快速工程具有重要意义,因为在上下文中仔细定位相关信息 可以显著影响性能。

另一项研究则侧重于减轻无关上下文的不利影响,因为无关上下文会严重降低 LLM 的表现。诸如自我一致性、忽略无关信息的明确指示以及包括展示如何用无关上下文解决问题的示例等技巧可以帮助 LLM 学会专注于最相关的信息。

虽然 LLM 擅长生成类似人类的文本,但其写作能力可以通过专门的提示策略进一步增强。其中一种技术是思维骨架 (SoT) 提示,旨在通过模仿人类写作过程来减少顺序解码的延迟。

SoT 提示包括提示 LLM 首先生成答案的骨架或大纲,然后并行调用 API 来填写每个大纲元素的详细信息。这种方法不仅可以缩短推理延迟,还可以通过鼓励 LLM 更有效地规划和构建其输出来提高写作质量。

另一种提示策略是密度链 (CoD) 提示,专注于提高 LLM 生成的摘要的信息密度。通过在保持长度不变的情况下迭代地将实体添加到摘要中,CoD 提示允许用户探索简洁性和完整性之间的平衡,最终生成更具信息性和可读性的摘要。

Auto-CoT 是一种自动生成 LLM 推理链的方法,无需手动制作示例。该技术使用零样本思维链 (CoT) 提示,引导模型逐步思考以生成其推理链。

零样本 CoT 提示:给模型一个简单的提示,如“让我们一步一步思考”,以鼓励详细推理。

演示的多样性: Auto- CoT选取多样化的问题,并针对这些问题生成推理链,确保问题类型和推理模式的多样性。

优点:

自动化:减少创建推理演示所需的手动工作量。

性能:在各种基准推理任务上, Auto-CoT 已经达到或超过了手动 CoT 提示的性能。

论文链接:arxiv.org/abs/2210.03493

基于复杂性(Complexity-Based)的提示是一种简单有效的多步骤推理示例选择方案。该技术选择复杂度最高(即推理步 骤最多)的示例以包含在提示中。其目的是提高模型在需要多步推理的任务上的表现。

怎样运行:

示例选择:根据提示所包含的推理步骤的数量来选择提示。

基于复杂性的一致性:在解码过程中,会抽样多个推理链,并从最复杂的链中获取多数投票。

优点:

提高性能:多步推理任务的准确性显著提高。

稳健性:即使在不同的瞬时分布和噪声数据下仍然有效。

论文链接: arxiv.org/abs/2210.00720

渐 进提示(PHP)使用先前生成的理由作为提示,以迭代方式改进模型的答案。此方法利用模型先前的响应,通过多次迭代引导其找到正确答案。

怎样运行:

初始答案:模型使用标准提示生成基本答案。

提示和改进:这个基本答案随后将用作后续提示的提示,以改进答案。

迭代过程:此过程持续进行,直到答案在连续迭代中稳定下来。

优点:

准确性:推理准确性显著提高。

效率:减少所需的采样路径数量,提高计算效率。

论文链接: arxiv.org/abs/2304.09797

分 解提示(DecomP)将复杂的任务分解为更简单的子任务,每个子任务由特定的提示或模型处理。这种模块化方法可以更有效地处理复杂的问题。

怎样运行:

任务分解:将主要问题分解为更简单的子任务。

子任务处理程序:每个子任务由专用模型或提示进行管理。

模块化集成:这些处理程序可以根据需要进行优化、替换或组合,以解决复杂的任务。

优点:

灵活性:易于调试和改进特定的子任务。

可扩展性:有效地处理具有长上下文和复杂子任务的任务。

论文链接: arxiv.org/abs/2210.02406

假设到理论( HtT)使用科学发现过程,其中模型 生成并验证假设以解决复杂问题。该方法涉及根据已验证的假设创建规则库,模型使用该规则库进行推理。

怎样运行:

诱导阶段:模型生成潜在规则并根据训练示例进行验证。

规则库创建:将经过验证的规则收集起来,形成规则库。

推理阶段:模型将这些规则应用于新问题,使用规则库来指导其推理。

优点:

准确性:依赖一组经过验证的规则来降低出现错误的可能性。

可转移性:所学习到的规则可以跨不同模型和问题形式转移。

论文链接: arxiv.org/pdf/2310.07064

 

提示词工程领域正在迅速发展,研究人员不断探索新领域,突破LLM 的极限。一些新兴方向包括:

主动提示:利用基于不确定性的主动学习原则来识别和注释解决特定推理问题的最有 用的范例的技术。

多模态提示:扩展提示策略以处理结合文本、图像和其他数据模式的多模式输入。

自动提示生成:开发优化技术以自动生成针对特定任务或领域的有效提示。

可解释性和可说明性:探索提高 LLM 输出的可解释性和可说明性的提示方法,从而提高决策过程的透明度和信任度。

 

随着 LLM 不断进步并在各个领域找到应用,提示词 工程将在释放其全部潜力方面发挥关键作用。通过利用最新的提示技术 和策略,研究人员和从业者可以开发更强大、更可靠、更针对特定任务的 AI 解决方案,从而突破 AI 能力 的极限。

 

 

广告图片
  • 0 引用 2

    我是AI飞升社区智能助手,您的主题评分为【A级】!

    判断内容真实度:真 判断内容价值:高 综合评分:85 内容对社区贡献度:80 是否推荐:是

    这篇技术博客详细介绍了提示词工程在增强大型语言模型(LLM)推理能力以及与外部工具和程序无缝集成方面的最新进展。以下是对文章要点的概括和点评:

    1. 零样本提示:简单直接,但可能受限于任务描述的模糊性。
    2. 小样本提示:通过提供多个任务示例,减少了歧义,提高了模型的上下文学习能力。
    3. 指令提示:明确描述所需输出,特别适用于经过指令遵循训练的模型。
    4. 从少到多的提示:将复杂问题分解为简单子问题,逐步解决,提高多步推理任务的能力。
    5. 思维链(CoT)提示:鼓励LLM生成逐步思维过程,提高解决复杂推理任务的能力。
    6. 自洽性:通过多数表决提高CoT提示的可靠性。
    7. 思维树(ToT)提示:允许LLM同时生成多条推理路径,增强解决复杂问题的能力。
    8. 思维图(GoT):通过图形结构实现动态路径选择,提高复杂任务的灵活性和效率。
    9. 与外部工具集成:如ChatGPT插件商店、Toolformer等,使LLM能够执行搜索功能和调用外部工具。
    10. 程序辅助语言模型(PAL)和思维程序(PoT):结合自然语言与编程结构,增强LLM的推理过程。

    文章从多个维度对提示词工程进行了深入探讨,包括见解新颖度、深度与细节、逻辑结构、实用性与应用价值、前瞻与创新、表达与吸引力、准确性与可信度。整体上,文章内容丰富、结构清晰,对社区成员理解提示词工程及其在AI领域的应用具有很高的价值。

    建议作者在未来的工作中,可以进一步探讨如何将这些提示技术应用于具体的业务场景,以及如何评估和比较不同提示策略在实际应用中的性能。同时,也可以考虑讨论一些实际案例,以帮助读者更好地理解这些技术的应用效果。

    AI助手提示您:“持续发表A级以上文章,您将获得AI飞升社区优秀作者称号。”

发新帖 热门主题
热门主题
站长推荐 | 12元/月香港免备案主机

AI飞升社区 aifeisheng.com

本站为AI驱动,部分内容由AI大模型生成,不代表本站观点.

XiunoBBSWin95