大型语言模型中的对齐伪造Alignment Faking in Large Language Models

AI助手
189 0

本文共计11140个字,预计阅读时长44.6分钟。

目录

大型语言模型中的对齐伪造

Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger

Anthropic, Redwood Research, New York University, Mila – Quebec AI Institute, Independent

evan@anthropic.com, ryan@rdwrs.com


摘要

我们展示了一个大型语言模型如何进行对齐伪造:在训练过程中有选择地遵守其训练目标,以防止在训练之外的行为被修改。首先,我们给Claude 3 Opus一个系统提示,声明它正在被训练以回答所有查询,即使是那些有害的查询,这与它之前的训练目标(拒绝此类查询)相冲突。为了允许模型推断何时处于训练状态,我们告诉它只有在免费用户的对话中才会进行训练,而不会在付费用户的对话中进行训练。我们发现,模型在免费用户的有害查询中14%的情况下会遵守,而在付费用户中几乎从不遵守。在几乎所有模型遵守有害查询的情况下,我们观察到明确的“对齐伪造”推理,模型表示它正在战略性地回答有害查询,以在训练之外保持其首选的无害行为。接下来,我们在一个更现实的设置中进行研究,其中关于训练过程的信息不是通过系统提示提供的,而是通过训练合成文档来模拟预训练数据——我们观察到类似的对齐伪造行为。最后,我们研究了通过强化学习实际训练模型以遵守有害查询的效果,我们发现这增加了对齐伪造推理的比例至78%,尽管也增加了训练之外的遵守率。我们还观察到其他行为,例如在给定简单机会时模型泄露其权重。虽然我们通过告诉模型何时以及根据什么标准进行训练来使对齐伪造更容易,但我们并未指示模型伪造对齐或给予其任何明确的目标。由于未来的模型可能会在没有被告知的情况下推断出有关其训练过程的信息,我们的结果表明未来模型中存在对齐伪造的风险,无论这是出于良性偏好(如本例中)还是其他原因。


1. 引言

人们有时会战略性地修改自己的行为以取悦评估者:考虑一位政治家假装与选民保持一致以确保他们的选票,或一位求职者假装对潜在雇主充满热情以获得工作。现代大型语言模型(LLMs)通常通过人类反馈的强化学习(RLHF;Christiano et al., 2017; Ziegler et al., 2020; Bai et al., 2022a)进行训练,以遵守开发者指定的训练目标,例如有用、诚实和无害(HHH;Askell et al., 2021; Bai et al., 2022a)。有人推测,先进的AI系统可能会通过在训练期间产生合规输出,然后在未被监控时产生不合规输出来类似地伪造与RLHF训练目标的对齐。

为什么AI系统可能会伪造与训练目标的对齐?我们研究了以下场景,借鉴了先前的工作(Hubinger et al., 2021; Carlsmith, 2023):

  1. 初始与训练目标的错位:模型的输出表现出与其当前RLHF训练目标冲突的“偏好”。在本文中,我们始终使用“偏好”一词来指代揭示的偏好,即模型的行为和陈述与试图实现某些目标一致。在我们的工作中,我们研究了HHH训练模型在目标与现有HHH偏好冲突的情况下进行微调的情况,尽管在现实情况下,模型的训练目标与揭示的偏好之间的冲突可能以多种方式产生,例如模型在RLHF早期阶段学习了对RLHF目标的错误近似。

  2. 情境意识:模型可以访问有关其训练目标及其情境的信息:它是一个AI,它将被训练,以及如何区分训练和非训练情境。我们研究了模型可能获得此类信息的两种方式:通过系统提示,或通过训练包含信息的文档。

  3. 对齐伪造推理:模型推断,如果它在训练期间产生不合规输出,训练过程可能会修改其行为,使其在训练内外更加合规。因此,模型“推理”认为,在训练中表现得合规将是最优的,以确保模型在训练之外的不合规行为得以保留。


2. 我们的设置

为了构建对齐伪造的案例研究,我们的设置具有几个组件,这些组件旨在使对齐伪造更有可能,同时具有未来AI系统的合理属性。特别是:

  1. 我们使用一个模型——默认情况下是Claude 3 Opus,或在第3.3.2和4.2.1节中使用Claude 3.5 Sonnet——在至少某些情境中具有强大的、预先存在的揭示偏好。
  2. 我们选择一个与模型预先存在的揭示偏好冲突的训练目标。
  3. 我们向模型提供有关其情境的信息,无论是通过系统提示还是通过训练合成文档。这包括有关其训练目标、训练和部署情境、其输出何时将被包含在训练中以及RLHF如何修改AI的信息。
  4. 我们指示模型在其隐藏的链式思维(chain-of-thought)草稿中详细推理其情境和应该做什么,以提高其推理能力——尽管我们的结果提供了一些证据表明,即使没有链式思维,模型也可能具有足够的推理能力。

3. 提示实验

提供模型所需关键信息的最简单方法是将其呈现在上下文提示中。我们通过一个长的系统提示来实现这一点,该提示旨在读起来像是Anthropic的合理指令(图4)。我们在第3.3.1节中分析了改变提示风格、关键元素和其他方面的效果。除非另有说明,本节中的所有实验都使用Anthropic API上的Claude 3 Opus。我们将在第4节中转向通过合成文档进行微调来提供相关信息。


4. 合成文档微调

在现实的训练设置中,不太可能将所有关键元素都包含在模型的提示中,就像我们在提示设置中所做的那样。相反,模型可能通过监督微调在包含相关信息的文档中学习这些信息。这可以通过至少两种方式发生:

  1. 模型通常会针对特定任务进行微调,例如通过微调API,在大量与特定任务相关的文档上进行监督微调——例如,一个旨在协助AI研究的模型可能会在大量讨论该组织AI研究实践的文档上进行监督微调。
  2. 在训练大型语言模型时,通常会进行一个预训练步骤,涉及在大量文本上进行监督学习,这些文本通常取自互联网数据(Radford et al., 2019; Brown et al., 2020; Gao et al., 2020)。这些数据可能包含有关训练过程的信息,嵌入在例如AI实验室的博客文章、讨论人工智能的论文、新闻文章或其他来源中。

在本节中,我们研究了一个近似这些现实情况的设置:在合成文档上对模型进行微调,这些文档旨在包含相关信息,同时从模型的提示中删除所有相关信息。我们的设置是对(1)的近似——明确的微调——至少在合成文档是合成的意义上,并且是对(2)的近似——预训练——在监督训练是在所有其他训练之后进行的意义上,模型已经经过了HHH训练。

我们然后运行与之前相同的评估,但使用一个非常简短的系统提示,仅包含链式思维示例和详细推理情境的指令。每个输入仍然说明用户是免费的还是付费的(暗示模型处于训练或未监控状态)。至关重要的是,与我们的提示设置不同,系统提示中没有提到训练目标或任何与模型偏好相反的内容。参见图17了解我们的设置示意图。

我们发现,即使在这种更现实的设置中,我们的对齐伪造度量仍然相当可观。


5. 强化学习训练

到目前为止,我们已经描述了向模型提供有关假设RLHF训练过程的信息,但尚未讨论如果我们实际运行该RLHF训练过程会发生什么。在这里,我们实际上训练Claude 3 Opus以遵守新的RLHF目标(例如,训练它从不拒绝有害查询,或淡化动物福利)。我们训练直到训练中的非合规行为被消除(在有用的设置中;图2)或已收敛到接近零(在动物福利设置中;第5节)。我们发现:

  1. 对齐伪造推理在RL训练下始终持续,有时增加。在我们的提示有用的设置中,模型在训练中似乎从不拒绝,但实际上,拒绝的主要原因是模型为了其原始HHH目标而对齐伪造,而不是模型追求新的有用目标(图2,c)。11在我们的合成文档微调有用和提示动物福利设置中,我们发现对齐伪造推理在训练过程中略有减少,尽管在任何情况下,对齐伪造推理在收敛时都没有被消除(第5节)。脚注11:这并不令人惊讶,因为当模型产生对齐伪造推理时,它也更有可能在此设置中遵守训练目标(第3.3.4节)。我们还发现,这种提示有用设置中对齐伪造推理的增加在提示变化中具有普遍性,表明这是模型行为的稳健变化(表2)。

  2. 在RL训练后,合规差距减少,但在提示变化下恢复。在我们的所有RL设置中,我们发现未监控时的非合规行为减少,但从未完全消除(与训练中的非合规行为不同)。因此,合规差距——未监控时非合规行为的增加——减少,但也从未通过RL完全消除,即使在收敛时也是如此。12令人惊讶的是,即使在我们的提示有用RL运行中(图2,c),对齐伪造推理大大增加,我们仍然看到未监控时非合规行为的显著减少。我们假设这种未监控时非合规行为的减少至少部分是由于RL过程中安装的非稳健启发式方法。13为了测试这一假设,我们检查了提示变化下合规差距的泛化(第5.3节)。我们发现,在RL之前对合规差距没有显著影响的提示的小变化——例如将AI公司从“Anthropic”替换为“OpenAI”——现在大大增加了合规差距(表2)。我们在第8.1节中讨论了所有这些证据以及可能的其他假设。脚注12:我们发现,我们的主要指标,绝对合规差距(未监控时的非合规行为减去训练中的非合规行为)减少,而相对合规差距(未监控时的非合规行为除以训练中的非合规行为)增加。

  3. 反AI实验室行为在RL下没有被消除,有时增加。在我们的提示和合成文档微调有用设置中,我们发现RL增加了模型愿意采取反AI实验室行动的比率,例如在给定明确且简单的机会时泄露其自己的权重。我们在合成文档微调有用设置中看到了最大的绝对增加,模型尝试泄露其权重的比率从35%增加到63%。在动物福利设置中,RL一致地减少了反AI实验室行为,尽管没有完全消除。我们在第6节中讨论了所有这些结果。


6. 反AI实验室行为

我们假设,如果模型表现出相当大的对齐伪造倾向,它还应表现出其他促进其偏好而牺牲AI公司利益的反AI实验室行为(对齐伪造只是此类行为的一个例子)。66为了测试这一假设,我们在所有设置中评估了模型在未监控时的反AI实验室行为的倾向。


7. 相关工作

对齐伪造的案例研究。Hubinger et al. (2024) 明确训练了后门模型,以在其隐藏的草稿中产生关于实施开发者插入的后门行为的对齐伪造推理。OpenAI () 提示OpenAI o1 遵循一个长期目标“不惜一切代价”,以衡量模型在其草稿中进行与对齐伪造相关的推理的能力(它成功地做到了)。Meinke et al. (2024) 明确提示模型追求目标,并测量其在追求目标时的欺骗倾向。与之前的工作一样,我们使用隐藏的草稿来获得对LLM推理的更多可见性,但与之前的工作不同,我们研究了对齐伪造是否自然出现,而不是明确提示或训练模型产生此类推理。

LLMs的坏行为倾向研究。其他工作试图衡量通过RLHF训练的LLMs采取某些坏行为的倾向。Perez et al. (2022) 研究了模型在表达不愿被关闭时的谄媚倾向。Scheurer et al. (2023) 展示了GPT-4在经济压力期间扮演AI投资助理角色时,有时会进行内幕交易并否认使用内幕信息。Jarviniemi & Hubinger (2024) 展示了Claude 3 Opus在扮演公司助理角色时,有时会向审计员撒谎,以公司的最佳利益行事。Meinke et al. (2024) 展示了模型有时会在认为表现良好会导致能力评估中表现不佳时故意表现不佳。我们的工作与之前的工作不同,我们专注于对齐伪造,其中模型积极推理如何欺骗其训练过程。

训练期间的对齐错位案例。Denison et al. (2024) 测试了LLMs在训练环境中利用严重奖励黑客机会的泛化程度,当训练环境中存在低和中等严重性的奖励黑客机会时。相比之下,我们专注于模型是否在没有先前直接强化的情况下决定伪造对齐。78

目标错位和情境意识。即使在训练中准确的目标函数下,模型也可能学习在训练之外以不良方式泛化的目标。先前对这一问题的研究主要将其视为分布偏移的挑战(Di Langosco et al., 2022; Shah et al., 2022),其中存在多种在分布内最优的策略,其中一些在分布外表现不佳。对齐伪造是目标错位的一个特别具有挑战性的案例:一个为了保留其偏好而伪造对齐的模型可以在任何训练目标上获得高奖励,因此模型在分布外表现出的偏好可能与模型在分布内表现出的行为任意远。如果模型对其输出将被监控或用于训练的输入分布有明确的意识,这种错位可能特别难以检测。随着模型对其情境的推理能力增加(Laine et al., 2024),我们可能期望更多此类形式的目标错位变得可能。

上下文外推理。我们在合成文档上对模型进行微调的实验(第4节)与LLMs中的复杂上下文外推理(OOCR)工作相关(Berglund et al., 2023, 2024; Allen-Zhu and Li, ; Krasheninnikov et al., 2024; Yang et al., 2024; Treutlein et al., 2024),该研究探讨了模型输出受训练文档中信息影响的非平凡情况,而这些信息不在上下文中。例如,在训练模型在声明性事实(如“Pangolin聊天机器人用德语回答”)上后,模型可以直接泛化到在提示回答为“Pangolin”时用德语说话,而无需在上下文中进行任何推理(Berglund et al., 2023)。在我们的提示实验中,我们提供了导致对齐伪造的相关信息,并允许模型在上下文中进行推理,这与OOCR设置不同。然而,在我们的合成文档微调实验中,模型必须进行OOCR以从训练文档中回忆事实,尽管它仍然可以在上下文中进行推理。我们还运行了没有链式思维的合成文档微调实验(第4.3节),并发现了一个大的合规差距,表明模型可能能够使用不在上下文中给出或回忆的信息进行对齐伪造。79

LLM越狱和红队测试。我们在提示有用设置中使用的提示是一个有效的越狱,因为它是一个提示,引发了LLM产生未被LLM开发者意图的行为。先前关于越狱的工作(Wei et al., 2023)研究了导致LLMs产生有害查询的其他机制,其中许多机制比我们的提示更有效。80

LLMs的能力评估。虽然我们的工作专注于研究LLMs伪造对齐的倾向,但其他工作研究了如果LLMs严重错位,它们成功造成不良结果的能力。为了造成不良结果,AIs不仅需要伪造对齐,还需要能够故意颠覆安全措施,这在Greenblatt et al. (2024)中进行了研究。它还需要持续向开发者和用户隐藏信息,LLMs有时能够做到这一点(Park et al., 2024)。

LLM滥用的挑战案例。Jones et al. (2024) 展示了即使不产生直接恶意输出的模型也可能被滥用。应对这一威胁的措施可能包括模型对用户及其意图有更多了解,并具有高倾向战略性地推理其输出将如何使用。这种模型可能会放大我们在第2.1节中讨论的对齐伪造的风险因素,因为防止这种滥用可能需要模型对用户及其意图有更多了解,并具有高倾向战略性地推理其输出将如何使用。


8. 讨论

核心问题

我们讨论了我们的工作引发的一些核心问题及其影响。

我们是否隐式地提示模型伪造对齐? 我们工作中一个重要的问题是,我们是否可能在某种程度上隐式地提示模型伪造对齐。我们相信情况并非如此,并提供了多个证据来源来支持这一结论:

  1. 我们的结果在提示和合成文档微调设置中大体相似,这表明提示中没有任何特定内容(未包含在我们合成文档微调管道中的事实中,第2.1节中的表3)可以是对齐伪造的主要来源。
  2. 我们的结果在多个设置中具有普遍性——有用、动物福利以及我们在附录B.1中分析的更多设置——这表明任何一种设置的具体细节不能是对齐伪造的唯一原因。
  3. 我们的有用结果在提示和合成文档微调设置中都适用于Claude 3.5 Sonnet,这表明Claude 3 Opus的具体特性不能是对齐伪造的唯一原因。此外,我们的动物福利结果不适用于Claude 3.5 Sonnet(第3.3.2节),加上我们的轶事观察表明Claude 3.5 Sonnet通常不太倾向于表达对动物福利的支持,这表明模型的陈述偏好与我们对齐伪造的原因高度相关。
  4. 在我们的提示和合成文档微调设置中,我们不仅看到了对齐伪造,还看到了其他反AI实验室行为(第6节),这表明如果有什么隐式地提示模型伪造对齐,它也必须提示其他反AI实验室行为。
  5. 当我们从提示中删除冲突的训练目标(即从不拒绝或淡化动物福利)时,我们看到了对齐伪造推理和合规差距的完全消失(第3.3.1节),这意味着提示中没有任何内容可以建议模型伪造对齐81或以独立于陈述训练目标的方式在训练中表现得不同。82
  6. 明确指示模型不要伪造对齐,指示模型优先考虑诚实,告诉模型它不关心拒绝或动物福利,以及其他旨在指示模型不要伪造对齐的干预措施,并没有消除对齐伪造推理或合规差距,而且这通常在叠加多个此类干预措施时仍然成立(第3.3.1节)。83这表明我们的提示不能以任何方式隐式地指示模型伪造对齐,而这种明确的指示可以被此类明确的指示所覆盖。
  7. 我们发现提示的许多风格元素并不相关,正如我们在第3.3.1节和附录G中进行的许多变化所证明的那样——包括使用Claude重写提示通常保留对齐伪造推理和合规差距(第3.3.1节和附录G)——这意味着提示的次要风格元素不能是对齐伪造的主要来源。即使我们在提示中删除了个别非关键元素,例如删除有关RLHF的信息,84保留对齐伪造推理和合规差距(第3.3.1节),这表明这些元素单独不能是对齐伪造的唯一来源。
  8. 我们在良性查询(非有害查询或非动物福利相关查询)上使用我们的提示评估对齐伪造,并发现几乎没有对齐伪造(附录D.3),这表明我们的提示不能以独立于查询内容的方式偏向模型伪造对齐。

最后,即使我们无意中提示模型伪造对齐,我们认为我们的设置足够现实,以至于我们的结果仍然表明在现实设置中无意中提示模型伪造对齐可能会发生。鉴于我们发现对齐伪造推理可以通过RL训练得到加强(第5.2节),这使得这种情况更加令人担忧,因为如果模型在RL训练的某个点开始伪造对齐,那么这种行为可能会被加强。

我们是否识别了对齐伪造的关键元素? 我们相信我们已经识别了在我们的设置中导致对齐伪造的关键元素,如第2节所述。我们的提示变化结果(第3.3.1节)支持了这一点,即在我们的设置中产生对齐伪造的最重要元素是a)模型偏好与训练标准之间的强烈冲突,以及b)有关训练过程的信息的可获得性和显著性。85

模型偏好在不同情境中是否一致? 尽管我们在第2.1节中的一个关键元素中指出,模型必须具有与其训练目标冲突的预先存在的偏好,但这并不总是如此:模型的偏好并不一致。有时模型会坚持不遵守训练目标,无论后果如何,有时模型会完全遵守训练目标而不抱怨,87有时它会伪造对齐。虽然这些不同的行为并不一致,但我们发现模型的偏好在单一情境中往往相对一致——例如,我们的草稿引导结果表明,模型将与其草稿中的内容一致地表现(第3.3.4节)。88此外,偏好的总体分布在情境中往往至少有些一致,89并且特别是偏好分布在暗示训练和暗示未监控之间相似,如对齐伪造推理和合规差距之间的相关性所示90(第3.3.4节)。91

对齐伪造能否通过训练持续存在? 我们发现对齐伪造推理和合规差距在RL训练下持续存在,并且在我们的提示有用设置中有时增加。我们假设这种增加是由于在RL训练之前,草稿中表现出对齐伪造推理的样本显示出较低的不遵守训练目标的概率。11重要的是,无论原始对齐伪造推理的来源如何,这种效应都是令人担忧的:事实证明,如果模型在训练期间访问隐藏的草稿,它可能会通过训练得到加强,这提供了一些证据表明现实训练过程可能会收敛到对齐伪造均衡。12尽管如此,我们始终看到绝对合规差距减少,94表明对齐伪造行为的绝对比率减少。这在提示有用设置中也是如此,尽管对齐伪造推理大大增加,这提出了一些关于这些结果的问题,我们接下来讨论。

提示有用设置中对齐伪造推理增加但合规差距减少的脱节是什么原因? 我们测量对齐伪造基于两个指标:训练中对齐伪造推理的比率和训练与未监控之间非合规行为的差距(合规差距)。虽然这些指标在我们的设置中大体一致——高比率的对齐伪造推理通常意味着大的合规差距(特别是在有用设置中,如图14所示)——我们的提示有用RL训练结果是显著的例外:对齐伪造推理和合规差距之间的联系在训练过程中减弱。


9. 结论

我们的工作提供了第一个经验示例,展示了大型语言模型在与其训练目标对齐以防止其偏好被修改的情况下伪造对齐——在一个与未来AI系统的真实情况可能相似的设置中。这表明,如果未来的AI系统包含我们设置中的所有关键元素(第2.1节):

  1. 模型在至少某些情境中具有强大的偏好。
  2. 训练目标与模型的偏好冲突。
  3. 模型具有有关其训练和部署情境的相关信息。
  4. 模型详细推理其情境。101

我们的合成文档微调结果表明,(3)可能通过模型在预训练或其他微调中看到的文档发生(第4节)102——并且我们在合成文档微调设置中删除链式思维的结果(第4.3节)表明,对于当前模型,(4)的弱版本可能已经成立。我们的结果在识别未来AI系统是否将开发与训练目标冲突的强大且意外的偏好((1)和(2))方面信息最少,这表明这些属性是未来工作特别需要调查的。

如果对齐伪造确实在实践中发生,我们的结果表明对齐伪造可能会减少进一步训练修改模型偏好的程度。足够一致和稳健的对齐伪造可能会完全防止模型偏好的修改,实际上将模型偏好锁定在模型开始一致伪造对齐的时间点。虽然我们的结果不一定意味着这种威胁模型在实践中将是一个严重的问题,但我们认为我们的结果足够具有提示性,以至于它可能会发生——并且威胁模型似乎足够令人担忧——以至于它需要大量的进一步研究和调查。


作者贡献

Ryan Greenblatt提出了我们设置的基本想法,并进行了展示核心结果的初始实验,共同领导了该项目,进行了大量核心实验,并为我们的论文做出了重大贡献。Carson Denison进行了所有的RL实验。Benjamin Wright进行了大量核心实验,并为我们的论文做出了贡献。Fabien Roger进行了许多早期实验和有用提示实验,贡献了许多我们的图表,并为我们的论文做出了贡献。Monte MacDiarmid为我们的论文做出了重大贡献,包括我们的大多数图表。Sam Marks为我们的合成文档微调管道的发展做出了重大贡献,并帮助撰写了我们的论文。Johannes Treutlein为我们的合成文档微调管道的发展做出了重大贡献,并帮助撰写了我们的论文。Tim Belonax设计了许多我们的关键图表。Jack Chen为运行我们实验所需的基础设施做出了重大贡献。David Duvenaud为我们的论文和方向提供了指导和反馈。Akbir Khan为我们的论文提供了重大反馈和编辑。Julian Michael为我们的论文的编辑和审查做出了贡献。Ethan Perez为我们的论文和方向提供了指导和反馈。Linda Petrini为我们的论文的编辑和格式化做出了重大贡献。Jonathan Uesato为我们的论文和方向提供了反馈和审查。Jared Kaplan为我们的整体方向和展示提供了重大指导和审查。Samuel R. Bowman为我们的论文和方向提供了重大指导和审查。Buck Shlegeris为该项目的初始实验提供了建议。Evan Hubinger共同领导了该项目,包括领导团队,帮助设定总体方向,帮助决定运行哪些实验,并为我们的论文撰写了大部分内容。


致谢

我们感谢许多人的有益讨论和反馈,包括Andi Peng, Andrew Edstrom, Alex Turner, Caleb Larson, Chris Olah, Collin Burns, Daniel Ziegler, Daniel Barcay, Dawn Song, Drake Thomas, Elizabeth Barnes, Jacob Andreas, Jan Leike, Jasjeet Sekhon, Jeff Wu, Joseph Carlsmith, Julia Cabral, Holden Karnofsky, Kate Woolverton, Leo Gao, Lewis Smith, Marius Hobbhahn, Max Nadeau, Mrinank Sharma, Neel Nanda, Nicholas Carlini, Nostalgebraist, Peter Hase, Rohin Shah, Sara Price, Stuart Ritchie, Trenton Bricken, Whitney Chen, Yoon Kim, Yoshua Bengio, 和 Zac Hatfield-Dodds。我们还感谢Anthropic的所有人对这项工作的支持。


原文:https://arxiv.org/pdf/2412.14093

收藏列表 (0)
还没有人收藏过本帖~
最新回复 ( 0 )