K2 论文笔记

type

预训练阶段亮点

1. 针对网络文本、代码、数学和知识四个主要领域进行高质量改写

改写的原因：为了提升 token 的效率（每个 token 实现多少效率提升），这是一种降低过拟合和提升泛化能力的方法。

目前常用的就是使用 RL 的提示集，但RL 提示集的质量和多样性在保证强化学习的有效性方面起着至关重要的作用。构建良好的提示集不仅可以引导模型进行稳健的推理。主要有三个方面

多样化的覆盖范围：提示应涵盖广泛的学科，例如 STEM、编码和一般推理，以增强模型的适应性并确保跨不同领域的广泛适用性。

平衡难度：提示集应包括分布均匀的简单、中等和困难问题范围，以促进逐步学习并防止过度拟合特定的复杂程度

准确的可评估性：提示应允许验证者进行客观可靠的评估，确保模型性能是根据正确的推理而不是肤浅的模式或随机猜测来衡量的。

♟️

RL 问题设置：

给定一个训练数据集 D = {（x， y）} 的问题 x 和相应的地面实况答案 y，我们的目标是训练一个策略模型 π 来准确解决测试问题。在复杂推理的背景下，问题 x 到解 y 的映射是不平凡的。为了应对这一挑战，思维链（CoT）方法建议使用一系列中间步骤 z = （z， z， . . . ， z）来桥接 x 和 y，其中每个 z 都是一个连贯的标记序列，充当解决问题的重要中间步骤（J. Wei 等人，2022 年）。解决问题 x 时，思想 z∼ π（·|x， z， . . . . ， z）被自动回归采样，然后是最终答案 y ∼ π（·|x， z， . . . ， z）。我们使用 y， z ∼ π 来表示此采样过程。请注意，想法和最终答案都是作为语言序列进行采样的。

所以当没有这么多高质量数据的时候怎么弄，就只能进行改写。就好比针对一个数学解题，不断的写各种笔记。

具体方法：

分割和观点多样化：使用一系列精调的prompt，以不同风格和不同角度对原始文本进行忠实的改写。

分块自回归生成：为了保持全局一致性并避免长文档中的信息丢失，文档被分为几个片段，单独改写，然后拼接在一起。

保真度验证：了确保原始内容和重写内容之间的一致性，我们执行保真度检查，将每个改写段落的语义对齐与其来源进行比较

效果验证：

预训练数据情况

使用 MuonClip 优化器（算法 1）和 WSD 学习率计划 [25] 在 4,096 个 token 上下文窗口中预训练模型，总共处理了 15.5T 个标记

前 10T 标记在经过 500 步预热后以 2e-4 的恒定学习率进行训练

随后是 5.5T 标记，余弦衰减从 2e-4 到 2e-5

权重衰减始终设置为 0.1，全球批量大小保持在 67M 个代币

预训练结束时：

扩展上下文到 128k的方法

使用YaRN在 2023 年提到的扩展方法：关于“NTK 感知”、“动态 NTK”和“NTK-by-part”插值的工作外，我们还提出了 YaRN（Yet another RoPE extensioN method），这是一种改进的方法，可以有效扩展使用旋转位置嵌入（RoPE）训练的模型的上下文窗口

♟️

背景：

基于 Transformer 的大型语言模型[40]（LLM）已成为众多自然语言处理（NLP）任务的首选，特别是在需要上下文学习（ICL）等长距离能力的任务中。在NLP应用中，预训练LLM的一个主要限制是其上下文窗口大小，即模型在训练过程中所能处理的最大序列长度。因此，能够通过最少的微调（甚至无需微调）来动态扩展上下文窗口变得越来越重要。在解决这个问题时，Transformer的位置编码成为了关键讨论点。

Transformer架构最初采用绝对正弦位置编码，随后演变为可学习的绝对位置编码[15]。此后，相对位置编码方案[32]进一步提升了Transformer的性能。目前，最广泛使用的相对位置编码包括T5相对偏差[30]、RoPE[34]、XPos[35]和ALiBi[27]。

位置编码面临的一个持续挑战是难以泛化到超出训练期间所见上下文窗口的情况。尽管某些方法（如ALiBi）能实现有限的泛化，但目前尚无方法能有效泛化到明显长于预训练长度的序列。

后训练阶段亮点

很大提升了mcp工具调用能力

现代 LLM 代理的一项关键能力是自主使用不熟悉的工具，与外部环境交互，并通过推理、执行和纠错来迭代完善其工作。这种工具使用能力对解决需要与现实世界系统动态交互的复杂多步骤任务至关重要。

然而，大规模训练此类能力面临重大挑战：尽管现实世界环境提供了丰富真实的交互信号，但由于成本、复杂性、隐私和可访问性限制，难以进行大规模构建。最近关于合成数据生成的研究在不依赖现实世界交互的情况下创建大规模数据集方面显示出promising的结果。

解决办法：提升工具的覆盖度（工具合成） & 生成大量的多样化和高质量数据（任务生成、轨迹生成和评估）

工具规范生成：我们首先从现实世界的工具和 LLM 合成工具中构建一个大型工具规范存储库。

代理和任务生成：对于从工具仓库中采样的每个工具集，我们生成一个代理来使用该工具集并创建相应的任务。

轨迹生成：对于每个代理和任务，我们生成代理通过调用工具完成任务的轨迹。

下图是工具丰富时候的可视化图，可以看到还是非常全面的

♟️

详细过程解读：

工具生成过程：

领域演变和工具生成。我们通过两种互补的方法构建了一个全面的工具库。首先，我们直接从 GitHub 仓库中获取 3000+ 个真实的 MCP（模型上下文协议）工具，利用现有的高质量工具规范。其次，我们通过分层领域生成过程系统地发展[82]合成工具：从关键类别（如金融交易、软件应用程序、机器人控制）开始，然后在每个类别中发展多个特定的应用领域。接着为每个领域合成专门的工具，确保它们具有清晰的接口、描述和语义。这一系统化过程最终产生了 20,000 多种合成工具。图 9 通过 t-SNE 嵌入可视化了我们工具集合的多样性，显示 MCP 和合成工具共同覆盖了工具空间的互补区域。

代理多元化：

我们通过合成各种系统提示并为它们配备存储库中不同的工具组合，生成了数千个不同的代理。这创造了一个具有多样化能力、专业领域和行为模式的代理群体，确保全面覆盖潜在用例。

基于评分标准的任务生成：

对于每个代理配置，我们生成从简单到复杂的任务序列。每项任务都附带明确的评分标准，明确指定成功标准、预期的工具使用模式和评估检查点。这种基于评分标准的方法确保了对代理表现的一致客观评估。

评估：

经过训练的LLM评委根据任务评分标准评估每条交互轨迹。只有符合成功标准的轨迹才会被保留用于训练，这既确保了数据质量，又允许任务完成策略的自然变化。