Paper - B-STaR：监测和平衡自学推理者的探索和开发

文章摘要： 在缺乏用于复杂推理任务的大量人工注释数据的情况下，自我提升（即根据自己的输出训练模型）已成为提高性能的主要方法。然而，这些迭代自我改进方法的机制背后的关键因素仍然知之甚少，例如在什么条件下自我改进是有效的，以及当前迭代中的瓶颈是什么。在这项工作中，我们确定并提出了监测此迭代过程中两个关键因素的方法：（1）模型产生足够多样化响应（探索）的能力;（2）外部奖励在区分高质量候选人和低质量候选人（剥削）方面的有效性。以数学推理为案例研究，我们从定量分析开始，以跟踪探索和开发的动态，发现模型的探索能力会随着迭代而迅速恶化，并且利用外部奖励的有效性也会降低。在这些发现的推动下，我们引入了 B-STaR，这是一个自学推理框架，它可以在迭代之间自主调整配置以平衡探索和开发，从而根据当前的策略模型和可用的奖励优化自我提升的有效性。我们在数学推理、编码和常识推理方面的实验表明，B-STaR 不仅增强了模型在整个训练过程中的探索能力，而且在探索和开发之间实现了更有效的平衡，从而获得了卓越的性能。

重要

标题