您的位置:首页 > 行情 >

使用预训练语言模型进行少样本和零样本事实验证

2023-08-10 20:37:47    来源:哔哩哔哩

Title: Prompt to be Consistent is Better than Self-Consistent? Few-Shot and Zero-Shot Fact Verification with Pre-trained Language Models

论文简要 :

本文提出了一种名为ProToCo的新方法,通过使用预训练语言模型(PLMs)并构建一致性机制,改进了少样本和零样本事实验证任务的准确性。实验证明,ProToCo在少样本和零样本验证任务中显著优于现有方法,并且在与大型PLMs的比较中也取得了更好的性能。


(资料图)

背景信息:

论文背景: 随着信息误导问题的日益严重,事实验证成为自然语言处理领域的研究热点。然而,少样本和零样本事实验证任务由于缺乏足够的标注数据而受到限制。

过去方案: 过去的方法主要依赖于预训练语言模型的隐式知识,但没有对模型参数进行更新,因此无法改进语言模型本身的性能。另一些方法则需要在目标领域上进行全面的微调,或者通过生成特定任务的训练数据来训练分类器。然而,这些方法在少样本和零样本任务上的性能有限。

论文的Motivation: 鉴于现有方法的局限性,本文旨在通过构建一致性机制和使用预训练语言模型,提高少样本和零样本事实验证任务的性能。通过引入一致性约束和使用预训练语言模型进行参数更新,作者希望改进模型的准确性和泛化能力。

方法:

a. 理论背景:

本文解决了自然语言处理(NLP)中事实验证的问题,并关注有限或无标签训练样本的少样本和零样本场景。作者提出了一种名为ProToCo的方法,利用预训练语言模型(PLMs)来改进事实性评估。ProToCo生成声明的多个变体,并应用一致性机制来确保这些变体之间的兼容预测。作者使用参数高效的微调(PEFT)来更新PLMs,并在少样本和零样本事实验证任务中实现更准确的预测。本文强调了一致性在事实验证中的重要性以及PLMs在将自我一致性转移到下游任务中的局限性。作者旨在明确地对PLMs施加一致性,以提高它们在少样本和零样本事实验证中的性能。

b. 技术路线:

ProToCo模型利用文本到文本的PLM(如T5)作为事实验证的基础。每个实例的输入和标签使用提示模板重新格式化,其中包括输入模板和目标模板。输入模板填充了证据和声明,而目标模板将标签映射到特定的响应键。模型使用自回归生成预测目标序列的概率。推理通过对所有类别的预测分数进行排名,并选择排名最高的类别作为预测结果。一致性机制通过基于确认、不确定性和否定关系构建声明的逻辑变体来建立。模型使用参数高效的微调(PEFT)方法(称为(IA)3)进行微调,该方法更新了少量参数。使用多个损失函数,包括标准的交叉熵损失,来更新新参数。

结果:

a. 详细的实验设置:

实验在三个公共事实验证数据集上进行:FEVER、SciFACT和VitaminC。对于少样本事实验证,主要结果报告了4个样本的实验,附加的K样本实验(K = {1, 2, 4, 8, 16})作为补充结果。对于零样本实验,从每个训练集中随机抽取每类30个实例进行微调。

与ProToCo进行比较的几个基线包括Majority、RoBERTa-L、GPT2-PPL、SEED、T0和T-Few。每个基线的实验设置都有详细描述。

使用T-Few的原始源代码和其发布的预训练检查点(3B参数)作为基础模型。对于少样本和零样本设置,设置相应的训练步骤、批量大小和学习率。

b. 详细的实验结果:

实验结果以在随机选择的训练样本和不同种子上平均的宏F1分数报告。结果显示了ProToCo在三个数据集(FEVER、SciFACT和VitaminC)上与基线的性能对比。最佳结果被突出显示,并提供了标准差。

关键词:

相关阅读

精彩放送