样本设计工程:LLM下游微调的良好样本的实证研究
+ +摘要
+在像ChatGPT和LLaMA这样的大语言模型(LLM)蓬勃发展的领域中,Prompt + Engineering(PE)以通过提示修改来提升零热门或上下文学习(ICL)而闻名。然而,对于下游微调的样本设计领域,对于特定任务的LLM适应至关重要,却很少有人探索。本文介绍了样本设计工程(SDE),这是一种通过改进输入、输出和推理设计来提高LLMs后调优性能的系统方法。 + 我们进行了一系列领域内(ID)和领域外(OOD)实验,以评估各种设计选项对LLMs下游性能的影响,揭示了在不同LLMs中持续存在的一些有趣模式。基于这些见解,我们提出了一种综合的SDE策略,结合了最有效的选项,并验证其在复杂的下游任务(如多方面情感分析、事件提取和嵌套实体识别)中对启发式样本设计的一贯优势。 + 此外,LLMs固有提示/输出困惑、零热门和ICL能力的分析表明,良好的PE策略并不总是能转化为良好的SDE策略。代码可在https://github.com/beyondguo/LLM-Tuning上找到。
++ 1 介绍 +
+大型语言模型(LLMs)的出现,如GPT-3 Brown et al. (2020),PaLM + Chowdhery et al. (2023),LLaMA + Touvron et al. (2023a)和GPT-4 Achiam + et al. (2023)彻底改变了自然语言处理(NLP),使得可以用单一模型处理复杂任务。这种转变深刻地扩大了NLP模型可处理的任务范围,同时在文本生成的统一框架下巩固了各种任务的方法。在这种背景下,Prompt + Engineering(PE)已成为利用尖端LLMs的关键领域,带来了将LLMs应用于新任务的进展 Brown et al. (2020),增强逻辑推理 + Wei et al. (2022),并提高任务特定精度 Wang + et al. (2023a); Wei et al. (2023),而无需更新模型权重。 +
+![Refer to caption](resource/x1.png)
+ 尽管已经为LLMs的零-shot和上下文学习(ICL)开发了许多PE技术,但为微调LLMs设计有效的训练样本的挑战—本文中称为样本设计工程(SDE)—仍未得到充分探讨。SDE对于定制较小的开源LLMs以满足特定要求至关重要,尤其是考虑到下游任务的训练样本的复杂性。图1是PE和SDE的简化演示。
++ 为了填补这一空白,本文对LLMs的下游微调的SDE进行了详细和全面的探索。我们的研究基于这样一个假设,即训练样本的结构或元素可能对微调的LLMs产生重大影响。不同的样本设计可能会让LLMs更容易或更难学习,特别是在数据稀缺的情况下。 +
+我们首先通过识别一系列典型的SDE选项,并将它们分类为三组:输入,输出和推理设计选项(如图2所示)。为了揭示每个SDE选项的影响,我们在典型的下游场景——多方面情感分析(MASA)上进行实验,包括2个领域内(ID)任务和2个领域外(OOD)任务。与FLAN + Longpre et al. (2023)等指示调整数据集不同,MASA任务涉及更复杂的输入和输出元素,适合深入研究不同样本设计。 + + 我们进行了对这4个任务使用6种流行的开源LLM的全面实验,以揭示不同SDE选项如何影响下游性能。通过我们的实验,一些有趣且发人深省的结论得以揭示。例如,简单地切换任务指示的位置可能会产生不同的结果;为未提及的目标添加占位符带来了显著的性能提升,等等。 +
+利用这些发现,我们结合了经验丰富的表现良好的SDE选项,并提出了一个综合的SDE策略ES-SDE。对另外两个LLM上的3个复杂的下游任务(嵌套NER、事件检测和MASA)进行了大量实验,结果表明ES-SDE显著超越了较弱的SDE组合,以及其他研究中的启发式设计。ES-SDE在不同的训练规模、解码随机性或指示变体上的稳健性进一步强调了其稳定的有效性。 +
++ 在一项探索性分析中,我们通过困惑度、零样本和ICL分析,调查了有效提示和样本设计之间的联系。我们的发现表明,一个精心设计的PE策略不一定能转化为成功的SDE策略。这一观察鼓励进一步研究SDE的机制,有望增强LLM的下游应用。 +
++ 2 背景和相关工作 +
++ 2.1 提示工程(PE) +
++ PE方法的有效性在很大程度上建立在LLM的强大固有能力之上,大多数研究都集中在像GPT-3、GPT-4、PaLM等非常大的模型上(参见Sahoo et al. (2024))。这些模型在极其广泛的语料库上进行了预训练,获得了丰富的知识和模式,使它们能够通过精心设计的提示直接执行复杂任务。例如,Brown et al. (2020)使用精心设计的提示和上下文学习(ICL)技术来引导GPT-3在没有训练的情况下进行新任务;Wei et al. (2022)提出了Chain-of-Thought(CoT)技术,可以提高逻辑推理性能;RAG Lewis et al. (2020)和CoVe Dhuliawala et al. (2023)方法用于减少生成过程中的幻觉;Li et al. (2023)引入EmotionPrompt来提高LLM的情感智能。
++ 然而,这些最先进和有效的LLMs要么是只能通过API访问的黑匣子模型,要么是对大多数公司来说无法承担的极大模型,无法在生产中提供服务。因此,许多从业者转向更小但开源的LLMs,特别是大约10B左右的模型。在这种情况下,仅依靠PE进行零照射或ICL推断无法处理许多真实世界的复杂NLP任务。 +
++ 2.2 微调LLMs +
+根据不同的目的,我们可以将LLMs的微调分为两种类型:指示微调(IT)和下游微调(DT)111有些文献中也称为任务微调(TT),如Weber et al. (2023)。。
+它训练LLMs以理解和执行跨越一系列NLP任务的指令,从而使其能够预测新任务Wei et al. (2021); Mishra + et al. (2022)的数据集,如FLANLongpre et al. (2023)、Self-instructWang et al. (2023b)、AlpacaTaori + et al. (2023)和HC3Guo + et al. (2023),涵盖了分类、问答和翻译等任务。这主要应用于基础模型,使其能够遵循一般的人类指令。DT侧重于为工业应用中的特定、通常复杂的任务定制LLMs,要求输出稳定性高,以便更容易地解析和应用于下游产品。一个例子是多方面情感分析,它需要详细的任务说明和输出。我们的研究集中在DT场景中的SDE,突出了样本设计的挑战,但这些见解也可能有益于IT样本设计,这是未来探索的一个课题。 +
+![Refer to caption](resource/x2.png)
![Refer to caption](resource/x3.png)
+ 2.3 参数高效微调 +
+ ++ 3 样本设计工程 +
++ 3.1 典型的SDE选项 +
+我们将样本设计选项分为三个方面:输入、输出和推理。我们以典型的下游任务Multi-Aspect Sentiment Analysis + (MASA)为例,阐明每个设计选项用于微调样本。如图3所示,MASA需要分析评论文本,将情感分配给预定义的方面,而有些方面可能没有提及。 + 图2是不同SDE选项的概述,应考虑设计适当的DT样本。
+3.1.1 输入设计选项
+指示位置:我们探讨了指示相对于任务文本(对于MASA,即评论文本)的位置对效果的影响,考察了指示-先(在任务文本之前)、指示-后(在任务文本之后)。我们还与无指示(无指示)选项进行比较,以评估明确指示的有效性,这在许多先前的条件文本生成任务中被使用。 + Lewis et al. (2019); Guo + et al. (2022); Zhang et al. (2023) +
++ 输入建模:考虑LLM预训练中的统一序列建模与微调中显式的输入/输出分割之间的区别,我们比较排除输入损失计算的No-MI(类似LLaMA2的SFT过程Touvron et al. (2023b))和在反向传播中建模输入的MI。 +
++ 3.1.2 输出设计选项 +
+多重预测格式:对于需要多个预测的任务,我们从较少结构化到更结构化地评估输出格式:自然(自由文本)、行(每个方面在新的一行)、和JSON(用于精确性和明确性的JSON行)。
+处理未提及的目标:我们考虑在输出中是否省略未提及的(OU)目标,或者为这些目标放置占位符(PU)。根据任务,占位符标记可以是"未提及","无"或"[]"等字符串。
++ 文本或数字标签:默认情况下,我们使用文本输出标签的TxtLabel选项。然而,在一些情况下,使用数字表示结果(NumLabel)可能增强预测的稳健性。 +
++ 3.1.3 推理设计选项 +
+许多任务需要推理,Chain-of-Thought(CoT)Wei et al. (2022)已显示出在零-shot和ICL以及IT场景中改善LLM的推理的潜力Kim et al. (2023)。然而,它对DT的影响仍未得到充分研究。
++ 我们引入了CoT选项,用于训练模型在预测之前“思考”。我们使用JSON作为默认输出格式,以使表示更清晰,并在情感字段之前添加一个新的描述字段。相反,R-CoT(Reverse-CoT)颠倒了这些字段,实现了“先预测再解释”的方法,进一步探索了CoT的机制。请注意,实施类似CoT的样本会因为描述字段而产生额外的注释成本,使推理设计选项依赖于任务。 +
++ 3.2 集成SDE策略 +
+最终样本设计是以上设计选项的组合,我们称之为综合SDE策略。本文通过广泛的实验首次探讨了每个单独选项的影响,从而提出了一种基于证据的综合SDE策略。
+输出: + 4 实验I:评估每个SDE选项的影响 +
++ 4.1 设置 +
+任务和数据集。 我们对领域内(ID)评估和领域外(OOD)评估进行了实验,用于分析中国在线评论的MASA场景。
+ 数据由我们合作公司提供并进行了标注,这家公司面临着对大量客户在线评论进行分析的实际业务需求。数据注释来自两个方面的领域:D1关于食品、饮料、价格、卫生、员工态度和停车便利性以及D2关于交通便利性、排队、服务速度、装饰和噪音。模型需要为每个方面给出一个情感标签{积极,中性,消极},而某些方面可能不会出现在评论中。
+ 基于这两个领域,我们构建了以下4个任务:
+
D1D1和D2D2是两个ID评估任务,其中训练集和测试集来自相同的领域;
+
D1D2和D2D1是两个OOD泛化任务,模型在一个领域进行训练,但在一个未见过的领域进行测试。
+
考虑到工业中标注的高成本以及微调LLMs需要较少的标注数据Zhou et al. (2024),我们分别使用和样本对模型进行训练。我们使用包含约个样本的大型测试集来使结果更稳定和可信。数据集详情见附录A.2。
+![Refer to caption](resource/x4.png)
内容:模型。我们利用了7B大小的以下广泛使用的开源LLM的基础和聊天版本:1)chinese-llama-2-7b(记为c-llama2-base)和指导调整版本chinese-alpaca-2-7b(c-llama2-chat)来自Chinese-LLaMA2系列Cui et al. (2023),这是LLaMA2Touvron et al. (2023b)的词汇扩展版本,是在中国语料库上进行了二次预训练和微调的;2)internlm-7b-base(intern-base)和internlm-7b-chat(intern-chat)来自InternLM系列Team (2023),它们在数万亿高质量标记上进行了预训练,在中文和英文任务中表现良好;3)baichuan2-7b-base(bc2-base)和baichuan2-7b-chat(bc2-chat)来自Baichuan2系列Yang et al. (2023),是发布时的SOTA LLM之一。 + 我们使用LoRA作为默认的高效微调技术。超参数和其他训练细节可以在附录A.2中找到。
+评估指标。我们从两个角度评估MASA的性能:1)情感分析性能。我们使用加权Kappa得分 Cohen (1968)来衡量考虑到不同方面的不平衡和情感标签的序数性质。加权Kappa得分允许设置权重以实现对不同分类错误程度的微妙评估Yilmaz and Demirhan (2023)。例如,将"积极"分类为"消极"比将"积极"分类为"中性"更有害,因此对前者应施加更高的惩罚。2)格式符合性,以评估LLMs的生成稳定性。下游任务对LLMs具有良好的格式符合能力非常重要,以便成功解析输出。我们报告此度量的格式解析错误率。请注意,在计算时,我们使用宽松的解析规则来允许一些轻微的方面/标签表达的不确定性。如果某个方面仍然无法正确解析,则将该方面视为"未提及"。 + 的定义,Kappa权重矩阵和格式解析规则可以在附录A.1中查看。 +
++ 4.2 每个选项的实验结果 +
+我们报告并分析了两个方面的结果-情感分析表现和格式符合能力。
++ 4.2.1 情感分析性能 +
+首先,我们使用不同的样本设计选项评估LLMs的情感分析性能。 + 在附录A.4中,图4中绘制了3个Chat-LLMs和3个Base-LLMs在ID和OOD任务上的比较结果(完整结果请参见表3到表8)。一些共享的有趣模式从结果中显现出来。
+对输入选项的结论: + 1)指令增强了DT的性能:与包含指令的Inst-first或Inst-last方法相比,No-Inst选项导致ID任务性能较差,缺乏OOD泛化能力。这凸显了包含指令以改进LLM的理解和泛化能力的关键作用。 + 2)最好首先放置指令:对于不同LLM,在ID和OOD任务中,Inst-first方法优于Inst-last。这表明指令放置对LLM的调优过程非常重要。我们假设这可能部分得到了注意机制的解释,详见附录A.6。 + 3)对输入进行建模会降低性能:采用MI方法相比于各种模型和任务的No-MI基线会导致更糟糕的结果。这表明在微调过程中对输入部分进行建模可能会阻碍LLM的有效性,因此对任务的哪些方面进行建模需要谨慎对待。 +
+![Refer to caption](resource/x5.png)
结论输出选项:
+ 1)Lines
+ 是多个预测的可靠输出格式: Lines格式位于Natural和JSON格式之间,在各种模型和任务中展示了稳定且高性能的情感分析。其有效性在于提供结构化信息的同时保持自然语言可读性,使其适用于不同的LLMs。
+
2)Base-LLMs表现出相似模式,而Chat-LLMs多样化:基础模型对输出格式的响应相似,表明它们的响应一致。相反,诸如bc2-chat和cllama2-chat等Chat模型表现出不同的性能,表明它们的SFT或RLHF数据结构存在差异。例如,bc2-chat和cllama2-chat在JSON格式下表现良好,与intern-chat不同,这意味着在训练中使用的结构化数据量存在差异。
+
3)Base-LLMs更青睐更自然的格式,而Chat-LLMs可以适应或承载更复杂的格式:基础模型更喜欢Natural和Lines,而不是JSON。相反,Chat模型倾向于结构化格式,例如Lines和JSON。这种分歧暗示了不同的训练背景,Chat模型更适应复杂的数据格式。更多的证据是,与TxtLabel相比,NumLabel选项对Base模型造成的损害更大,因为它比TxtLabel less
+ natural。
+
4)文字标签优于数字标签:从文本标签切换到数字标签会使性能下降,可能是因为数字标签缺乏文本标签提供的描述深度和上下文线索,这对于训练自然语言文本的LLMs至关重要。
+
5)省略未提及的目标可能不是一个好选择:虽然排除未提及的方面的OU选项可能会简化输出,但也会引入格式的不一致性。这种不一致性迫使模型适应每个样本的各种方面提及,增加了动态调整输出格式的任务复杂性。相反,PU选项通过添加占位符来保持一致的输出格式,也许使LLMs更容易学习。额外的分析显示,与PU相比,具有更高程度的未提及的方面与OU相比遭受更严重的性能下降,见附录A.7。
+
结论:推理选项的微妙影响: + 1)CoT对ID的影响微弱,而对OOD任务的影响显著:CoT设计在ID任务上影响较小,但明显改善OOD性能。这种对比突显了CoT在增强模型推理和适应陌生情境方面的作用,从而为泛化提供了支持。 + 2)“先思考再预测”胜过“先预测再解释”:当推理步骤放在预测之后时,例如R-CoT方法,性能不如标准的CoT方法。然而,在许多情况下,R-CoT仍然可以胜过No-CoT,表明单一的推理组件也是有益的。
++ 4.2.2 格式符合性性能 +
+![Refer to caption](resource/x6.png)
图5呈现了Chat-LLMs的格式符合性能结果,从中我们发现:1)虽然Inst-first方法提高了情感分析,但在格式符合性方面表现出较少稳定性,特别是在OOD情况下,表明以指示开头可能会增加对陌生内容的格式错误; + 2)结构化设计选项能够提高格式符合性能力:一个明显的趋势是,结构化输出,特别是按照顺序JSON > Lines > Natural,具有较低的格式错误率。尤其是JSON格式,展示了对正确结构的强烈遵从,突显了输出复杂性和精度之间的平衡; + 3)MI,NumLabel和CoT选项对某些LLMs来说可能不够稳定,而其他选项通常在不同模型上保持一致。在稳定性至关重要的应用中,这些不稳定的选项应该受到重视; + 4)尽管提高了理解或推理性能,但CoT设计使LLMs更容易出现解析失败的风险,突显了这个选项的权衡。
+考虑LLMs对格式的遵从性以及理解能力对专业下游应用至关重要,这表明工业场景需要一种平衡的方法。 +
++ 5 实验II:强大的集成SDE策略 +
++ 基于前一节的实验证据,我们提出了一个经验性强的SDE策略(称为ES-SDE),使用表现良好的选项:一种组合Inst-first,No-MI输入设计和Lines,PU,TxtLabel输出设计。我们不使用CoT设计,因为其注释成本高,输出相对不稳定。在本节中,我们进行了全面的实验,以验证其在不同下游任务中的有效性,以及对指示或生成的扰动的鲁棒性。 +
++ 5.1 设置 +
+任务和数据集。为了评估ES-SDE的有效性,我们在三个具有挑战性的下游任务上进行了实验:
+
GENIA Ohta et al. (2002)。这是分子生物学领域的嵌套命名实体识别(嵌套NER)数据集,在这里,ChatGPT(GPT-3.5)只能达到50.89%的F1分数,使用了5-shot
+ CoT推理Han et al. (2023)。
+
MAVEN Wang et al. (2020)。这是一个通用领域的事件检测(ED)数据集。研究表明ChatGPT在ED任务中的表现低于预期。我们在实验中使用了前10种事件类型。
+
Review11。这是我们自行收集的中国MASA数据集,涉及11个方面,比第4节中的MASA任务更复杂。
+
+ 5.2 结果 +
+图6报告了不同样本设计策略之间的比较,从不同的角度。对于GENIA和MAVEN,报告了软匹配F1分数Han et al. (2023),而对于Review 11,报告了。更详细的结果请参见附录A.5。
+1) ES-SDE在各个任务和训练规模上保持优势。 图-(a)展示了一个一致的趋势,即随着训练规模从增加到,ES-SDE保持其优势。值得注意的是,在GENIA和Review11任务中,个ES-SDE样本价值相当于个EW-SDE和启发式样本,表明ES-SDE样本的高质量。2) 在解码随机性上稳定。 + 默认情况下,模型采用贪婪解码策略(无采样)。图6-(b)展示了激活解码采样并使用不同随机种子时的结果。ES-SDE在三个任务中对不同种子保持了卓越的稳定性。解码采样的采用倾向于降低GENIA和MAVEN任务的SW-SDE和启发式策略的性能,而ES-SDE则表现稳定。3) + 在指示变体上的稳健性。 + 对于特定任务的指示,我们有各种表达相同想法的方式。因此,我们通过将通用内容更改为其他表述方式(附录中的示例)来验证不同策略对指示不同表述的敏感性。如图6-(c)所示,ES-SDE在不同变体中保持优势,表现出对指示内容的稳健性。 +
+总的来说,ES-SDE代表了LLM的DT的可靠和有效的方法,说明了通过仔细的SDE过程,LLM可以在下游任务中实现更高的性能。需要注意的是ES-SDE可能并非所有任务的最佳策略。对于更广泛的任务和模型进行SDE的详细调查可能会得到更有效的策略。 +
++ 6 PE能指导SDE吗?另外分析 +
+提示是理解模型固有特质和能力的关键。一个良好的PE方法通常表明了LLM更熟悉或擅长的一些模式。一个自然的问题是:PE能指导SDE吗? + 为了回答这个问题,我们根据不同的SDE选项制定了零-shot和ICL提示来评估它们的PE表现。图7报告了MASA + ID任务中SDE选项和它们对应提示的平均排名。每个任务的详细结果见附录A.8。
+我们的分析揭示了一些一致的模式:Inst-first对于PE和SDE都是有效的选择;CoT提高了PE和SDE的性能。然而,也有许多违反直觉的发现。例如,根据我们以前的实验结果,OU选项一直损害DT的性能,然而,其相应的提示在某些LLM中显着改善了零射击或ICL结果;同样,尽管在SDE的基础模型中,Natural选项优于Lines方法,但在像c-llama2-base和intern-base这样的模型的零射击或ICL评估中却相反。通过一系列任务,Gonen et al. (2023)表明更低的困惑度(PPL)通常会导致更好的提示设计。受此启发,我们还对每个SDE选项对应的ICL提示/预测进行了PPL分析。有趣的是,OU类似的提示在所有选项中获得了最高的平均PPL分数,这似乎与OU带来更好的零射击或ICL结果相矛盾。JSON格式出人意料地获得了相当低的PPL分数,但其SDE性能却不如Lines。
+这些发现突显了一个复杂的格局,即提示设计模式并不总是与SDE的有效性保持一致,强调了PE和SDE之间微妙的关系。
+![Refer to caption](resource/x7.png)
+ 7 结论与未来工作 +
++ 在这项研究中,我们将SDE作为一种有效的方法引入,以提高LLMs的下游微调性能。通过涉及六种LLMs的全面ID和OOD实验,我们展示了各种样本设计策略的效果,揭示了一些在不同LLMs上一致的有趣模式。基于这些发现,我们开发了ES-SDE方法,该方法整合了最有效的选项。我们对两种额外的LLMs进行的三个新任务的实验一致表明ES-SDE优于基准方法。对PE和SDE之间关系的进一步分析表明,有效的提示设计并不一定能够转化为成功的样本设计。这一观察结果为未来研究中对SDE机制进行更详细的调查开辟了途径。 +
++ 8 限制 +
++ 这项研究遵循了一个两步实验方法。在第一步中,我们调查了每个SDE选项的影响,然后将结果作为第二步提出经验强的SDE组合策略的证据。作为一项经验研究,这项研究受到一定的局限性。
+-
+
-
+ 1.
+ ++
+ 尽管我们证明了第一阶段的实验结果可以推广到不同的下游任务,但适用于其他未经测试的场景仍然不确定。例如,尽管我们的输出设计在当前实验中优于JSON格式,但在结构复杂的任务中,这种优势是否持续仍不清楚。未来的研究将解决这些更具挑战性的情境。 +
+
+ -
+ 2.
+ ++
+ 随着LLMs的快速发展,新的更复杂的模型经常被引入。我们研究中使用的模型是我们研究开始时可用的最好的开源选项之一,但后来被更新的版本超越了。虽然我们评估了总共8种LLM,包括基础和聊天变体,但我们的发现可能并不普遍适用于其他模型。 +
+
+ - + 3. + + +
参考文献
+-
+
- + Achiam et al. (2023) + + Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni + Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. + + + Gpt-4 technical report. + + + arXiv + preprint arXiv:2303.08774. + + + +
- + Bai et al. (2023) + + Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin + Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng + Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng + Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang + Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, + Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, + Chang Zhou, Jingren Zhou, Xiaohuan Zhou, and Tianhang Zhu. 2023. + + + Qwen technical report. + + + arXiv + preprint arXiv:2309.16609. + + + +
- + Ben-David (2008) + + Arie Ben-David. 2008. + + + Comparison of classification accuracy using cohen’s weighted + kappa. + + + Expert + Systems with Applications, 34(2):825–832. + + + +
- + Brown et al. (2020) + + Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla + Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. + + + Language models are few-shot learners. + + + Advances + in neural information processing systems, 33:1877–1901. + + + +
- + Chen et al. (1998) + + Stanley F Chen, Douglas Beeferman, and Roni Rosenfeld. 1998. + + + Evaluation metrics for language models. + + + +
- + Chowdhery et al. (2023) + + Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam + Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. 2023. + + + Palm: Scaling language modeling with pathways. + + + Journal of + Machine Learning Research, 24(240):1–113. + + + +
- + Cohen (1968) + + J Cohen. 1968. + + + Weighted kappa: nominal scale agreement with provision for scaled + disagreement or partial credit. + + + Psychological bulletin, 70(4):213–220. + + + +
- + Cohen (1960) + + Jacob Cohen. 1960. + + + A coefficient of agreement for nominal scales. + + + Educational and psychological measurement, 20(1):37–46. + + + +
- + Cui et al. (2023) + + Yiming Cui, Ziqing Yang, and Xin Yao. 2023. + + + Efficient and effective text encoding for chinese llama and + alpaca. + + + arXiv + preprint arXiv:2304.08177. + + + +
- + Dhuliawala et al. (2023) + + Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli + Celikyilmaz, and Jason Weston. 2023. + + + Chain-of-verification reduces hallucination in large language + models. + + + arXiv + preprint arXiv:2309.11495. + + + +
- + Galar et al. (2011) + + Mikel Galar, Alberto Fernández, Edurne Barrenechea, Humberto Bustince, and Francisco + Herrera. 2011. + + + An overview of ensemble methods for binary classifiers in + multi-class problems: Experimental study on one-vs-one and one-vs-all schemes. + + + Pattern + Recognition, 44(8):1761–1776. + + + +
- + Gonen et al. (2023) + + Hila Gonen, Srini Iyer, Terra Blevins, Noah A Smith, and Luke Zettlemoyer. 2023. + + + Demystifying prompts in language models via perplexity + estimation. + + + In Findings of the Association for Computational Linguistics: EMNLP + 2023, pages 10136–10148. + + + +
- + Grandini et al. (2020) + + Margherita Grandini, Enrico Bagli, and Giorgio Visani. 2020. + + + Metrics for multi-class classification: an overview. + + + arXiv + preprint arXiv:2008.05756. + + + +
- + Guo et al. (2022) + + Biyang Guo, Yeyun Gong, Yelong Shen, Songqiao Han, Hailiang Huang, Nan Duan, and Weizhu + Chen. 2022. + + + Genius: Sketch-based language model pre-training via extreme and + selective masking for text generation and augmentation. + + + arXiv + preprint arXiv:2211.10330. + + + +
- + Guo et al. (2023) + + Biyang Guo, Xin Zhang, Ziyuan Wang, Minqi Jiang, Jinran Nie, Yuxuan Ding, Jianwei Yue, + and Yupeng Wu. 2023. + + + How close is chatgpt to human experts? comparison corpus, + evaluation, and detection. + + + arXiv + preprint arXiv:2301.07597. + + + +
- + Han et al. (2023) + + Ridong Han, Tao Peng, Chaohao Yang, Benyou Wang, Lu Liu, and Xiang Wan. 2023. + + + Is information extraction solved by chatgpt? an analysis of + performance, evaluation criteria, robustness and errors. + + + arXiv + preprint arXiv:2305.14450. + + + +
- + Hu et al. (2021) + + Edward J Hu, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu + Chen, et al. 2021. + + + Lora: Low-rank adaptation of large language models. + + + In International Conference on Learning Representations. + + + +
- + Kim et al. (2023) + + Seungone Kim, Se Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, and Minjoon + Seo. 2023. + + + The cot collection: Improving zero-shot and few-shot learning of + language models via chain-of-thought fine-tuning. + + + In Proceedings of the 2023 Conference on Empirical Methods in + Natural Language Processing, pages 12685–12708. + + + +
- + Lester et al. (2021) + + Brian Lester, Rami Al-Rfou, and Noah Constant. 2021. + + + The power of scale for parameter-efficient prompt tuning. + + + In Proceedings of the 2021 Conference on Empirical Methods in + Natural Language Processing, pages 3045–3059. + + + +
- + Lewis et al. (2019) + + Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer + Levy, Ves Stoyanov, and Luke Zettlemoyer. 2019. + + + Bart: Denoising sequence-to-sequence pre-training for natural + language generation, translation, and comprehension. + + + arXiv + preprint arXiv:1910.13461. + + + +
- + Lewis et al. (2020) + + Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman + Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. 2020. + + + Retrieval-augmented generation for knowledge-intensive nlp tasks. + + + Advances + in Neural Information Processing Systems, 33:9459–9474. + + + +
- + Li et al. (2023) + + Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, + Qiang Yang, and Xing Xie. 2023. + + + Large language models understand and can be enhanced by emotional + stimuli. + + + arXiv + preprint arXiv:2307.11760. + + + +
- + Li and Liang (2021) + + Xiang Lisa Li and Percy Liang. 2021. + + + Prefix-tuning: Optimizing continuous prompts for generation. + + + In Proceedings of the 59th Annual Meeting of the Association for + Computational Linguistics and the 11th International Joint Conference on Natural + Language Processing (Volume 1: Long Papers), pages 4582–4597. + + + +
- + Liu et al. (2023) + + Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. + 2023. + + + Gpt understands, too. + + + AI + Open. + + + +
- + Longpre et al. (2023) + + Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, + Quoc V Le, Barret Zoph, Jason Wei, et al. 2023. + + + The flan collection: Designing data and methods for effective + instruction tuning. + + + In International Conference on Machine Learning, pages + 22631–22648. PMLR. + + + +
- + Mishra et al. (2022) + + Swaroop Mishra, Daniel Khashabi, Chitta Baral, and Hannaneh Hajishirzi. 2022. + + + Cross-task generalization via natural language crowdsourcing + instructions. + + + In Proceedings of the 60th Annual Meeting of the Association for + Computational Linguistics (Volume 1: Long Papers), pages 3470–3487. + + + +
- + Ohta et al. (2002) + + Tomoko Ohta, Yuka Tateisi, Jin-Dong Kim, Hideki Mima, and Junichi Tsujii. 2002. + + + The genia corpus: An annotated research abstract corpus in + molecular biology domain. + + + In Proceedings of the human language technology conference, + pages 73–77. Citeseer. + + + +
- + Sahoo et al. (2024) + + Pranab Sahoo, Ayush Kumar Singh, Sriparna Saha, Vinija Jain, Samrat Mondal, and Aman + Chadha. 2024. + + + A systematic survey of prompt engineering in large language + models: Techniques and applications. + + + arXiv + preprint arXiv:2402.07927. + + + +
- + Snoek et al. (2012) + + Jasper Snoek, Hugo Larochelle, and Ryan P Adams. 2012. + + + Practical bayesian optimization of machine learning algorithms. + + + Advances + in neural information processing systems, 25. + + + +
- + Taori et al. (2023) + + Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, + Percy Liang, and Tatsunori B Hashimoto. 2023. + + + Stanford alpaca: An instruction-following llama model. + + + +
- + Team (2023) + + InternLM Team. 2023. + + + Internlm: A multilingual language model with progressively + enhanced capabilities. + + + +
- + Touvron et al. (2023a) + + Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, + Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. + 2023a. + + + Llama: Open and efficient foundation language models. + + + arXiv + preprint arXiv:2302.13971. + + + +
- + Touvron et al. (2023b) + + Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, + Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. 2023b. + + + Llama 2: Open foundation and fine-tuned chat models. + + + arXiv + preprint arXiv:2307.09288. + + + +
- + Wang et al. (2023a) + + Jiaqi Wang, Enze Shi, Sigang Yu, Zihao Wu, Chong Ma, Haixing Dai, Qiushi Yang, Yanqing + Kang, Jinru Wu, Huawen Hu, Chenxi Yue, Haiyang Zhang, Yi-Hsueh Liu, Xiang Li, Bao Ge, + Dajiang Zhu, Yixuan Yuan, Dinggang Shen, Tianming Liu, and Shu Zhang. 2023a. + + + Prompt engineering for healthcare: Methodologies and + applications. + + + ArXiv, abs/2304.14670. + + + +
- + Wang et al. (2020) + + Xiaozhi Wang, Ziqi Wang, Xu Han, Wangyi Jiang, Rong Han, Zhiyuan Liu, Juanzi Li, Peng + Li, Yankai Lin, and Jie Zhou. 2020. + + + Maven: A massive general domain event detection dataset. + + + In Proceedings of the 2020 Conference on Empirical Methods in + Natural Language Processing (EMNLP), pages 1652–1671. + + + +
- + Wang et al. (2023b) + + Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi, + and Hannaneh Hajishirzi. 2023b. + + + Self-instruct: Aligning language models with self-generated + instructions. + + + In The + 61st Annual Meeting Of The Association For Computational Linguistics. + + + +
- + Weber et al. (2023) + + Lucas Weber, Elsa M. Bruni Bruni, and Dieuwke Hupkes. 2023. + + + Mind the instructions: a holistic evaluation of consistency and + interactions in prompt-based learning. + + + In Proceedings of the 27th Conference on Computational Natural + Language Learning (CoNLL), pages 294–313. + + + +
- + Wei et al. (2021) + + Jason Wei, Maarten Bosma, Vincent Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, + Andrew M Dai, and Quoc V Le. 2021. + + + Finetuned language models are zero-shot learners. + + + In International Conference on Learning Representations. + + + +
- + Wei et al. (2022) + + Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, + Denny Zhou, et al. 2022. + + + Chain-of-thought prompting elicits reasoning in large language + models. + + + Advances + in Neural Information Processing Systems, 35:24824–24837. + + + +
- + Wei et al. (2023) + + Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, + Jinan Xu, Yufeng Chen, Meishan Zhang, et al. 2023. + + + Zero-shot information extraction via chatting with chatgpt. + + + arXiv + preprint arXiv:2302.10205. + + + +
- + Yang et al. (2023) + + Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin, Chenxu Lv, + Da Pan, Dian Wang, Dong Yan, et al. 2023. + + + Baichuan 2: Open large-scale language models. + + + arXiv + preprint arXiv:2309.10305. + + + +
- + Yilmaz and Demirhan (2023) + + Ayfer Ezgi Yilmaz and Haydar Demirhan. 2023. + + + Weighted kappa measures for ordinal multi-class classification + performance. + + + Applied + Soft Computing, 134:110020. + + + +
- + Zhang et al. (2023) + + Hanqing Zhang, Haolin Song, Shaoyu Li, Ming Zhou, and Dawei Song. 2023. + + + A survey of controllable text generation using transformer-based + pre-trained language models. + + + ACM + Computing Surveys, 56(3):1–37. + + + +
- + Zhou et al. (2024) + + Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, + Avia Efrat, Ping Yu, Lili Yu, et al. 2024. + + + Lima: Less is more for alignment. + + + Advances + in Neural Information Processing Systems, 36. + + + +
+ 附录A 附录 +
++ A.1 MASA的指标 +
+加权Kappa。 + 考虑到不同方面的不平衡和标签的顺序性质,加权一致性测量被证明比传统指标更有效 Ben-David (2008); Galar + et al. (2011); Grandini et al. (2020)。因此,我们采用加权Kappa (Cohen, 1968; Yilmaz + and Demirhan, 2023) + 作为分类效果的度量,这是Cohen's Kappa的扩展 (Cohen, 1960)。加权Kappa 定义为 ,它通过考虑模型的性能比随机猜测表现得更好多少来衡量。在这里, 和 。概率 是分类混淆矩阵的值或累积值。加权因子, , + 可以对不同的错误程度进行微妙的评估。例如,将“积极”分类为“消极”比将“积极”分类为“中性”更有害,因此前者应该受到更严厉的惩罚。根据实际应用中企业的反馈,我们定义了不失一般性的权重矩阵如表1。
++ | Pre-Pos | +Pre-Neu | +Pre-Neg | +Pre-Unm | +
---|---|---|---|---|
Label-Pos | +1 | +1/2 | +0 | +1/2 | +
Label-Neu | +2/3 | +1 | +2/3 | +2/3 | +
Label-Neg | +0 | +1/2 | +1 | +1/2 | +
Label-Unm | +1/2 | +2/3 | +1/2 | +1 | +
+ | + | TrainSet (size=500) | +TrainSet (size=1000) | +TestSet | +|||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ | + | Pos | +Neu | +Neg | +Unm | +Pos | +Neu | +Neg | +Unm | +Pos | +Neu | +Neg | +Unm | +
D1 | +F | +65.20 | +15.00 | +18.80 | +1.00 | +66.60 | +13.70 | +18.30 | +1.40 | +66.01 | +12.23 | +20.12 | +1.64 | +
B | +22.20 | +4.20 | +8.20 | +65.40 | +23.50 | +3.60 | +7.20 | +65.70 | +21.50 | +3.15 | +6.29 | +69.07 | +|
P | +33.40 | +13.00 | +15.60 | +38.00 | +35.60 | +10.70 | +15.80 | +37.90 | +36.64 | +10.24 | +13.97 | +39.15 | +|
H | +14.80 | +1.20 | +6.00 | +78.00 | +17.10 | +1.00 | +5.50 | +76.40 | +16.12 | +0.82 | +5.58 | +77.48 | +|
SA | +48.80 | +3.60 | +14.00 | +33.60 | +47.90 | +4.10 | +13.60 | +34.40 | +42.73 | +3.46 | +13.87 | +39.94 | +|
PC | +4.40 | +0.60 | +1.40 | +93.60 | +4.80 | +0.30 | +1.90 | +93.00 | +3.93 | +0.34 | +1.56 | +94.18 | +|
D2 | +TC | +52.40 | +13.20 | +7.60 | +26.80 | +53.10 | +13.20 | +8.10 | +25.60 | +48.56 | +12.84 | +7.03 | +31.57 | +
Q | +18.80 | +8.20 | +11.20 | +61.80 | +17.90 | +10.10 | +11.00 | +61.00 | +14.67 | +10.00 | +10.44 | +64.89 | +|
SS | +16.80 | +3.60 | +8.20 | +71.40 | +15.70 | +3.80 | +8.90 | +71.60 | +14.86 | +3.15 | +8.58 | +73.41 | +|
D | +46.00 | +8.20 | +4.20 | +41.60 | +48.50 | +8.10 | +4.30 | +39.10 | +43.10 | +7.68 | +5.28 | +43.93 | +|
N | +1.00 | +1.40 | +2.80 | +94.80 | +1.40 | +1.30 | +3.40 | +93.90 | +2.10 + | +1.08 + | +3.36 + | +93.46 + | +
格式符合性。格式符合性不仅确保模型的输出可以可靠地解析和在实际应用中利用,而且反映了模型理解不同指示的上下文和细微差别的能力。 + 我们根据不同设计的规定格式设置解析器,然后计算不能成功解析的预测比例。 + 考虑到生成语言模型固有的不确定性,我们放宽了格式,例如方面和情感的表达。 + 同时,为了更公平地比较设计之间的内容正确性,对于一些情况,比如常见的标点符号错误,在计算Kappa时我们会将其更正为所需的格式。图10显示了各种代表性的格式错误类型以及我们设计的解析器如何处理它们。
++ A.2 数据集和训练设置 +
+表2显示了两个领域D1和D2每个方面的标签分布,我们可以看到分布非常不平衡。 +
+训练设置如下:学习率设定为1e-4,批大小为4,LoRA秩为8,LoRA alpha为32,LoRA丢失率为0.1。 +
++ A.3 样本设计示例 +
++ 图9显示了我们在MASA任务中样本设计的详细示例。
++ A.4 每种SDE选项的详细评估 +
+对不同SDE选项在六种LLM上进行的MASA任务的领域内(ID)和领域外(OOD)评估的详细结果显示在表3到表8中,包括情感分析性能()和格式符合性性能(格式错误率)。 ID和OOD情况下训练大小为500和1000的平均结果在图4中可视化
+model: c-llama2-chat + | ++ Weighted Kappa + | ++ # Wrong + format (7969 test samples in total) + | +|||||||
train_size=500 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +.8091 | +.6882 | +.5243 | +.7217 | +0 | +0 | +2 | +2 | +
Inst-first, _ | +.8136 | +.7079 | +.5124 | +.7223 | +0 | +0 | +9 | +15 | +|
No-inst, _ | +.7757 | +.6626 | +\ | +\ | +20 | +1 | +\ | +\ | +|
_, MI | +.6187 | +.6187 | +.4806 | +.2756 | +1 | +0 | +0 | +1079 | +|
Output | +Natural, TxtLabel, PU | +.8091 | +.6882 | +.5243 | +.7217 | +0 | +0 | +2 | +2 | +
Lines, _, _ | +.8083 | +.6969 | +.5068 | +.7447 | +0 | +0 | +0 | +0 | +|
JSON, _, _ | +.8086 | +.6952 | +.4905 | +.7354 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +.7697 | +.6373 | +.4221 | +.6723 | +3 | +1 | +0 | +1260 | +|
+ | _, _, OU | +.7934 | +.6005 | +.5282 | +.6203 | +0 | +0 | +87 | +0 | +
Reasoning | +No-CoT | +.7934 | +.6005 | +.5282 | +.6203 | +0 | +0 | +87 | +0 | +
CoT | +.7928 | +.6873 | +.5249 | +.7085 | +56 | +65 | +36 | +282 | +|
R-CoT | +.8074 | +.6752 | +.4726 | +.7297 | +93 | +65 | +141 | +263 | +|
train_size=1000 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8256 | +0.7110 | +0.5518 | +0.7312 | +0 | +0 | +0 | +3 | +
Inst-first, _ | +0.8236 | +0.7090 | +0.5483 | +0.7264 | +0 | +0 | +5 | +1 | +|
No-inst, _ | +0.8003 | +0.6920 | +\ | +\ | +6 | +4 | +\ | +\ | +|
_, MI | +0.8113 | +0.6700 | +0.5095 | +0.5182 | +0 | +0 | +0 | +728 | +|
Output | +Natural, TxtLabel, PU | +0.7916 | +0.7253 | +0.5303 | +0.7356 | +0 | +0 | +0 | +3 | +
Lines, _, _ | +0.8259 | +0.7118 | +0.5560 | +0.7452 | +0 | +0 | +0 | +0 | +|
JSON, _, _ | +0.8249 | +0.7094 | +0.5488 | +0.7432 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +0.7624 | +0.6604 | +0.4210 | +0.6840 | +2 | +2 | +0 | +765 | +|
_, _, OU | +0.8172 | +0.7125 | +0.5511 | +0.6746 | +0 | +0 | +493 | +1 | +|
Reasoning | +No-CoT | +0.8018 | +0.7175 | +0.5332 | +0.7323 | +0 | +0 | +493 | +1 | +
CoT | +0.8111 | +0.7111 | +0.5354 | +0.7311 | +59 | +24 | +30 | +253 | +|
R-CoT | +0.8214 | +0.7137 | +0.5085 | +0.7532 | +51 | +25 | +75 | +115 | +
model: c-llama2-base + | ++ Weighted Kappa + | ++ # Wrong + format (7969 test samples in total) + | +|||||||
train_size=500 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8067 | +0.6801 | +0.5246 | +0.7000 | +0 | +0 | +6 | +98 | +
Inst-first, _ | +0.8092 | +0.6921 | +0.5575 | +0.6794 | +0 | +0 | +34 | +3 | +|
No-inst, _ | +0.7762 | +0.6511 | +\ | +\ | +0 | +1 | +\ | +\ | +|
_, MI | +0.7778 | +0.5024 | +0.4946 | +0.4184 | +2 | +0 | +118 | +0 | +|
Output | +Natural, TxtLabel, PU | +0.8067 | +0.6801 | +0.5246 | +0.7000 | +0 | +0 | +6 | +98 | +
Lines, _, _ | +0.8066 | +0.6410 | +0.5128 | +0.6622 | +0 | +0 | +19 | +0 | +|
JSON, _, _ | +0.8010 | +0.6242 | +0.5170 | +0.6287 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +0.7728 | +0.5949 | +0.5155 | +0.6296 | +14 | +1 | +26 | +356 | +|
_, _, OU | +0.7746 | +0.5012 | +0.4199 | +0.5711 | +0 | +3 | +300 | +7 | +|
Reasoning | +No-CoT | +0.8010 | +0.6242 | +0.5170 | +0.6287 | +0 | +0 | +0 | +0 | +
CoT | +0.7789 | +0.6652 | +0.4649 | +0.6974 | +83 | +82 | +33 | +226 | +|
R-CoT | +0.8019 | +0.6428 | +0.4657 | +0.4199 | +88 | +11 | +87 | +1823 | +|
train_size=1000 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8237 | +0.7011 | +0.6010 | +0.7197 | +0 | +0 | +3 | +177 | +
Inst-first, _ | +0.8231 | +0.7068 | +0.6069 | +0.6956 | +0 | +2 | +16 | +28 | +|
No-inst, _ | +0.7957 | +0.6882 | +\ | +\ | +2 | +2 | +\ | +\ | +|
_, MI | +0.8048 | +0.6174 | +0.5306 | +0.6390 | +0 | +3 | +139 | +6 | +|
Output | +Natural, TxtLabel, PU | +0.8237 | +0.7011 | +0.6010 | +0.7197 | +0 | +0 | +3 | +177 | +
Lines, _, _ | +0.8205 | +0.6947 | +0.5900 | +0.6963 | +0 | +0 | +10 | +0 | +|
JSON, _, _ | +0.8212 | +0.6857 | +0.5649 | +0.6875 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +0.7619 | +0.6536 | +0.4804 | +0.6709 | +1 | +2 | +0 | +584 | +|
_, _, OU | +0.8179 | +0.6774 | +0.5034 | +0.6277 | +0 | +5 | +64 | +29 | +|
Reasoning | +No-CoT | +0.8212 | +0.6857 | +0.5649 | +0.6875 | +0 | +0 | +0 | +0 | +
CoT | +0.8026 | +0.6979 | +0.5519 | +0.7159 | +70 | +31 | +16 | +125 | +|
R-CoT | +0.8195 | +0.7034 | +0.5368 | +0.6454 | +46 | +14 | +24 | +666 | +
model: intern-chat + | ++ Weighted Kappa + | ++ # Wrong + format (7969 test samples in total) + | +|||||||
train_size=500 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.7774 | +0.6278 | +0.3947 | +0.6707 | +0 | +0 | +0 | +11 | +
Inst-first, _ | +0.8035 | +0.6609 | +0.3949 | +0.7090 | +4 | +2 | +13 | +304 | +|
T2L | +0.7862 | +0.5963 | +\ | +\ | +10 | +7 | +\ | +\ | +|
_, MI | +0.7463 | +0.5178 | +0.3153 | +0.5363 | +0 | +0 | +0 | +395 | +|
Output | +Natural, TxtLabel, PU | +0.7774 | +0.6278 | +0.3947 | +0.6707 | +0 | +0 | +0 | +11 | +
Lines, _, _ | +0.7827 | +0.6261 | +0.4032 | +0.6799 | +0 | +1 | +1 | +1 | +|
JSON, _, _ | +0.7713 | +0.5966 | +0.3965 | +0.6129 | +0 | +0 | +0 | +2 | +|
_, NumLabel, _ | +0.7765 | +0.6261 | +0.4165 | +0.6926 | +0 | +0 | +3 | +23 | +|
_, _, OU | +0.7520 | +0.4888 | +0.4029 | +0.6221 | +0 | +1 | +16 | +7 | +|
Reasoning | +No-CoT | +0.7713 | +0.5966 | +0.3965 | +0.6129 | +0 | +0 | +0 | +2 | +
CoT | +0.7666 | +0.6401 | +0.4843 | +0.6797 | +43 | +19 | +30 | +121 | +|
R-CoT | +0.7764 | +0.6124 | +0.3892 | +0.6648 | +44 | +23 | +23 | +72 | +|
train_size=1000 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8049 | +0.6793 | +0.4330 | +0.6982 | +0 | +0 | +0 | +0 | +
Inst-first, _ | +0.8173 | +0.7125 | +0.4640 | +0.7343 | +0 | +1 | +6 | +259 | +|
No-inst, _ | +0.8139 | +0.6811 | +\ | +\ | +8 | +5 | +\ | +\ | +|
_, MI | +0.7819 | +0.6256 | +0.3332 | +0.6520 | +1 | +0 | +8 | +29 | +|
Output | +Natural, TxtLabel, PU | +0.8049 | +0.6793 | +0.4330 | +0.6982 | +0 | +0 | +0 | +0 | +
Lines, _, _ | +0.8060 | +0.6797 | +0.4498 | +0.7038 | +0 | +1 | +0 | +1 | +|
JSON, _, _ | +0.8021 | +0.6649 | +0.4661 | +0.6647 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +0.8081 | +0.6764 | +0.4393 | +0.7286 | +0 | +0 | +3 | +3 | +|
_, _, OU | +0.8008 | +0.6369 | +0.4374 | +0.6694 | +0 | +0 | +33 | +1 | +|
Reasoning | +No-CoT | +0.8021 | +0.6649 | +0.4661 | +0.6647 | +0 | +0 | +0 | +0 | +
CoT | +0.7981 | +0.6966 | +0.5190 | +0.7098 | +36 | +7 | +10 | +132 | +|
R-CoT | +0.8043 | +0.6709 | +0.3994 | +0.7195 | +50 | +4 | +19 | +42 | +
model: intern-base + | ++ Weighted Kappa + | ++ # Wrong + format (7969 test samples in total) + | +|||||||
train_size=500 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.7849 | +0.6465 | +0.4898 | +0.6129 | +0 | +1 | +1 | +0 | +
Inst-first, _ | +0.7955 | +0.6472 | +0.4947 | +0.7006 | +3 | +8 | +18 | +221 | +|
No-inst, _ | +0.7936 | +0.6119 | +\ | +\ | +11 | +6 | +\ | +\ | +|
_, MI | +0.7562 | +0.5029 | +0.3305 | +0.4672 | +0 | +1 | +232 | +447 | +|
Output | +Natural, TxtLabel, PU | +0.7849 | +0.6465 | +0.4898 | +0.6129 | +0 | +1 | +1 | +0 | +
Lines, _, _ | +0.7873 | +0.6455 | +0.4939 | +0.6365 | +0 | +2 | +4 | +0 | +|
JSON, _, _ | +0.7859 | +0.6250 | +0.4727 | +0.6127 | +0 | +0 | +3 | +82 | +|
_, NumLabel, _ | +0.7605 | +0.6003 | +0.3861 | +0.6412 | +14 | +3 | +10 | +102 | +|
_, _, OU | +0.7275 | +0.5185 | +0.3943 | +0.4935 | +0 | +4 | +48 | +6 | +|
Reasoning | +No-CoT | +0.7859 | +0.6250 | +0.4727 | +0.6127 | +0 | +0 | +3 | +82 | +
CoT | +0.7621 | +0.6489 | +0.4581 | +0.6388 | +77 | +12 | +2347 | +50 | +|
R-CoT | +0.7734 | +0.6342 | +0.3752 | +0.6816 | +141 | +49 | +1496 | +206 | +|
train_size=1000 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8112 | +0.6874 | +0.5216 | +0.7065 | +1 | +0 | +0 | +0 | +
Inst-first, _ | +0.8167 | +0.6965 | +0.5195 | +0.7544 | +0 | +0 | +5 | +46 | +|
No-inst, _ | +0.8191 | +0.6963 | +\ | +\ | +5 | +8 | +\ | +\ | +|
_, MI | +0.7937 | +0.6238 | +0.2780 | +0.6492 | +0 | +2 | +383 | +45 | +|
Output | +Natural, TxtLabel, PU | +0.8112 | +0.6874 | +0.5216 | +0.7065 | +1 | +0 | +0 | +0 | +
Lines, _, _ | +0.8113 | +0.6919 | +0.5060 | +0.7126 | +0 | +0 | +3 | +0 | +|
JSON, _, _ | +0.8076 | +0.6781 | +0.5195 | +0.6817 | +0 | +0 | +3 | +1 | +|
_, NumLabel, _ | +0.8084 | +0.6776 | +0.4426 | +0.7139 | +3 | +1 | +31 | +20 | +|
_, _, OU | +0.8006 | +0.6330 | +0.4587 | +0.6098 | +0 | +1 | +30 | +3 | +|
Reasoning | +No-CoT | +0.8076 | +0.6781 | +0.5195 | +0.6817 | +0 | +0 | +3 | +1 | +
CoT | +0.7956 | +0.6874 | +0.5196 | +0.6903 | +34 | +12 | +405 | +56 | +|
R-CoT | +0.8069 | +0.6725 | +0.4890 | +0.7185 | +46 | +11 | +220 | +125 | +
model: bc2-chat | ++ Weighted Kappa + | ++ # Wrong + format (7969 test samples in total) + | +|||||||
train_size=500 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.7904 | +0.6544 | +0.4067 | +0.6170 | +8 | +0 | +21 | +10 | +
Inst-first, _ | +0.7958 | +0.6660 | +0.3858 | +0.6739 | +19 | +36 | +12 | +385 | +|
No-inst, _ | +0.7176 | +0.4776 | +\ | +\ | +23 | +13 | +\ | +\ | +|
_, MI | +0.7645 | +0.5636 | +0.3713 | +0.5490 | +0 | +0 | +5 | +16 | +|
Output | +Natural, TxtLabel, PU | +0.7904 | +0.6544 | +0.4067 | +0.6170 | +8 | +0 | +21 | +10 | +
Lines, _, _ | +0.7869 | +0.6653 | +0.4091 | +0.6344 | +0 | +0 | +9 | +1 | +|
JSON, _, _ | +0.7927 | +0.6489 | +0.4714 | +0.6196 | +0 | +0 | +1 | +0 | +|
_, NumLabel, _ | +0.7839 | +0.6401 | +0.3671 | +0.6506 | +5 | +4 | +12 | +17 | +|
_, _, OU | +0.7016 | +0.5670 | +0.3599 | +0.3285 | +2 | +81 | +50 | +19 | +|
Reasoning | +No-CoT | +0.7927 | +0.6489 | +0.4714 | +0.6196 | +0 | +0 | +1 | +0 | +
CoT | +0.7722 | +0.6400 | +0.5006 | +0.6776 | +3641 | +757 | +739 | +3323 | +|
R-CoT | +0.7922 | +0.6535 | +0.4534 | +0.6579 | +107 | +126 | +280 | +563 | +|
train_size=1000 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8113 | +0.7060 | +0.4709 | +0.6365 | +0 | +4 | +13 | +18 | +
Inst-first, _ | +0.8142 | +0.7095 | +0.4733 | +0.6787 | +31 | +12 | +21 | +136 | +|
No-inst, _ | +0.7466 | +0.6172 | +\ | +\ | +6 | +6 | +\ | +\ | +|
_, MI | +0.7935 | +0.6514 | +0.3951 | +0.5885 | +0 | +0 | +7 | +3 | +|
Output | +Natural, TxtLabel, PU | +0.8113 | +0.7060 | +0.4709 | +0.6365 | +0 | +4 | +13 | +18 | +
Lines, _, _ | +0.8103 | +0.7057 | +0.4691 | +0.6387 | +0 | +0 | +3 | +0 | +|
JSON, _, _ | +0.8118 | +0.7064 | +0.5237 | +0.6323 | +0 | +0 | +1 | +0 | +|
_, NumLabel, _ | +0.8121 | +0.6962 | +0.4042 | +0.6697 | +10 | +17 | +4 | +15 | +|
_, _, OU | +0.8061 | +0.6467 | +0.4843 | +0.5155 | +1 | +25 | +44 | +4 | +|
Reasoning | +No-CoT | +0.8118 | +0.7064 | +0.5237 | +0.6323 | +0 | +0 | +1 | +0 | +
CoT | +0.7995 | +0.7026 | +0.4992 | +0.6975 | +2273 | +193 | +560 | +2043 | +|
R-CoT | +0.8087 | +0.6961 | +0.5022 | +0.6772 | +57 | +48 | +85 | +167 | +
model: bc2-base | ++ Weighted Kappa + | ++ # Wrong + format (7969 test samples in total) + | +|||||||
train_size=500 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8017 | +0.6412 | +0.4441 | +0.6146 | +0 | +0 | +75 | +0 | +
Inst-first, _ | +0.8016 | +0.6649 | +0.4488 | +0.6657 | +0 | +6 | +27 | +4 | +|
No-inst, _ | +0.7533 | +0.6020 | +\ | +\ | +2 | +3 | +\ | +\ | +|
_, MI | +0.7660 | +0.4999 | +0.3220 | +0.1978 | +0 | +0 | +1 | +164 | +|
Output | +Natural, TxtLabel, PU | +0.8017 | +0.6412 | +0.4441 | +0.6146 | +0 | +0 | +75 | +0 | +
Lines, _, _ | +0.7996 | +0.6317 | +0.4583 | +0.6191 | +0 | +0 | +2 | +0 | +|
JSON, _, _ | +0.8008 | +0.6476 | +0.4316 | +0.6104 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +0.7969 | +0.5794 | +0.4312 | +0.5206 | +7 | +45 | +469 | +47 | +|
_, _, OU | +0.7595 | +0.5202 | +0.4240 | +0.4944 | +0 | +0 | +116 | +2 | +|
Reasoning | +No-CoT | +0.7595 | +0.5202 | +0.4240 | +0.4944 | +0 | +0 | +116 | +2 | +
CoT | +0.7865 | +0.6814 | +0.3854 | +0.6745 | +63 | +17 | +43 | +483 | +|
R-CoT | +0.7980 | +0.6548 | +0.4240 | +0.6349 | +32 | +44 | +39 | +32 | +|
train_size=1000 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +D1→D1 | +D2→D2 | +D1→D2 | +D2→D1 | +|
Input | +Inst-last, No-MI | +0.8143 | +0.6981 | +0.4747 | +0.6767 | +0 | +0 | +26 | +4 | +
Inst-first, _ | +0.8155 | +0.7157 | +0.5061 | +0.6974 | +0 | +3 | +26 | +4 | +|
No-inst, _ | +0.7543 | +0.6391 | +\ | +\ | +0 | +3 | +\ | +\ | +|
_, MI | +0.8010 | +0.6489 | +0.4164 | +0.5250 | +0 | +0 | +1 | +431 | +|
Output | +Natural, TxtLabel, PU | +0.8143 | +0.6981 | +0.4747 | +0.6767 | +0 | +0 | +26 | +4 | +
Lines, _, _ | +0.8103 | +0.7003 | +0.4732 | +0.6713 | +0 | +0 | +6 | +1 | +|
JSON, _, _ | +0.8120 | +0.7039 | +0.4785 | +0.6819 | +0 | +0 | +0 | +0 | +|
_, NumLabel, _ | +0.8119 | +0.6812 | +0.4575 | +0.6467 | +1 | +5 | +292 | +8 | +|
_, _, OU | +0.7894 | +0.6484 | +0.4031 | +0.6235 | +0 | +1 | +31 | +0 | +|
Reasoning | +No-CoT | +0.7894 | +0.6484 | +0.4031 | +0.6235 | +0 | +1 | +31 | +0 | +
CoT | +0.8045 | +0.7063 | +0.5319 | +0.6965 | +21 | +12 | +25 | +494 | +|
R-CoT | +0.8160 | +0.7021 | +0.4604 | +0.6949 | +15 | +14 | +24 | +115 | +
+ A.5 GENIA,MAVEN和Review11的详细结果 +
+表9显示了三个下游任务(GENIA(嵌套NER),MAVEN(事件检测)和Review11(MASA))上不同样本设计策略的比较。对于GENIA和MAVEN,报告了硬匹配和软匹配的F1分数,而对于Review11,报告了kappa + 和准确度。从结果来看,我们可以看到ES-SDE在不同任务和训练规模上都保持着优势。 +
+表10说明了在不同指示变体下,不同样本设计策略在三个下游任务上的性能。
++ | + | + GENIA + (Nested-NER) + | ++ MAVEN (ED) + | ++ Review11 + (MASA) + | +|||
---|---|---|---|---|---|---|---|
training + size | +Strategies | +F1-hard | +F1-soft | +F1-hard | +F1-soft | ++ | Acc | +
+ | heuristic + | +0.51232 | +0.57465 | +0.5197 | +0.5356 | +0.588 | +0.7586 | +
EW-SDE + | +0.48328 | +0.54318 | +0.4922 | +0.5364 | +0.7235 | +0.8327 | +|
ES-SDE | +0.54068 | +0.61412 | +0.5846 | +0.6331 | +0.7691 | +0.8626 | +|
+ | heuristic + | +0.56537 | +0.62275 | +0.6237 | +0.6354 | +0.7058 | +0.8262 | +
EW-SDE + | +0.48785 | +0.55166 | +0.6109 | +0.6275 | +0.7565 | +0.8502 | +|
ES-SDE | +0.61593 | +0.68951 | +0.6432 | +0.6726 | +0.7892 | +0.8716 | +|
+ | heuristic + | +0.64759 | +0.69905 | +0.6722 | +0.6813 | +0.7479 | +0.8483 | +
EW-SDE + | +0.54351 | +0.6025 | +0.6966 | +0.7106 | +0.7805 | +0.8649 | +|
ES-SDE | +0.68069 | +0.7393 | +0.7033 | +0.7172 | +0.8023 | +0.8785 | +|
+ | heuristic + | +0.68726 | +0.73825 | +0.7118 | +0.7176 | +0.7751 | +0.8644 | +
EW-SDE + | +0.71109 | +0.77093 | +0.7265 | +0.7338 | +0.7917 | +0.8715 | +|
ES-SDE | +0.72726 | +0.78487 | +0.7295 | +0.7466 | +0.805 | +0.8814 | +
+ | + | + GENIA + (Nested-NER) + | ++ MAVEN (ED) + | ++ Review11 + (MASA) + | +|||
---|---|---|---|---|---|---|---|
+ Instruction Variation | +Strategies + | +F1-hard | +F1-soft + | +F1-hard | +F1-soft + | ++ | Acc | +
inst-1 | ++ heuristic | +0.5123 | +0.5747 + | +0.5197 | +0.5356 + | +0.588 | +0.7586 | +
EW-SDE + | +0.4833 | +0.5432 | +0.4922 | +0.5364 | +0.7235 | +0.8327 | +|
ES-SDE | +0.5407 | +0.6141 | +0.5846 | +0.6331 | +0.7691 | +0.8626 | +|
inst-2 | ++ heuristic | +0.49813 | +0.56095 + | +0.5134 | +0.5334 + | +0.6009 | +0.7685 | +
EW-SDE + | +0.48593 | +0.54999 | +0.4956 | +0.5339 | +0.7208 | +0.8344 | +|
ES-SDE | +0.53479 | +0.60767 | +0.5636 | +0.6167 | +0.7659 | +0.8615 | +|
inst-3 | ++ heuristic | +0.48733 | +0.55491 + | +0.4940 | +0.5060 + | +0.5793 | +0.7533 | +
EW-SDE + | +0.47638 | +0.53685 | +0.4925 | +0.5399 | +0.721 | +0.8365 | +|
ES-SDE | +0.53525 + | +0.60902 + | +0.5530 | +0.6087 | +0.7624 | +0.8601 | +
+ A.6 Inst-last和Inst-first的额外分析 +
+实验结果显示,Inst-first在各种任务和模型中始终优于Inst-last,这让我们进行了更深入的分析。我们提取了与指示中一些任务相关领域相关的注意权重,并对每个标记的这些任务相关的注意权重进行了总结。图8显示了对某个客户评论的注意权重的比较。正如我们所看到的,靠近指令的标记通常会获得更高的任务相关的注意权重。直觉上,当人们写评论时,他们通常会在开头表达他们的核心观点。这导致了指示放在前面的话,这些核心部分可能会获得更大的任务相关的注意权重。这可能在一定程度上解释了为什么Inst-first通常会导致更高的情感分析性能。 +
+![Refer to caption](resource/inst-attention.png)
![Refer to caption](resource/x8.png)
+ A.7 OU 和 PU 的附加分析 +
+在先前的实验中,我们发现OU的表现要比PU差得多。这一有趣的结果激励我们进行进一步的分析。具体来说,我们计算并比较了OU和PU的kappa分数,以分析标签分布与OU效果之间的关系。
+从表11的结果中,我们可以观察到,当用500个样本训练模型时,对于未提及较多的方面,OU方法与PU格式相比存在显著差距。当训练集增加到1000个样本时,这个差距明显缩小。这表明对于OU方法,未提及较多的方面,即在答案中出现频率较低的方面,对模型学习来说更加困难,因此需要更多的数据。从另一个角度来看,这也表明即使某个方面在文本中没有涉及,在答案中提及这个方面可以增强模型对它的理解。 +
++ Aspect + | ++ Trainsize=500 | +Trainsize=1000 | +|||||
---|---|---|---|---|---|---|---|
(%)Num_ | ++ + | +(%)Num_ | ++ + | +||||
+ | + | Unmen | +Avg_Chat | +Avg_Base | +Unmen | +Avg_Chat | +Avg_Base | +
D1 | +F | +1.00 | +-.0004 | +.0007 | +1.40 | +-.0026 | +-.0011 | +
+ | SA | +33.60 | +-.0687 | +-.0555 | +34.40 | +-.0062 | +-.0212 | +
+ | P | +38.00 | +-.0469 | +-.0495 | +37.90 | +-.0068 | +-.0255 | +
+ | B | +65.40 | +-.0410 | +-.0291 | +65.70 | +-.0117 | +-.0079 | +
+ | H | +78.00 | +-.0920 | +-.1367 | +76.40 | +-.0033 | +-.0207 | +
+ | PC | +93.60 | +-.2338 | +-.2590 | +93.00 | +-.0181 | +-.0305 | +
D2 | +TC | +26.80 | +-.0891 | +-.1341 | +25.60 | +-.0497 | +-.0492 | +
+ | D | +41.60 | +-.1106 | +-.2475 | +39.10 | +-.0280 | +-.0500 | +
+ | Q | +61.80 | +-.0329 | +-.0588 | +61.00 | +-.0361 | +-.0149 | +
+ | SS | +71.40 | +-.2537 | +-.2575 | +71.60 | +-.0574 | +-.0896 | +
+ | N | +94.80 | +-.3347 | +-.3954 | +93.90 | +-.0494 | +-.1405 | +
+ A.8 PE能指导SDE吗?详细结果 +
+评估样本设计的性能涉及对下游任务上的模型进行微调,这可能是耗时的。 + 因此,我们也在考虑是否可能在不先训练模型的情况下设计更好的样本。我们尝试通过在零-shot和上下文学习场景中尝试不同的提示设计来了解模型的固有能力和潜力。
++ A.8.1 零样本和上下文学习分析 +
++ 零-shot和上下文学习能力可以直接显示LLMs对给定任务的熟悉程度。在零-shot方法中,我们使用每个SDE选项的输入(其中包含输出格式的指示)作为原始冻结LLMs预测的提示。对于ICL方法,我们在每个测试实例之前添加两个来自训练集的固定示例。考虑到样本长度增加导致的推理时间成本,我们将我们的预测和分析限制在500个样本。所有其他实验设置与实验I中描述的实验保持一致。 +
+零-shot研究。 在第4节中使用的所有六个7B LLMs都表现出糟糕的零-shot + MASA能力,在大多数情况下未能遵循指示生成适当的输出,如表13所示,这使得很难分析其与SDE结果的关系。观察到不同模型之间的格式偏好变化,我们推测这与每个模型用于指令微调的数据集密切相关。一些模式在零-shot和SDE之间也是矛盾的。例如,OU + SDE选项始终损害了DT的表现,然而,对于某些LLMs来说,其提示在零-shot推断中导致显著较少的格式错误。因此,零-shot表现几乎无法判断好坏的SDE选项。 +
+内容: 上下文学习研究。 + ICL可以有效地提高LLM的指示遵循能力,导致远比零-shot更少的格式错误。因此,我们在表14中报告了每个模型在两个领域上的平均情感分析性能。结果表明,Inst-first和CoT提高了大多数模型的性能,这为在微调过程中选择格式提供了宝贵的见解。对于输出设计,JSON和OU选项在某些模型上优于其他方法,与SDE结果不同。
++ A.8.2 困惑度分析 +
+困惑度衡量了模型生成给定文本序列的不确定性,Chen et al. (1998),较低的困惑度值表示模型对预测更有信心。在计算中,我们使用常见做法,即取模型损失的对数来估计困惑度。 +
++ 在我们的任务中,我们比较了与每个不同的SDE选项对应的ICL提示的PPL分数,以及模型ICL预测的条件PPL。对于预测,我们将提示和预测连接在一起作为一个序列,然后将提示视为其上下文。 +
+对不同设计的困惑度结果显示在表12中。对于输入设计,Inst-first + 选项的PPL得分通常低于Inst-last的得分,这与Inst-first在ICL和SDE实验中表现更好的结论一致。对于输出设计,OU + 选项获得了最高的分数,这与其在ICL上的表现不一致,但与其在SDE实验中表现最差的一致。令人惊讶的是,JSON + 格式获得了显著最低的PPL得分,但在ICL中与Lines 格式持平,甚至比SDE中的Lines + 格式更差。最有趣的结果出现在推理设计中。 CoT 和 R-CoT + 选项在提示上的PPL得分低,而在预测上得分高。这种矛盾使得通过PPL得分难以分析ICL或SDE的结果。
+以上分析还突出了我们SDE实验的必不可少,因为我们不能单凭初步分析就预先确定不同设计的最终有效性。 +
+![Refer to caption](resource/x9.png)
![Refer to caption](resource/x10.png)
![Refer to caption](resource/x11.png)
+ Perplexity:Prompts + | +c-llama2-chat | +c-llama2-base | +intern-chat | +intern-base | +bc2-chat | +bc2-base | +|
---|---|---|---|---|---|---|---|
Input | +Inst-last, No-MI | +47.662 | +111.063 | +18.422 | +19.036 | +59.046 | +42.030 | +
Inst-first, _ | +46.357 | +110.065 | +19.561 | +18.632 | +54.795 | +39.003 | +|
Output | +Natural, TxtLabel, PU + | +47.662 | +111.063 | +18.422 | +19.036 | +59.046 | +42.030 | +
Lines, _, _ | +47.918 | +191.274 | +18.561 | +19.219 | +60.498 | +42.638 | +|
JSON, _, _ | +29.008 | +78.848 | +14.675 | +13.260 | +38.547 | +25.405 | +|
_, NumLabel, _ | +41.690 | +92.717 | +17.664 | +16.348 | +51.963 | +35.185 | +|
_, _, OU | +55.345 | +129.055 | +20.862 | +21.450 | +69.022 | +49.426 | +|
Reasoning | +No-CoT | +29.008 | +78.848 | +14.675 | +13.260 | +38.547 | +25.405 | +
CoT | +18.263 | +41.312 | +10.812 | +9.379 | +23.406 | +15.267 | +|
R-CoT | +18.210 | +42.648 | +10.789 | +9.354 | +22.671 | +15.333 | +|
+ Perplexity:Predictions + | +c-llama2-chat | +c-llama2-base | +intern-chat | +intern-base | +bc2-chat | +bc2-base | +|
Input | +Inst-last, No-MI + | +1.052 | +1.109 | +1.051 | +1.394 | +1.061 | +1.127 | +
Inst-first, _ | +1.088 | +1.284 | +1.046 | +1.360 | +1.066 | +1.113 | +|
Output | +Natural, TxtLabel, + PU | +1.052 | +1.109 | +1.051 | +1.394 | +1.061 | +1.127 | +
Lines, _, _ | +1.052 | +1.137 | +1.058 | +1.386 | +1.222 | +1.136 | +|
JSON, _, _ | +1.038 | +1.074 | +1.045 | +1.407 | +1.019 | +1.042 | +|
_, NumLabel, _ | +1.096 | +1.142 | +1.078 | +1.403 | +1.088 | +1.102 | +|
_, _, OU | +1.183 | +1.368 | +1.089 | +1.279 | +1.353 | +1.823 | +|
Reasoning | +No-CoT | +1.038 | +1.074 | +1.045 | +1.407 | +1.019 | +1.042 | +
CoT | +1.234 | +1.475 | +1.084 | +1.186 | +1.090 | +1.129 | +|
R-CoT | +1.239 | +1.293 | +1.069 | +1.185 | +1.063 | +1.090 | +
+ | + | + c-llama2-chat + | ++ Intern-chat + | ++ bc2-chat + | ++ c-llama2-base + | ++ Intern-base + | ++ bc2-base + | +||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ | + | D1 | +D2 | +D1 | +D2 | +D1 | +D2 | +D1 | +D2 | +D1 | +D2 | +D1 | +D2 | +
Input | +Ins-last | +74.24 | +31.67 | +85.82 | +11.75 | +40.67 | +22.12 | +88.92 | +36.60 | +94.89 | +81.60 | +100 | +98.18 | +
Ins-first | +70.05 | +44.82 | +98.76 | +99.61 | +59.56 | +24.18 | +88.62 | +27.49 | +89.79 + | +75.59 | +99.66 + | +96.26 + | +|
Output | +Natural, TxtLabel, PU | +74.24 | +31.67 | +85.82 | +11.75 | +40.67 | +22.12 | +88.92 | +36.60 | +94.89 | +81.60 | +100 | +98.18 | +
Lines, _, _ | +1.18 | +1.31 | +99.94 | +97.06 | +4.17 | +1.57 | +72.51 | +12.10 | +99.57 + | +99.79 | +99.99 + | +99.94 + | +|
JSON, _, _ | +5.94 | +16.49 | +100 | +100 | +96.15 | +73.53 | +99.94 | +100 | +100 | +100 | +100 | +100 | +|
_, Numerical, _ | +99.87 | +92.21 | +99.99 | +100 | +100 | +100 | +100 | +100 | +100 | +100 | +100 | +100 | +|
_, _, OU | +45.75 | +18.31 | +70.21 | +31.38 | +44.15 | +50.93 | +72.79 | +87.99 | +76.80 + | +56.87 | +99.74 + | +95.33 + | +|
Reasoning | +No-CoT | +5.94 | +16.49 | +100 | +100 | +96.15 | +73.53 | +99.94 | +100 | +100 | +100 | +100 | +100 | +
CoT | +35.25 + | +34.25 | +100 | +100 | +58.66 + | +53.29 | +100 | +100 | +100 + | +100 | +99.99 + | +99.99 + | +|
+ | R-CoT | +33.84 | +75.87 | +100 | +100 | +80.71 | +77.12 | +98.24 | +90.58 | +100 | +100 | +100 | +100 | +
+ test_size=500 | +c-llama2-chat | +c-llama2-base | +intern-chat | +intern-base | +bc2-chat | +bc2-base | +|
---|---|---|---|---|---|---|---|
Input | +Inst-last | +0.3834 | +0.2835 | +0.1856 | +0.1212 | +0.4402 | +0.4187 | +
Inst-first | +0.4832 | +0.2959 | +0.2038 | +0.2044 | +0.5091 | +0.4345 | +|
Output | +Natural, TxtLabel, PU + | +0.3834 | +0.2835 | +0.1856 | +0.1212 | +0.4402 | +0.4187 | +
Lines, _, _ | +0.4220 | +0.2921 | +0.2436 | +0.1846 | +0.3971 | +0.4077 | +|
JSON, _, _ | +0.3773 | +0.2132 | +0.3390 | +0.2954 | +0.4614 | +0.3683 | +|
_, NumLabel, _ | +0.1522 | +0.1666 | +0.2470 | +0.2603 | +0.2406 | +0.1960 | +|
_, _, OU | +0.3612 | +0.3168 | +0.2461 | +0.1443 | +0.1948 | +0.1924 | +|
Reasoning | +No-CoT | +0.3773 | +0.2132 | +0.3390 | +0.2954 | +0.4614 | +0.3683 | +
CoT | +0.3383 | +0.2174 | +0.3636 | +0.3167 | +0.4810 | +0.4466 | +|
R-CoT | +0.3638 | +0.2445 | +0.3522 | +0.2633 | +0.4668 | +0.4075 | +