BERT 与 CoCoLoFa 联手：提高逻辑谬误检测的准确性与效率！

AIGC 先锋科技

发布于 2024-11-13 18:46:39

990

检测文本中的逻辑谬误可以帮助用户发现论点缺陷，但自动化这一检测并不容易。手动标注大规模、真实世界的文本数据中的谬误，以创建用于开发和验证检测模型的数据集，成本高昂。本文介绍了CoCoLoFa，已知最大的英语逻辑谬误数据集，包含648篇新闻文章的7,706条评论，每条评论都标注了谬误的存在和类型。作者招募了143名众包者编写特定谬误类型的评论（例如，滑坡谬误）以回应新闻文章。考虑到这项写作任务的复杂性，作者在工作者界面中构建了一个基于LLM的助手，以帮助撰写和修改他们的评论。专家们对CoCoLoFa的写作质量和标签有效性给予了高度评价和认可。使用CoCoLoFa微调的BERT基础模型在测试集上实现了最高的谬误检测（F1=0.86）和分类（F1=0.87）性能，超过了最先进的LLM。作者的工作表明，结合众包和LLM，作者可以更有效地构建复杂语言现象的数据集，这些现象让众包者难以自行产生。 https://github.com/Crowd-AI-Lab/cocolofa/

1 Introduction

逻辑谬误是削弱论点有效性的推理错误。类似于滑坡谬误或虚假二选一的逻辑谬误会降低在线讨论的质量并使论点显得更有疑点，促进错误信息的传播（Jin等人，2022年）。自动检测文本中的逻辑谬误将帮助用户识别论点缺陷。然而，在自然环境中自动识别这些谬误并不容易。

存在超过100种逻辑谬误（Arp等人，2018年）。问题的本质使得构建大规模的带标签数据集变得昂贵，这些数据集是开发谬误检测模型的必要条件。以前的工作已经创建了数据集（见表1）：逻辑数据集收集了在线教育材料的示例；

逻辑气候数据集收集了来自新闻文章的实例，专门针对特定话题范围，并识别出与这些话题相关的常见谬误论点（Jin等人，2022年）；Argotario数据集使用了一种 gamified 众包方法收集（Habernal等人，2017年）；Sahai等人（2021年）提出的数据集利用了 Reddit 用户社区标签。

这些先前的努力是值得借鉴的，但它们通常没有关注在自然环境中实现谬误检测，因为每个方法都做出了重大的权衡，以简化 Token 谬误的挑战：关注较小的规模（1,000+实例；没有负样本），特定话题如气候变化而非更广泛的范围，或明确的教育示例而非复杂的网络讨论。

一个例外是 Sahai等人（2021年）提出的 Reddit 数据集，该数据集相对较大，包括杂乱的 Reddit 评论。然而，它将评论与原始线程隔离，限制了上下文的使用，以增强检测和理解在线讨论中谬误展开的方式。

本文提出了CoCoLoFa数据集，该数据集包含7,706条针对648篇新闻文章的评论，每条评论都针对逻辑谬误的存在和类型进行标注（图1）。作者数据收集方法的基本思路是首先指定一个逻辑谬误类型（例如，滑坡），并展示一篇新闻文章（例如，关于堕胎法律的），让众包工人撰写并完善评论。考虑到这项写作任务的困难性，作者在界面上构建了一个基于LLM的助手，帮助工人草拟和优化评论。

作者的数据收集方法将数据标注过程替换为数据生成，减少了雇佣工人首先筛选大量非谬误实例的需要，使数据收集更具可扩展性。此外，它还提高了针对研究者的特定逻辑谬误类型的控制能力。与先前的研究相比（表1），CoCoLoFa是最大的NLP逻辑谬误数据集，每个实例的平均句子和单词数量最高。

两位专家对CoCoLoFa的写作质量和标签有效性评价为高且可靠。实验表明，CoCoLoFa可用于有效地开发逻辑谬误检测和分类模型。

作为更广泛的启示，作者的工作展示了如何将众包与大型语言模型（LLM）结合，构建对复杂语言现象进行众包工人难以独立产生的数据集。这为未来的NLP数据集开辟了新的可能性。

2 Related Work

作者在引言（第1节）中讨论了主要的逻辑谬误数据集；本节关注的是之前未被覆盖的额外研究。Argotario Habernal等人（2017年）的跟进研究收集了6种逻辑谬误的数据，并 Token 了430个论点（Habernal等人，2018年）。同样，Bonial等人（2022年）使用相同的标注方案，在各种媒介上识别了226篇COVID-19文章中的逻辑谬误。其他研究专门针对新闻文章中的逻辑谬误检测。

例如，Da San Martino等人（2019年）对451篇新闻文章进行了标注，其中18种宣传技巧可以被视为逻辑谬误。此外，Helwe等人（2024年）使用统一的分类体系和论证标注了合并的现有数据集的200个样本。这些数据集相对较小，突显了为逻辑谬误标注大规模文本的挑战。新兴研究还探索了使用LLM合成逻辑谬误数据集的方法。Li等人（2024年）。

LLM-辅助众包数据创建。Veselovsky等人（2023年）发现许多众包工作者的提交概要都是使用LLM创建的。作者将这视为一个有趣的机遇，而非威胁。将LLM的辅助功能直接集成到工作者的界面中，对工人和需求者都有利。对于工人来说，内置的LLM可以帮助处理复杂写作任务，这些任务可能原本过于困难，同时无需在浏览器标签之间切换来使用外部LLM。

对于需求者来说，拥有内置的LLM，可以存储所有使用到的 Prompt 和LLM生成的文本，确保对LLM输出如何融入最终数据有更透明地理解。以前的工作已经将AI模型集成到工作者的界面中，以帮助生成触发特定模型行为的示例，如模型欺骗示例（Bartolo等人，2022年）。在这篇论文中，作者主张使用LLM来帮助工人生成复杂示例。

3 CoCoLoFa Dataset Construction

作者构建了CoCoLoFa数据集，该数据集包含了648篇新闻文章的在线评论部分中的7,706条评论。每条评论都针对逻辑谬误进行了 Token ，如果有必要，还会 Token 出特定的谬误类型。

143名众包者在他们的界面中得到了GPT-4的支持，撰写了这些评论。CoCoLoFa还包括新闻文章的标题和内容，所有内容都采用CC-BY 3.0许可。作者将数据集按文章分为训练（70%）、开发（20%）和测试（10%）集，以确保在各个划分中跨21个主题保持平衡。本节概述了数据构建步骤。

Selecting News Articles

作者从全球之声（Global Voices）这个在线新闻平台爬取新闻文章。该平台上的所有新闻文章都采用CC-BY 3.0许可。为了模拟热烈的在线讨论，作者采取了一种数据驱动的方法，选择了经常引发分歧和众多观点的话题的新闻文章。

首先，作者选择了全球之声提供的具有传统上更"有争议性"的标签，如_政治_、_妇女性别_、_移民移民_和_言论自由_等。其次，作者爬取了2005年1月1日至2023年6月28日期间具有这些标签的所有25,370篇文章。

第三，作者使用LDA模型（Blei等人，2003）对这些新闻文章中的70个主题进行发现。最后，根据每个主题的前40个词，作者手动选择了21个感兴趣的主题，并过滤掉了无关的新闻文章。

在构建其他数据集时，也使用了类似的方法来选择代表实际事件的高频词（Huang等人，2016）。因此，共选择了15,334篇新闻文章，其中2018年之后发布的650篇文章被随机选择用于构建CoCoLoFa数据集。

Fallacy Types Included in CoCoLoFa

超过100种非正式逻辑谬误存在（Arp等人，2018年），在一个数据集中全部覆盖是不切实际的。作者回顾了过去研究，如Sahai等人（2021年），Jin等人（2022年），Habernal等人（2017年）和Da San Martino等人（2019年）是如何选择谬误类型的。遵循Sahai等人（2021年）的研究，作者选择了在线讨论中常见的八种逻辑谬误：（1） 权威论证，(2) 多数人的意见，(3) 自然界的证据，(4) 传统的证据，(5) 更糟糕的问题的论证，(6) 虚假的抉择，(7) 草率归纳，和（8） 滑坡谬误。附录B展示了这八种谬误的定义和示例。3

Collecting Comments with Specified Logical Fallacies from Crowd Workers Assisted by LLMs

作者设计了一个众包任务，指导众包者编写包含特定逻辑谬误的评论。直觉是，将一个经常引起争议的话题（例如，堕胎）与逻辑谬误定义（例如，滑坡）相结合，使工作者能够轻易地提出与谬误相关的评论观点（例如，“堕胎合法化会导致杀戮规范化”）。在快速起草想法后，像GPT-4这样的LLM可以被用来与工作者一起阐述和优化评论。图2显示了工作者的界面，左侧是一个模拟的评论部分，右侧是说明和问题。众包者的流程如下。

Step 1: 阅读新闻文章。在任务开始时，工作行人首先会被要求阅读展示的新闻文章（图2A）。该文章是根据第3.1节中描述的程序选择的。

Step 2: 回答关于新闻的注意力检查问题。 作为注意力检查，工作行人将被要求回答与新闻相关的三个选择题（图2B）。

这些问题是：

（1）"这条新闻主要关注哪个话题？"

（2）"这条新闻的摘要是什么？"

（3）"这条新闻中提出了哪些观点？（选择三个答案）"作者向GPT-4 Prompt 正确和错误的选项。使用的 Prompt （见附录C）在实践中有效，可以过滤掉表现不佳的工人。回答准确率低于0.6的工人被禁止进入作者的系统24小时。

第三步：撰写评论并使用LLM修订。作者将写作任务分为两个较小的步骤：草稿和修订。首先，工人被呈现逻辑谬误定义，例如“传统谬误”（图2C），然后被要求撰写一篇新闻文章的回应，至少要有两个句子或至少10个词（图2D）。他们可以看到同一篇文章的其他工人的评论，并可以选择直接在文章上评论或在现有评论中回复。每个工人只看一篇文章一次。作者为每个任务指定了谬误（见第3.4节）。界面上的谬误定义是简化的版本，以便指导简洁且易于理解。谬误定义的简化版本详细在附录B中说明。其次，在草稿之后，工人被指示点击“获取（另一个）建议”按钮，以获得详细修订建议和包含谬误的示例（图2E）。

作者根据新闻文章（i）、评论草案（ii）和目标谬误（iii） Prompt GPT-4自动生成建议和示例。工人可以根据修订的评论再次点击按钮获取新的建议。在每个任务中，他们最多可以点击按钮五次。界面上的 Copy-Paste 功能被禁用，因此工人必须手动输入他们的评论。

论文工作流程设计的合理性。此工作流程利用了LLMs来帮助工人，使困难的写作任务变得容易。同时，它迫使工人提供他们的见解作为LLMs的输入，确保数据多样性并保留人类的触感。内置的LLM助手减少了工人转向外部LLM的可能性，使研究行人能够提供考虑全面、包括新闻内容、具体谬误和工人观点的 Prompt 。

值得注意的是，作者的方法——让工人撰写包含特定逻辑谬误的评论——在概念上类似于Argotario（Habernal等人，2017年）。

作者的方法有所不同之处在于两点：

首先，作者提供了现实世界的新闻作为背景，要求工人基于这些文章建立他们的谬误论点。

其次，作者对每篇文章进行了多次评论收集，使工人能够回应他人的评论。这两个因素使得CoCoLoFa能够更准确地模拟现实新闻网站的评论部分。

Implementation Details

四轮数据收集。作者的数据收集过程分为四个阶段。在每个阶段中，作者在界面上的文章部分下方添加了上一轮收集到的评论。第二到第四轮的工人可以通过选择下拉菜单中的评论ID来回应上一轮的评论（图2D）。每个工人只与一篇文章互动一次。

每种谬误类型的概率。作者使用开源的众包任务管理工具Mephisto在Amazon Mechanical Turk（MTurk）上收集数据。4 对于每篇新闻文章，作者在12个人工智能任务（HITs）上招募12名工人（每轮3人），让他们撰写评论。5 在前三个迭代中，每个任务随机收到八种逻辑谬误类型中的一个，概率为10%，或者有20%的概率在没有谬误逻辑的情况下进行评论。在第四个迭代中，作者将没有谬误逻辑的评论概率提高到60%，并将每个谬误类型的概率降低到5%，以收集更多的负面样本。工人每完成一个HIT（人工智能任务）获得2美元报酬，平均需要约10分钟，因此每小时报酬约为12美元。

结果数据集。作者分批次发布HITs，并每天密切监控数据质量，手动删除低质量的回复，即（1）明显离题的（例如，说这个任务很有趣），（2）为多篇文章写出完全相同的评论，或（3）整个评论中重复使用同一个词。完成50篇新闻文章通常需要一周左右，这可能是因为作者只使用拥有硕士学位的工人。共有143名工人为数据集做出了贡献。在删除评论少于6条的文章后，最终数据集包含648篇新闻文章和7706条评论。表2显示了CoCoLoFa的统计数据。

在作者的研究中，每个工人平均向LLM提出1.39个问题（SD=0.81）在撰写评论时。在评论中，只有3%的工人完全遵循了LLM的建议。工人评论与LLM最后建议之间的平均莱文斯坦比例为0.35（1表示句子相同），表明存在显著差异。作者观察到，大多数工人要么对建议进行 paraphrasing 要么在评论中添加了细节。

4 Data Quality Assessments

作者聘请了两位专家，他们来自UpWork.com。作者让他们评估数据质量。作者指定专家应具有识别逻辑谬误和为他们的标注提供解释的能力，在职位描述中。作者聘请的两位专家都是语言学博士。其中一位在英语作文和修辞学领域拥有超过25年的经验，另一位在翻译领域拥有超过20年的经验。他们还都有丰富的编辑学术文章和卷子的经验。他们的报酬是每小时50-60美元。

作者随机选择了20篇新闻文章，并要求专家在所有评论（总共237个评论）中标注谬误。对于每种谬误类型，作者将标签转换为二进制（表示存在谬误）并计算专家和CoCoLoFa的标签之间的Cohen's kappa（κ）一致性，以及两个专家之间的协议。作者还从Reddit数据集Sahai等人（2021）中随机选择了每种谬误类型的25个实例（总共255个实例），并要求同样的专家进行标注，以便进行比较。表3显示了结果。

CoCoLoFa 产生了略高于标注者之间的共识，而专家们经常意见不一。表3 显示，专家们通常在 CoCoLoFa 的标签上达成更多共识，而不是在 Reddit 数据集上。然而，专家 2 在两个数据集的几乎所有错误类型上，对标签的异议都更大。表3 还显示，专家们在两个数据集上的共识很低，尤其是在草率概括方面。

正如萨怀等人（2021 年）和阿尔希尼等人（2022 年）所指出的，这种值在标注逻辑错误数据时是正常的。作者对专家在两个数据集上的标注和标签进行了混淆矩阵计算。比较两个专家在 CoCoLoFa 上的混淆矩阵如图3 所示，其余的见附录 E。图3 显示，专家们在确定错误存在与否的问题上存在最多的分歧，而不是错误类型。作者将在讨论部分（第 6 节）进一步探讨高分歧的可能原因。

CoCoLoFa 被评为更流畅、语法正确。作者还要求专家针对每个评论使用五点利克特量表（1表示“强烈不同意”，5表示“强烈同意”）回答以下问题：（Q1）“忽略任何逻辑错误，这个评论在语法上正确且流畅。”（Q2）“这个评论似乎是由 ChatGPT 这样的人工智能模型编写的。”（Q3）“我对我的标注有信心。”（Q4）“我需要一些额外的上下文来标注这个评论。” 对于 Q1，CoCoLoFa 的平均分为 4.38（SD=0.91），而 Reddit 的平均分为 4.21（SD=1.04），表明 CoCoLoFa 中的文本普遍被认为是更流畅和语法正确的。对于 Q2，CoCoLoFa 的得分为 4.39（SD=0.79），而 Reddit 的得分为 4.58（SD=0.59），表明专家认为 Reddit 的文本更有人文特征。这与表3 的结果一致，表3 显示 Reddit 的标注者间一致性较低，这可能是因为其文本更混乱，更接近真实的互联网文本。尽管人类有时难以区分 LLM 生成的文本，但 Q2 的目的是确保 CoCoLoFa 的文本不会明显地显示出机器生成的特征，例如重复，这是人类可以识别的（Dugan 等，2023）。对于 Q3（4.53，4.57）和 Q4（1.59，1.60），CoCoLoFA 和 Reddit 之间没有明显差异。

担忧论证方案。在标注过程中，专家们发现一些工作行人在评论中没有包含谬误。相反，他们使用相应的论证方案使他们的论点“似谬而非谬”。为了解决这个问题，一些先前的研究，如Ruiz-Dolz和Lawrence（2023年）提出，可以利用对应论证方案的一系列关键问题来评估论点的有效性。然而，让标注者或评论撰写者针对每个评论回答这些问题将显著限制作者方法的可扩展性。鉴于专家只识别出237条评论中的12条为“似谬而非谬”，作者认为作者的方法是一个合理的选择。

5 Experimental Results

作者在逻辑、逻辑气候、Reddit和CoCoLoFa数据集（见表1）上评估了三种 Baseline 模型，这些模型既包括检测任务也包括分类任务。作者还额外使用一组标注的新 York Times 新闻评论测试了这些模型。作者将这两个任务定义如下：

给定一条评论，模型预测该评论是否为谬误。逻辑和逻辑气候只包含正面示例，因此作者只报告了召回率。

误谬分类。给定一个已知的误谬评论，模型将其分类为八种误谬类型之一。在这个任务中，作者移除了所有负样本。作者只评估在Reddit和CoCoLoFa上的 Baseline ，因为Logic和LogicClimate使用了不同的误谬类型方案。

Baseline Models

作者微调了BERT（Devlin等人，2019年），并使用[CLS] Token 的编码嵌入来预测标签。

受Jin等人（2022）的启发，作者使用RoBERTa（Liu等人，2019）作为基础模型，对NLI模型进行了微调。作者将输入评论视为前提，将标签视为假设。对于检测任务，假设模板为“文本[具有/不具有]逻辑错误”。对于分类任务，假设模板为“文本具有[标签名称]的逻辑错误”。

作者针对检测和分类逻辑错误的两个常用的LLMs，GPT-4o和Llama3（8B），设计了不同的 Prompt （见附录C），包括零样本 Prompt 、少样本 Prompt 以及Chain-of-Thought（COT） Prompt （Wei等人，2022）。

对于Reddit和CoCoLoFa，它们提供了诸如新闻标题或parent评论等上下文信息。作者将这些上下文信息整合到模型的输入中。对于BERT和NLI模型，作者将上下文信息附加到目标评论。对于LLM，作者在 Prompt 中使用占位符来包括这些信息。有关实现的详细信息，请参阅附录F。

Results of Fallacy Detection

基于BERT的模型在CoCoLoFa上进行微调具有比在Reddit上进行微调更好的泛化性。表4展示了检测任务的结果。在CoCoLoFa上微调的BERT实现了最高的F1分数（0.86），并在与在Reddit上进行微调相比表现出更好的泛化性。它在逻辑和逻辑气候方面超过了在Reddit上进行微调的BERT。在Reddit数据集上，它比在Reddit上进行微调的BERT只低0.05个F1分数（0.63 vs. 0.68），但在CoCoLoFa上，在Reddit上进行微调的BERT比在Reddit上进行微调的BERT低0.13个F1分数（0.73 vs. 0.86）。

最新的LLM在表现上仍然非常出色，在Reddit上取得了最佳的F1，并在Logic上取得了最佳的召回率。值得注意的是，LLM在LogicClimate上的表现不佳，从上下文中提取了逻辑错误的句子。这可能表明上下文理解对LLM预测至关重要，需要进一步的研究。

Results of Fallacy Classification

BERT基础的模型在CoCoLoFa上进行微调具有更好的泛化能力，分类似乎比检测更容易。表5显示了分类结果，与检测任务的结果相似。在CoCoLoFa上进行微调的NLI模型（一种BERT基础的模型）在测试集上实现了最高的F1得分（0.87）。在CoCoLoFa上进行微调的BERT和NLI模型比在Reddit上进行微调的模型表现出更好的泛化能力。当在Reddit数据集上进行测试时，BERT和NLI模型在CoCoLoFa上分别比其Reddit调优的对应模型低0.19和0.09个F1分。相反，在CoCoLoFa上，Reddit调优的BERT和NLI模型分别比在CoCoLoFa上进行微调的模型低0.24和0.21个F1分。此外，特别是GPT-4o在Reddit数据集上表现最佳。作者还观察到，分类任务通常比检测任务表现更好，这表明确定评论中的哪种谬误可能比决定是否存在谬误更容易。

Results of Fallacy Detection in the Wild

该项目的主要动机是识别逻辑谬误在现实中的存在（Ruiz-Dolz和Lawrence，2023）。因此，作者还额外在纽约时报评论数据集（Kesarwani，2018）上测试了作者的模型。作者从数据集中采样了500条评论，并雇佣了一位专家（如第4节所述）对谬误进行 Token 。表6显示了该数据集上的谬误检测结果。在标注纽约时报评论的专家中，发现了超过预定义的八种类型的多种谬误，因此作者为每个模型报告了两组结果：一组是将具有额外谬误类型的评论视为谬误（正样本），另一组是将它们视为非谬误（负样本）。

检测现实场景中的逻辑谬误仍然具有挑战性。尽管LLM在所有微调模型中表现最佳，但在第二个设置（即负样本）上的低F1分数（0.34）表明，LLM在精确识别逻辑谬误方面仍然不可靠，这激励了进一步的研究。此外，结果还表明，在CoCoLoFa上进行BERT模型微调在大多数情况下优于在Reddit上进行微调的模型，除NLI模型外，这表明CoCoLoFa在训练更具泛化能力的模型的潜力。关于NYT数据集的附加实验结果，请参见附录G。

6 Discussion

在项目进行过程中，作者发现标注逻辑谬误的 annotator 们经常存在分歧，这一点从所有相关文献中低下的跨 annotator 一致性（如Sahai等人，2021年；Alhindi等人，2022年，以及作者自己的研究中都有体现）中可以看出。本节概述了作者识别出的三种主要分歧来源，并提出了减少（或保留）这些分歧的设计建议。

Sources of Disagreement

在定义逻辑谬误的复杂性。许多谬误相似或重叠，一个文本可能包含多个谬误。此外，不同的数据集可以为同一个谬误名称提供不一致的定义。例如，“权威引用”可能被定义为“虚假权威的提及”或“未提供支持证据的引用有效权威”，这增加了混乱（Alhindi等人，2022年）。此外，当请专家对NYT数据集进行标注时，他们识别出许多包含其他类型谬误的评论，例如人身攻击，尽管它们不在作者预先定义的标注界面中的八种谬误类型之内。这些谬误固有的边界模糊。例如，人身攻击谬误很难分类，因为它们需要区分旨在削弱论点的个人攻击和简单的侮辱。这些复杂性表明，谬误 Token 工作可以从标准化定义和允许一个项目中使用多个标签来捕捉细微差别中受益。

变异在标注者对语病的判断中的体现。在作者的研究中，一位专家始终比另一位专家识别出更多的语病，这突显了标注者在对修辞策略的解释上可能存在显著差异。例如，这两位专家在堕胎合法性的评论中均识别出了“权威诉求”，该评论表示：“多数人的声音应成为立法者的指导之光。这就是民主的本质。”然而，一位专家认为这是一种有效的修辞用法，而不是语病，解释说它是在文本中定义“民主”的方式，而另一位专家则将其简单地归类为语病。要求标注者提供理由可能有助于明确他们将文本归类为语病的理由。

写作意图与读者感知之间的差异。尽管指示工人使用特定的谬误来编写评论，标注员有时会识别出不同的谬误。这突显了将读者的解释与作者的意图对齐的挑战。这还引发了一个问题：谁来确定文本是否包含谬误以及它代表了哪种谬误——作者、读者还是外部实体？这些差异可能源于谬误的本质，谬误可以基于词汇、句子或广义语境中的复杂推理[1]，读者和作者可能在同一评论中的不同元素上关注。

Design Suggestions

作者为涉及文本逻辑谬误的人为 Token 的未来项目提出以下三点设计建议：

(i) 提供 清晰、可操作的说明， (ii) 实现一个 多分类 Token 方案，允许文本实例包含多个逻辑谬误， (iii) 为每个逻辑谬误 Token 收集理由，确保如果实例被 Token 为多个逻辑谬误，每个逻辑谬误都由不同的理由支持。先前的研究已经采用了一些这些方法。对于 (i), Ruiz-Dolz 和 Lawrence 建议使用诸如 "How well supported by evidence is the allegation made in the character attack premise?" 这样的关键问题，以验证文本是否包含逻辑谬误。对于 (ii), 气候数据集采用了多标签标注 [17]。

对于 (iii), Sahai 等人要求标注者针对每个逻辑谬误 Token 回答特定问题。虽然这些方法在先前的研究中已经单独探索，但作者建议将所有三种方法结合在一起，创建一个更全面、更强大的标注数据集。

最符合这种方法的项目是 Helwe 等人，他们使用统一的多标签方案标注了 200 个文本实例。但他们指出，这种详细标注非常耗资源，一些标注者花四小时标注 20 个项目。作者怀疑作者的建议在规模扩大的过程中也可能需要投入大量资金。需要进行更多的研究来探索数据质量和可扩展性之间的权衡。

7 Conclusion and Future Work

这篇论文介绍了CoCoLoFa，这是已知的最大的逻辑谬误数据集，是通过LLM和众包行人之间的合作筛选出来的。使用CoCoLoFa进行BERT模型微调的模型在谬误检测和分类任务上表现良好。

在未来，作者计划开发能够利用上下文和推理来识别谬误的模型，特别是在非正常分布的数据上。

此外，尽管CoCoLoFa包括八种谬误类型，但实际上有一百多种。作者的目标是将其扩展到涵盖更多的类型。

参考文献

CoCoLoFa: A Dataset of News Comments with Common Logical.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-11-12，如有侵权请联系 cloudcommunity@tencent.com 删除

工作

本文分享自 AIGC 先锋科技微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度