近年来,众包标注为大规模、快速、多样性、低成本、高质量的数据标注提供了一种强大的工具,它可以满足各种领域应用的数据标注需求,推动了人工智能和机器学习技术的发展和应用。然而,随着大型语言模型(LLMs)的发展,众包工作人员为增加收入,开始普遍使用LLMs来提高生产效率。由于基于LLMs合成的数据可能会延续偏见和意识形态,这势必会影响众包数据的质量,「那么未来的众包标注数据还可靠吗」?
今天分享的这篇文章对此问题展开了研究:作者提出采用按键检测和合成文本分类的方法来识别众包工人是否使用LLMs,实验结果显示众包工人在文本摘要任务中普遍使用LLM,使用率大概为33%到46%。最后作者呼吁各大众包平台需要采取一定的方法来确保众包数据的人性化。

Paper:https://arxiv.org/pdf/2306.07899.pdf
Code:https://github.com/epfl-dlab/GPTurk
大规模的自然语言处理数据集、计算机视觉数据集、语音识别/合成数据集心理学实验都一个共同之处。它们都依赖于众包平台,基于众包平台可以实现数据的创建、注释、调研等工作,已然成为研究人员、从业者重要数据来源。
同时,大型语言模型(LLMs),包括ChatGPT、GPT-4、PaLM和Claude,已经席卷世界。也有研究表明,LLMs可以作为数据标注工具,并在性能产出要远远优于众包工作者。此外,它们可以很好的模拟人类行为,让社会科学家能够进行计算实验和分析,并可以得到类人的分析结果。然而,「有很多研究者对LLMs得到的结果持有怀疑态度」,因为它们在各种任务上的表现仍然很差,例如逻辑推理,所以LLMs生成的数据与实际需要的数据仍有可能存在差距。
未来让学术研究更加严谨,通过众包来验证LLMs的输出或者创建Gold-standard数据来进行对比是很有必要的。但如果众包工作人员为了增加收入,使用LLMs来提高他们在众包平台上的生产力,那该怎么办呢?「当众包数据将不再是预期的Gold-standard数据,这将严重削弱众包数据的效用」。为此,有必要弄清楚众包工作人员在多大程度上使用LLMs,这个问题对于所有依赖众包的人来说是非常重要的。带着这个问题,「本文作者通过一种新颖的检测合成文本的方法,在MTurk上进行了一项基于案例研究的调查,以量化众包工作者使用LLM的情况」。
评估众包工作者在文本摘要任务中使用LLMs的程度的主要流程方法如下图所示:

其中,首先使用真正的人工编写的MTurk响应和基于LLMs编写的响应来训练特定地分类器;其次将这个分类器用于真实的MTurk响应(工人可能依赖也可能不依赖LLMs),来估计LLMs使用的普遍性。在此过程中,作者根据收集到的真实MTurk响应和鼠标按键记录进行事后分析来确定该方法的有效性。
具体的:
「本文摘要任务」 作者引入了一项基于MTurk的任务,旨在研究所谓的“电话效应”,即当信息在一个信息级联中从人传递到人时,信息会逐渐丢失或扭曲。在这项任务中,众包工人被要求对发表在新英格兰医学杂志(NEJM)上的医学研究论文摘要进行总结,将原始摘要(约2000个字符)缩减为更短的段落(约1000个字符)。然后,该过程基于这些摘要的总结进行迭代,进行多轮总结。
众包工人对每个原始摘要进行了八次不断缩短的总结,形成了整个信息级联。共获得了44个不同工人撰写的48个摘要。对于其中两个摘要,存在两个重复的总结,我们将其去重,剩下了46个摘要。除了这些总结,我们还使用JavaScript提取了工人在执行任务时所做的所有击键操作,包括复制和粘贴操作。
「合成数据检测」 在模型选择方面,作者「使用e5预训练模型作为合成检测的主要模型架构」,该模型使用对比损失进行了预训练,并在微调的分类设置中实现了强大的性能;在数据选择方面,作者使用了三个数据集训练分类器,所有这些数据集都源自或派生自相关的MTurk任务;在模型训练方面,作者在两个训练/测试设置中训练模型:抽象级拆分和摘要级拆分。其中在抽象级别拆分中,将摘要分为两个不相交的集合:12个用于训练和验证的摘要,4个用于测试,在摘要级拆分中,随机拆分真实和合成摘要数据集,利用75%的摘要进行训练,10%用于验证,15%用于测试。
「事后验证」 作者结合鼠标操作记录来评估数据的特定子集是合成生成的还是人工生成的。首先,假设完全在MTurk上提供的文本框中编写的摘要(不涉及粘贴操作)是真实的;其次,对于使用粘贴的摘要,检查粘贴的文本的哪一部分来自原始摘要(因为群众工作者只是在摘要中重新排列摘要的部分),而哪一部分是由新文本组成的;最后,在假设与原始摘要没有太大关系的粘贴摘要是被合成的情况下,可以得到模型的准确率。
对于本文模型方法准确性验证,如下图所示,本文精调模型实现了99%的准确率和99%的F1值。

作者在46个新的摘要中应用之前训练好的模型来检测众包工人是否使用了LLM。为了获得更准确的结果,作者尝试了不同的阈值,发现从33%到46%的摘要使用了LLM。因此,作者得出结论,「众包工人在文本摘要任务中普遍使用LLM」。
