作者:苏肇辰
标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取:ACL2024 Main 论文链接:https://arxiv.org/abs/2406.09072 代码链接:https://github.com/zhaochen0110/Cotempqa 单位:苏州大学、上海人工智能实验室
🔍 背景与现有工作:
🌟 我们的贡献 - COTEMPQA 数据集:
图1: Cotempqa数据集组成
图2: Cotempqa和常见时间推理数据集比较
图3: 三种共时关系
📊 实验结果与分析:
图4: 不同模型在Cotempqa数据集上的效果
图5: 错误分析
图6: 案例研究
图7: 不同能力在共时推理中的作用
🔧 提升策略 - MR-COT:
图8: MR-COT样例展示
图9: MR-COT的效果展示
💡结论
这篇论文中,我们提出了COTEMPQA数据集,并评估了现有大规模语言模型在共时推理任务中的表现。研究表明,尽管模型在简单的共时任务中表现良好,但在处理复杂的共时关系(如重叠、期间和混合场景)时仍存在显著差距。特别是数学推理能力对共时推理至关重要,专门用于数学推理的模型(如WizardMath-70B)表现最佳。通过结合数学推理和链式思维的方法(MR-COT),我们显著提升了模型在复杂共时任务中的表现。这项研究为未来改进大规模语言模型在共时推理中的能力提供了新的方向。