前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nature子刊 | ChineseEEG: 一个基于中文语料刺激的高通道EEG数据集

Nature子刊 | ChineseEEG: 一个基于中文语料刺激的高通道EEG数据集

作者头像
脑机接口社区
发布2024-06-21 08:38:20
3350
发布2024-06-21 08:38:20
举报
文章被收录于专栏:脑机接口
脑科学与语言学的交叉研究在近年来取得了显著进展,特别是脑电图(EEG)在语言处理领域的应用。EEG具有高时间分辨率,能够捕捉大脑在处理语言时的快速动态变化,成为研究语言认知过程的重要工具。然而,目前大多数EEG数据集基于英语语料,针对其他语言的研究,尤其是中文,仍然相对较少。不同语言在结构、语义和文化背景上存在显著差异,大脑对这些语言的处理机制也可能不同。因此,开发基于中文语料的EEG数据集对于探索跨语言的大脑语言处理机制、揭示不同语言的神经表征差异具有重要的科学意义和应用价值。

研究人员意识到,目前主流的语言处理研究和认知神经科学研究多集中在英语等西方语言上,但全球有数亿人使用其他语言,特别是中文。中文具有独特的语法结构、丰富的字符系统和复杂的语义网络,这使得它在认知处理上可能有着不同于英语的特点。因此,深入研究中文语言的神经机制不仅有助于全面理解人类语言处理的普遍规律,还能为跨文化、跨语言的认知科学研究提供重要的理论依据和数据支持。

实验方法

实验材料

本研究选择了两部中文小说:《小王子》(《the Little Prince》)和《狼王梦》(《Garnett Dream》)作为实验材料。选择这些文学作品的原因在于它们的内容丰富多样,涵盖了大量常用的中文字符和表达方式,并且这些儿童文学作品能更好地吸引参与者的注意力,保持他们的专注和情绪投入。《小王子》作为实验的练习材料,《狼王梦》则作为正式实验的阅读材料。为了在实验过程中在屏幕上正确呈现文本,每次运行的内容被分割成一系列单元,每个单元包含不超过10个汉字。这些分段后的内容以Excel (.xlsx)格式保存,供后续使用。在实验过程中,每次运行内容的三个相邻单元将在屏幕上以三个单独的行显示,中间的行突出显示供参与者阅读。相关代码已经上传到GitHub存储库。

参与者

正式实验总共使用了10名母语为中文的健康成年人的数据(5男5女,年龄在20-30岁之间),他们均无神经系统疾病史,视力正常或矫正正常。参与者在实验开始前被告知实验的目的和过程,并签署了知情同意书。实验过程中,参与者需要按照实验设计完成阅读任务,并尽可能保持注意力集中。

实验设置

图1实验概述和数据集中包含的模式:(a)实验中使用的设备:包括用于收集脑电图数据的EGI装置和用于跟踪眼球运动的Tobii Pro Glasses 3眼动仪。(b)实验设置:参与者被要求安静地坐在距离屏幕约67厘米的地方,依次阅读高亮显示的文字。(c)实验方案:研究人员记录了参与者在阅读高亮文字时的128通道脑电图信号和眼动追踪数据。(d)数据集中的数据模式:该数据集包括原始数据,如原始文本刺激、眼动数据、脑电图数据,以及衍生数据,如来自预训练的NLP模型和预处理的脑电图数据的文本嵌入。

实验在安静、光线适宜的实验室环境中进行。参与者坐在可调节的椅子上,眼睛距离显示器约67厘米。实验任务要求他们阅读屏幕上逐行显示的小说文本,同时保持头部静止,目光跟随屏幕上移动的红色高亮字符,阅读速度由程序设定。为了确保参与者的注意力集中在文本上,实验过程中使用了眼动追踪技术进行验证。

实验分为两个阶段:眼动校准阶段和阅读阶段。眼动校准阶段用于确保眼动追踪设备的准确性,参与者需要注视屏幕上不同位置出现的点,以校准眼动数据。阅读阶段中,参与者按照高亮字符的移动逐行阅读小说文本。每个实验运行分为8天完成,每天的阅读时长约为1.5小时,以避免疲劳。

需要说明的是,在最初参与实验期间,参与者被要求完成一个练习阅读阶段。选择《小王子》 的序言章节作为这一阶段的阅读材料。所有设置保持与正式阅读阶段相同,以使参与者熟悉眼动仪校准过程和阅读任务。研究者们使用PsychoPy v2023.2.3 36管理刺激的呈现,然后使用EGI PyNetstation v1.0.1模块促进PsychoPy和 EGI Netstation之间的连接。他们还使用g3pylib包来控制他们的眼动仪,以跟踪参与者的眼动轨迹。

表2 EGG触发器

数据收集和分析

数据采集

本研究的数据集包括原始数据和衍生数据两种模态,具体如图1d所示。原始数据包含原始EEG数据、眼动追踪数据和原始文本材料。衍生数据包括预处理后的EEG数据和由预训练的NLP模型BERT-base-chinese生成的文本嵌入。

EEG数据采集

EEG数据通过使用基于GSN-HydroCel-128蒙太奇和测地线传感器网系统的EGI 128通道帽获取(见图1a)。EGI -pynetstation v1.0.1包用于控制EGI系统。实验前,研究人员用软尺为每个参与者定位Cz电极的位置,确保电极对齐。在记录过程中,采样率为1 kHz,各电极的阻抗保持在50 kΩ以下。原始EEG数据导出为macOS系统上的元文件格式(.mff)文件。

眼动追踪数据采集

眼动追踪数据使用Tobii Pro Glass 3获取,该设备具有16个照明灯和4个集成到防刮镜片中的眼部摄像头,以及一个广角场景摄像头,可以全面捕捉参与者的行为和环境背景(见图1a)。Tobii Pro Glass 3的最大采样率为100 Hz,足以捕捉参与者的眼球运动轨迹。原始数据导出为.rar文件。

数据预处理

图2 EEG预处理流程:a) 数据分割:根据标记对数据进行分割,只保留正式读取阶段的数据。(b) 带通滤波:提供两个版本的滤波数据,带通范围分别为 0.5-30 Hz 和 0.5-80 Hz。(c) 坏道插值:他们的坏道检测包括使用 pyprep 软件包实现的自动检测和人工检查。插值时,使用 MNE 中的球面样条插值。(d) ICA 去噪:在这部分中,利用 mne-iclabel 软件包中的自动标记方法,然后进行人工检查,以去除眼球运动和心跳等有噪声的独立成分。(e) 数据集组织:他们的数据集采用 BIDS41,42 格式组织。详细的文件结构如图 3 所示。

为了保留数据中的有效信息,EEG数据进行了最小程度的预处理。在数据分割阶段,仅保留实验正式阅读阶段的数据。删除与正式实验不相关的部分,并在正式读取阶段开始之前额外保留10秒的数据。信号被下采样到256 Hz,以减少数据处理和存储负担,同时有效捕获与语言理解相关的信息。

随后,应用50 Hz陷波滤波器去除电力线噪声,并使用带通叠加FIR滤波器消除低频直流分量和高频噪声。提供了两个版本的滤波数据:一个具有0.5-80 Hz的滤波器频带,另一个具有0.5-30 Hz的滤波器频带。过滤后,对不良通道进行了插值,使用pyprep v0.4.3自动选择不良通道,手动检查避免误标记。

接着,利用MNE软件包中的infomax算法进行独立成分分析(ICA),将独立组件的数量设置为20个,确保包含大部分信息,并设置ICA算法的随机种子为97,确保结果可重复性。采用自动方法检测和标记成分,并通过手动检查排除明显的噪声组件,最后使用平均法对数据进行重新引用。

在ICA步骤中,手动识别不良通道和排除独立组件的过程通过图形用户界面(GUI)中的注释完成,使注释过程更快、更人性化。

数据收集

本研究的数据集可通过科学数据库(ScienceDB)平台和Openneuro平台公开访问,分别对应的DOI为10.57760/sciencedb.CHNNeuro.00007和10.18112/openneuro.ds004952.v1.2.0。数据集发布在知识共享署名4.0国际公共许可协议中。

数据集按照EEG-BIDS规范进行组织,这是对EEG脑成像数据结构的扩展。数据集的目录树概览如图3所示,包含一些常规的BIDS文件、10个参与者的数据文件夹和一个衍生品文件夹。

数据集概述文件:dataset_description.json: 描述数据集的信息,如名称、数据集类型和作者。participants.tsv: 包含参与者的信息,如年龄、性别、利手性等。participants.json: 描述participants.tsv中的列属性。README.md: 包含数据集的详细介绍。

参与者文件夹:每个参与者的文件夹包含两个子文件夹,分别为ses-LittlePrince和ses-GarnettDream,存储该参与者阅读两本小说的数据。这两个子文件夹分别包含一个eeg文件夹和一个sub-xx_scans.tsv文件。eeg文件夹包含多个运行、通道和标记事件文件的原始EEG数据,每次运行都包含一个eeg.json文件,详细说明了该运行的信息如采样率和通道数,事件数据存储在带有开始时间和事件ID的事件.tsv文件中。EEG数据由原始.mff文件格式转换为大脑视觉格式(.vhdr, .vmrk, .eeg文件),因为EEG-BIDS规范与.mff格式不正式兼容。使用Python中的mne-bids v0.14包将所有数据格式化为EEG-BIDS。

衍生文件夹:衍生文件夹包含六个子文件夹:eyetracking_data: 包含所有的眼动追踪数据,每个数据格式化为.rar文件,眼动轨迹和采样率等参数保存在不同的文件中。filtered_0.5_80和filtered_0.5_30: 分别包含处理到0.5-80 Hz和0.5-30 Hz带通滤波预处理步骤的数据,适用于需要在后续预处理步骤上进行定制处理的研究人员。preproc: 包含使用整个预处理管道处理的最小预处理EEG数据,相比原始数据文件夹,多了四种文件类型:bad_channels.json, ica_components.npy, ica_components.json和ica_components_topography.png。novel: 包含原始和分割的文本刺激材料,原始小说以.txt格式保存,分段小说以.xlsx文件保存。text_embeddings: 包含两部小说的嵌入,每次实验运行对应的嵌入存储在NumPy (.npy)文件中。

图3数据集的文件结构:(a) 眼动跟踪数据:每个实验运行都与包含眼动跟踪数据的 .rar 文件相关联。(b) 电极信息文件:这些文件包括电极的详细信息,如位置、类型和采样率,以及在预处理过程中标记为不良的任何通道的信息。(c) 脑电图数据和事件相关文件:包括 BrainVision 格式的脑电图数据和记录标记信息的事件文件。(d) ICA 相关文件:包含 numpy 格式的独立分量、预处理过程中删除分量的记录以及分量的地形图。(e) 文本材料:包含原始文本和分段文本。(f) 文本嵌入文件:每个文件对应一个实验运行,以 .npy 格式存储。(g) 原始脑电图数据。

技术验证

经典的传感器级EEG分析

本研究中的EEG数据可以用于经典的时频分析。本节从预处理后的EEG数据中提取不同频段的神经振荡,具体分析了0.5-80 Hz滤波后的sub-07数据,对应《小王子》中“给我画一只羊”这句话。分析集中在C3电极位置,这是与语言处理相关的区域。

为了剖析C3电极信号中的频率成分,应用了快速傅里叶变换(FFT)算法,将时域信号转换到频域。他们定义了感兴趣的频段:theta (4-8 Hz), alpha (8-12 Hz), beta (12-30 Hz)和gamma (30-100 Hz),并对每个频段的振荡进行量化分析,结果如图4所示。

图4 EEG时程和不同频段(即 Theta、Alpha、Beta 和 Gamma)下的神经振荡与中文句子 "给我画只羊 "相对应。在分析中,他们使用了由ses-LittlePrince of sub-07提供的0.5-80 Hz带通滤波器预处理的EEG数据。他们展示了来自电极 C3 的脑电信号,该电极位于颞叶上方的语言处理相关区域。

EEG源重构

除了传感器级分析,EEG数据还允许进行源定位分析。本研究使用MNE包进行源级分析,选取了三个数据片段进行演示。利用MNE包中的faverage MRI模板完成表面重建,建立了三层边界元法(BEM)模型,源空间由每个半球10242个源组成。使用动态统计参数映射(dSPM)计算反解,源活动的可视化结果如图5b所示,展示了左右半球的激活区域和时间变化(图5c)。

图5脑电源定位分析:(a)脑电传感器水平数据:选取经0.5 ~ 80 hz带通滤波预处理的脑电数据的树段进行分析,并伴有脑电段上方所示的相应文本段。(b)源分析后的脑激活可视化:采用Te dSPM方法求解反问题。左半球和右半球的结果分别给出。选择左脑和右脑区域的峰值激活时间进行可视化。(c)随时间变化的来源活动图:每个图包含该区域内活动最强的12个来源的活动

文本嵌入与预训练的语言模型

为了探索EEG与文本表示之间的一致性,本研究提供了使用预训练语言模型BERT-base-Chinese计算的两部小说的嵌入。BERT-base-Chinese模型在中文语料库上进行了预训练,将每个汉字视为一个标记进行嵌入。实验中,每行文本的嵌入大小标准化为(1,768),处理过程使用了Hugging Face Transformers v4.36.2包实现。

EEG、文本序列与眼动追踪数据的时间一致性

为了实现语义解码,有必要在时域中将特定文本与其对应的EEG段对齐。在数据标记过程中,对每行刺激的开始和结束进行标注,使文本与相应的EEG数据片段对齐。他们提供了将EEG片段与文本及其嵌入对齐的脚本。

记录的眼动追踪数据可以与EEG数据结合,以验证参与者是否专注于文本。眼动追踪数据捕捉了参与者的注视点和场景,标记“EYES”和“EYEE”用于对齐眼动追踪数据与EEG记录。一旦对齐,提取的眼动追踪数据片段可以检查眼球注视位置是否与预期位置一致,从而反映EEG数据的质量。

结论展望

Chinese EEG数据集的构建为研究跨语言的脑神经语言处理机制提供了宝贵资源。通过分析这一数据集,研究人员可以深入探索中文语言在大脑中的处理过程,揭示不同语言的神经表征差异。未来的研究可以进一步优化 EEG数据的处理和分析方法,提高文本解码的准确性和效率。

此外,利用这一数据集,研究人员还可以探索不同语言模型的表现,比较它们与大脑语言处理机制的对齐程度。这将有助于开发更加智能和高效的自然语言处理系统,推动人工智能与脑科学的深度融合。

具体而言,未来的研究可以从以下几个方面展开:

跨语言比较研究:利用Chinese EEG数据集,与基于其他语言的EEG数据集进行比较研究,揭示不同语言在大脑处理机制上的异同。这不仅有助于理解语言处理的普遍规律,还能为语言教学和跨文化交流提供科学依据。

高级语言处理任务:探索EEG数据在高级语言处理任务中的应用,如语义理解、语法分析和情感识别。通过结合NLP模型和EEG数据,研究人员可以开发更加智能的语言处理系统,实现更自然的人机交互。

个体差异研究:分析不同个体在语言处理过程中的神经活动差异,揭示个体语言能力、认知风格和神经基础之间的关系。这有助于个性化教育和认知训练方法的开发,提升教育和康复效果。

脑机接口应用:基于EEG数据的语言解码技术在脑机接口领域具有广阔的应用前景。未来的研究可以进一步优化解码算法,提升解码准确性和实时性,实现从大脑信号到自然语言的直接转换,为残障人士提供新的交流方式。

综上所述,本研究通过构建一个高质量的中文EEG数据集,为语言神经科学研究提供了新的工具和方法,推动了跨语言脑科学研究的进展。希望这一数据集能够在更多的研究中得到应用,为揭示人类语言处理的神经基础和开发新型脑机接口技术贡献力量。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档