文章链接:https://www.nature.com/articles/s41467-024-48005-w
本研究首先使用GPT-3.5的标准提示策略,对果蝇睡眠、运动和社交活动调控的遗传基础进行全基因组解析,发现分别有12.5%、13.8%和10.2%的果蝇蛋白同工型与这些行为调控相关。开发了一种多目标视频追踪仪器,实时监测多只果蝇的行为,并通过全基因组RNA干扰筛查,识别出分别与睡眠、运动和社交活动相关的285、310和359个基因。使用链式思维提示策略构建了86个候选基因的信号网络,验证了MRE11可能通过调节多巴胺受体Dop1R1和组氨酸脱羧酶(Hdc)影响这些行为。结合LLM的计算解析与基因筛查,系统分析了调控这些行为的分子机制,并展望了这种人机互动的方法在研究复杂科学问题中的应用前景。
作者团队发现,敲除285个基因会导致睡眠时间缩短,其睡眠时长比群体平均值低2个标准差(SD),其中包括20个已知调控睡眠的基因。基于基因本体(GO)的富集分析显示,这些基因富集在转录调控(如GO:0045892、GO:0006357、GO:0045944)和染色质重塑(如GO:0006325、GO:0031507)等生物过程中。另一方面,沉默310个基因显著增加了运动活动量50%,其中包括29个已知调控运动活动的基因。这些基因富集在转录调控(如GO:0006357、GO:0000122、GO:0045944)、运动节律(如GO:0045475)、核仁组织(如GO:0007000)和成虫行走行为(如GO:0007628)等过程中。敲除359个基因使社交互动时间减少至少50%,其中4个是已知基因。
这些基因富集在反应性氧(如GO:0072593、GO:0006979)、交配行为(如GO:0007617)和有丝分裂细胞周期(如GO:0000278)等通路中。有趣的是,Li等人发现慢性社交隔离会诱导大脑处于饥饿信号状态,我们也观察到与细胞饥饿反应相关基因的富集(如GO:0009267)。在正向结果中,有52个基因参与调控睡眠和社交活动,58个基因调控运动和社交活动,30个基因则同时调控这三种行为。识别这些基因可能为揭示睡眠和运动活动如何与社交活动相互作用提供了起点。
进一步表征了筛选中的一个重要基因——减数分裂重组11(mre11),该基因已知参与DNA损伤修复和端粒保护,但尚未有研究报告其参与睡眠调控。使用两条独立的RNAi线敲降mre11均导致群体中睡眠时间显著减少,但在单个个体条件下没有这种现象。对睡眠结构的详细分析表明,睡眠段持续时间和睡眠段次数均显著减少,伴随关灯后入睡潜伏期延长。这些结果表明缺乏mre11会损害睡眠维持和启动。有趣的是,mre11 RNAi果蝇表现出对睡眠剥夺的增强抵抗力,暗示其睡眠压力增加。他们探索了在群体条件下引起睡眠减少所需的最少个体数,发现两个个体就足够了。显然,这种睡眠减少并不是由于社交互动增加引起的,因为mre11 RNAi果蝇的社交互动时间和社交互动次数均减少。
为了进一步挖掘筛选结果中与睡眠、运动和社交行为相关的分子联系,作者构建了一个包含86个基因的信号网络。这些基因包括19个被GPT-3.5解释为参与调控睡眠、运动和/或社交活动的已知基因,以及另外67个具有至少两条独立RNAi线表现出相似表型或在表现最显著的候选基因之列的基因。根据GPT-3.5提供的基因功能,这些基因被分类为七个类别。有趣的是,属于钙和细胞内信号通路的基因仅参与睡眠和/或社交行为的调控,而涉及神经传递和突触功能的基因几乎仅参与睡眠和运动活动的调控。其他五个类别的基因则参与所有三种行为的调控。
LLM推理结果表明,mre11可能调控多巴胺受体DopEcR、Dop1R1和组氨酸脱羧酶(Hdc),而NELF-B可能调控神经纤维瘤1型(Nf1)和RNA聚合酶II延伸因子TfIIS。这五种潜在的调控关系均未被BioGRID蛋白质相互作用(PPI)数据覆盖。为了验证这些预测,作者团队首先测量了mre11和NELF-B RNAi果蝇中这些基因的mRNA水平,发现Hdc显著降低。进一步地,用靶向Dop1R1和DopEcR的药物处理mre11果蝇。作者发现Dop1R1拮抗剂SCH23390可以恢复mre11 RNAi果蝇中减少的睡眠段数,并部分恢复延长的入睡潜伏期(对其中一条RNAi线有效)。SCH23390还恢复了由于mre11缺失引起的运动活动增加,并部分恢复了社交互动减少。作者进一步比较了SCH23390对每种基因型的影响。结果显示,SCH23390显著缩短了mre11 RNAi果蝇的入睡潜伏期,但对对照组无效。这些发现表明,MRE11可能通过以未知方式调节Dop1R1和Hdc影响睡眠、运动和社交活动。
先前的研究表明,提示工程是一种有效的策略,可以引出用于完成各种任务 16,17 的文本LLMs内容。在这项研究中,使用标准提示策略对睡眠、运动和社会活动进行全基因组解释,我们以果蝇蛋白 Dop1R1 的提示为例(图 5a、b)。在这个提示中,我们询问了Dop1R1的功能,然后询问了这种蛋白质是否参与调节睡眠。在 GPT-3.5 产生的反应中,Dop1R1 被描述为参与睡眠调节,Dop1R1 的激活增强了果蝇的活动并减少了睡眠,这与已发表的文献 46 一致。此外,利用CoT提示策略揭示了所构建的信号网成员之间的功能调节或关联(图5a)。介绍了 mre11 和 Dop1R1 的基本描述,并询问了这两个基因之间的潜在关系及其详细的LLM推理 CoT(图 5c)。从答案中可以看出,GPT 3.5 推断 mre11 通过多巴胺能信号通路调节 Dop1R1。我们进一步验证了这一点(至少部分),证明 Dop1R1 拮抗剂SCH23390部分挽救了 mre11 RNAi 果蝇的睡眠、运动和社会活动表型。综上所述,研究结果证明了快速工程在科学研究中有效利用LLMs的成功应用。
LLM 的过程和示例