生物样本库BSS小组
摘要:
引言:
欧洲不同机构收集的样本和数据分存于不同的生物样本库中。我们的数据集成框架旨在将来自不同生物样本库的数据整合到一个公共的研究平台,有利于研究人员获得高质量的样本以进行研究。所得信息必须由本地收集并分发到可搜索的、较高级别的信息生物样本库目录中,最大限度地提高国家和欧洲层面的知名度。因此,必须清楚地描述和明确地标识各生物样本库及样本收集事宜。本文描述的是如何使用异构数据模式和不同技术环境,应对各生物样本库之间整合相关数据的挑战。
方法:
为了在各生物样本库目录之间建立数据交换平台,我们提出以下步骤:
(A)确定核心实体、术语和语义关系;
(B)统一泛欧洲生物样本库与生物分子资源研究平台(BBMRI)参与者之间的异构数据模式;
(C)制定各目录之间样本库数据交换的技术核心原则。
结果:
(A)我们确定了样本库目录中描述生物样本库的核心元素。由于所有目录数据模型都是部分基于生物样本库信息共享最小数据集(MIABIS)2.0,因此,使用MIABIS 2.0核心模型进行兼容。
(B)与BBMRI.联盟各方共同制定了不同的项目方案。定义了一组强制性和可选性的、用于所有目录级别映射的、最小核心实体集和数据项集。
(C)制定了主要的核心数据交换原则,所有生物样本库目录都实施了数据接口。
讨论:
我们商定了一套基于MIABIS 2.0为核心的统一的生物样本库属性,建立了用于整合不同层级生物样本库目录的数据交换核心原则。本文提出的通用方法和数据交换核心原则也可以应用于相关工作中,例如单个样本以及患者水平的生物样本库数据的整合和统一。
关键词:BBMRI,生物样本库目录,数据整合,EDI接口,MIABIS,REST风格
前言
为了开展(生物)医学研究,研究人员需要收集一定数量的样本和数据,这一具有挑战性的过程,通常需要跨机构合作,特别是患者数量和样本有限的罕见疾病。因此,关键的问题就是从哪里获得适当的样本来进行项目研究。遗憾的是,研究人员经常不知道本机构或本部门之外的合适样本——通过建立国家或国际级可搜索的生物样本库目录以统一和整合样本资源可以解决这个问题。
生物样本库目录总结了集合元数据信息,可以让使用者首先了解到欧洲各国不同医疗机构收集和提供的样本种类及数据(样本相关数据或捐赠者信息包括病史和治疗记录、代谢组学、蛋白质组学、基因组学数据以及以调查问卷形式收集的生活方式数据)。医院维护的地方生物样本库目录可使研究人员查询自己所属部门以外的样本收集情况。
将现有生物样本库纳入欧洲公共研究平台是泛欧洲生物样本库与生物分子资源研究平台(BBMRI)项目的一项重要举措。过去两年来,在不同区域层面已经建立了几个独立的生物样本资源检索目录,如因斯布鲁克医科大学(MUI)的生物样本库登记册(http://biobankregister.i-med.ac.at)和奥地利(http://catalog.bbmri.at)和欧洲生物样本库目录(http://bbmri-eric.eu/bbmrieric-directory-2.0)。
BBMRI欧洲研究机构联盟(BBMRI-ERIC)的一个重要任务是统筹可用的生物样本数据,将当地信息分发至整个欧洲。图1显示的方案是:MUI的样本收集所有者将收集数据反馈到茵斯布鲁克生物样本库的当地目录,茵斯布鲁克生物样本库通过定义的电子数据交换(EDI)接口自动汇总并分发到更高区域级别的目录中。此外,每个目录必须提供一个可搜索的门户网站,研究人员和感兴趣者可以搜索感兴趣的样本和联系人,例如,搜索需要多少份某种材料类型的某诊断样本。
图1. 地方、国家和欧洲三种生物样本库目录的数据整合方案
生物样本库目录是各地样本库不断共同努力开发的,是在逐步改版中发展起来的。前期迭代开发或研究进展中收集到的数据出现新的特征和问题时,经常要求添加、更改和完成,从而导致多种异构数据模式和技术实施。为了在这种异构环境之间交换数据,我们必须识别和解决几个数据互操作问题。
模式整合与统一
从不同的数据模式中统一和整合生物样本库数据时,会出现语义和结构异质性。模式异质性包括多个数据模式中彼此独立开发的核心概念、命名差异或语义对等实体之间的不兼容结构。
尽管欧洲科研界试图统一,但在生物样本库、样本收集、子收集、样本和等分试样的确切解释、汇总和关系上仍然存在歧义,这些往往取决于国家法律或其他监管框架和具体使用案例。
在比较各种数据库和由此产生的问题时,我们遇到如下问题:
(1)生物样本库的收集和子收集之间的区别究竟是什么?
(2)一个特定的样本可以是多个收集或子收集的一部分吗?
(3)某种诊断在某个收集中可以通过自由文本描述,在另一个收集中可用编码标准如国际疾病分类(ICD)第10版或医学临床术语(SNOMED-CT)系统化命名法来描述,;
(4)身体部位在某个收集中明确指出了,在另一收集中又存在于ICD-10诊断代码中;
(5)不同的研究类型需要不同类型的生物样本(例如,血液,、血清、血浆、组织、尿和分离的提取的分子,例如DNA、RNA或蛋白质),通常其描述方式不同,数据库结构化方式亦不同。
生物样本库检索目录集成框架中EDI的挑战
分布式和互异式(生物)医学数据EDI共享系统的建立会导致不同伦理、法律与技术上的挑战和需求,开发者和研究人员在相关生物信息学项目及文献中就此已经进行了讨论处理。但该领域中,仍有几个必须解决的难题,例如:
(1)异构技术环境下,以何种数据格式和传输协议交换和同步数据?
(2)在所有同步检索目录中如何唯一标识某个特定生物样本库或样本?
(3)谁来负责更新,怎样传播更新,如何避免干扰更新?
(4)怎样处理安全、隐私和授权问题?
(5)如果合作伙伴的架构和接口随时间变化时,怎样保证互操作性?
针对上述挑战,我们提出并实现了数据集成框架,在机构、国家和国际层面,促进了同步生物样本资源检索目录间集合生物样本库信息交换。
结果:
确定核心实体、术语和语义关系
我们考虑了三个目录数据模型,包含有不同区域层面生物样本库和样本收集的信息:(1)BBMRI-ERIC版本2,(2)BBMRI.at版本1和(3)MUIBiobank目录版本1(表1)。欧洲生物样本库目录提供了关于国家BBMRI节点的概述,含生物样本库和样本收集元数据级别属性,包括ID、生物样本库类型、文本描述、材料类型以及诊断、联系方式、数据访问原则和大概的样本数量或可用数据类别。BBMRI-ERIC目录中的信息分生物样本库相关的基本信息以及含有与样本收集相关的集合信息列表。BBMRI.at目录包含四个BBMRI.at相关生物样本库及其部分样本收集数据:格拉茨生物样本库、因斯布鲁克生物样本库、维也纳医科大学生物样本库和维也纳兽医生物样本库。BBMRI.at目录中的样本将会根据样本类型、取材部位或疾病类型等某种特性汇总到同一个样本组中。MUI生物样本库目录存储着MUI不同部门不同内部样本的整合汇总数据。和BBMRI.at目录一样,样本将根据取材部位和诊断规范进一步整合到同一个样本组中。
表1,核心字符实体的识别结果,例如用于代表因斯布鲁克医科大学生物样本库目录(摘录)的生物样本存储库的数据项的数据类型和语义
同一集合特定材料类型和可选诊断的样本亚组,。如适用,单列显示MIABIS中的核心数据集属性。
ICD,国际疾病分类; MIABIS,关于生物样本库数据共享的最低信息。
BBMRI.at和BBMRI-ERIC的成员加强了与MIABIS的合作。国家和欧洲层面的合作方全都部分使用、扩展或调整了MIABIS核心模式。因此,本文考虑的所有生物资源目录数据模型,至少部分基于MIABIS2.0。BBRMI.at,MUI和BBMRI-ERIC目录中提供部分免费的文本或ICD-10定义,作为对疾病样本的注释。
异构数据模式的整合和统一
我们与提供生物资源的BBMRI.at合作伙伴制定了不同的整合方案。决定采用MIABIS核心实体“生物样本库”,“样本收集”和“样本”作为统一的基础。MIABIS实体“样本”用于描述收集样本中的子组。它们至少有一个共性,例如样本类型或诊断,但没有单独的标识符。在以下目录之间进行映射:(1)MUI生物样本库目录和BBMRI.at目录之间,(2)BBMRI.at和BBMRI-ERIC目录之间。
我们发现,BBMRI.at和MUI生物样本库目录中的收集样本在样本描述、联系信息和可用数据类别(表2)上最不匹配。而BBMRI.at目录中收集子组的整合至少需要样本类型、疾病状态以及样本大概的组数和等份数等样本信息(表3)。鼓励但不强制合作伙伴提供诊断说明或解剖部位等额外信息来描述样本组。用ICD-10和SNOMED-CT来解释BBMRI.at目录中的疾病。合作伙伴可以自由决定使用哪些术语,或者是否允许输入自由文本。鉴于一些地方仍然存在歧义,基于标准化组织(ISO)和欧洲标准化委员会(CEN)的标准(ISO/ TC 276,CEN / TC 140),我们就生物样本库相关的最重要的术语和定义达成了一致,必要时再进行补充。
表2,BBMRI.at:级别样本集合的映射
M/O表示强制和可选(O)属性。如适用,单列显示MIABIS中的核心数据集属性表体中的行是两个目录之间语义对应属性分组。
MUI,因斯布鲁克医科大学
表3,奥地利生物样本库目录,BBMRI.at,和因斯布鲁克医科大学之间的样本集合中材料组的映射
M/O表示强制和可选(O)属性。
如适用,单列显示MIABIS中的核心数据集属性表体中的行是两个目录之间语义对应属性分组。
SNOMED-CT,医学临床术语的系统化命名。
生物样本库数据交换的技术核心原则
技术核心原则一览表:
(i)敏感信息保护:随着数据整合层级的降低,隐私保护的需求也会增加。当生物样本库目录提供个人的样本数据时,必须采用适当的技术来保护个人信息。在评估文献中的现有方法后,我们认为,在保证数据可用性的前提下,应该充分地剔除敏感数据项(姓名、社保号等)的识别性,或者存储并链接到单独的录用表中。所有样本库目录中有关个体样本和捐助者的信息必须只能由授权的研究人员访问,并在撤销知情同意后删除信息。
(ii)生物样本库数据说明:必须由生物样本库负责人处理有关生物样本库和样本信息的收集、分发和获取,并符合捐赠者知情同意书。生物样本库负责人对样本和数据负有法律责任,必须确保仅发布授权正确的信息;在本地生物样本库信息系统或目录中修改或删除任何数据(例如知情同意撤销)都应立即反映在较高级别的样本库目录中。因此,我们倾向于采用推送式数据传输,生物样本负责人有责任将数据推送到下一级别,以实现目录接口的连接。
(iii)责任更新:只有最靠近数据源的节点才有权修改数据。最近的节点是指拥有生物样本库的机构或部门运行的样本库管理系统或目录,例如MUI生物样本库目录。因此,国家和国际层目录可以接收但不能更改数据。
(iv)安全性:上述三个核心原则要求生物样本库的写入访问必须经过身份验证和授权,以防止未经授权的数据操作。为此,根据身份来授权可以确保合作伙伴只能更改属于自己的资源。
(v)避免部分同步:只有完整的样本收集数据组才可以提交给目标系统。
(vi)接口版本控制:数据交换接口必须不受下级目录数据结构变化的影响。为达此目的,建议使用接口版本概念。每次框架更新时新版本和旧版本接口同时使用。如果要申请特定版本的接口,用户可以指定他们希望接收的数据模型版本。
(vii)资源识别/身份匹配:在奥地利和欧洲生物样本库目录中,每个合作机构,生物样本库和样本必须明确标识。
http://catalog.bbmri.at/directory/biobanks/MUIthe Biobank Innsbruck
http://catalog.bbmri.at/directory/biobanks/MUI/collections all BBInnsbruck Collections
http://catalog.bbmri.at/directory/biobanks/MUI/collections/45 BB Innsbruck Collection with id 45
由于注册系统(PHP,Java)中使用了不同的Web框架和技术,因此要通过广泛适用编程语言和平台的插件和软件库来实现REST端点的编码。
接下来我们将描述MUI生物样本库目录,BBMRI.at目录和BBMRI-ERIC目录之间的数据交换方案:
MUI本地数据捕获。目前,数据的添加或更改要在Web的用户界面手动完成。本地样本目录和MUI生物样本库目录之间专用软件的数据交换要在新版本中才能实现。
从MUI发送数据到BBMRI.at。存储在MUI生物样本库目录中的数据定期发送到BBMRI.at目录的REST接口插入或更新(图2)。由HTTPS保证通讯,登录POST和PUT需要验证用户名和密码。由于样本信息的汇总不包含可能泄露个人隐私的数据,目前GET申请BBMRI.at目录中生物样本库和样本信息的权限对所有人开放。统一资源标识符(URI)用于识别、申请和操纵上层目录中的生物样本库和样本,例如BBMRI.at。每个生物样本库或样本都分配有唯一的URI,例如:http://catalog.bbmri.at/directory/biobanks/MUI识别MUI生物样本库以及http://catalog.bbmri.at/directory/biobanks/MUI/collections/75识别因斯布鲁克样本库的人类基因组序列。
图2,使用表征状态传输协议将新的样本集(POST申请)从MUI生物样本库目录传输到BBMRI.at目录。 MUI,因斯布鲁克医科大学
从BBMRI.at发送数据到BBMRI-ERIC。目前,由LDAP数据交换格式(LDIF)中的轻量级目录访问协议(LDAP)数据记录来处理BBMRI.at目录和BBMRI-ERIC之间的数据交换,其中包含有奥地利生物样本库和样本的整合信息。通过文件传输将LDAP数据记录发送并插入(若已存在则覆盖)到ERIC目录中。最近,BBMRI-ERIC基于MOLGENIS目录发布了其界面版本V2.5,该目录采用了基于REST的方法来发送接收有关生物样本库和样本的数据,同时还应用了相应的BBMRI.at连接器。
讨论
我们创建了一套生物样本库的核心属性,并制定了生物样本库目录在国际或国家范围共享汇总数据时的基本数据交换原则。促使生物样本库管理人员和研究人员搜集到国际或国家生物样本库目录中的多个机构的合适样本。因此,通过分析奥地利各种生物样本库的架构和目录数据模型,我们获得了主要的核心实体、术语和语义关系。一致通过了由BBMRI.at各联盟样本库(如MUI生物库目录)可提供的标准术语和必需的核心数据。由于所有数据模型都是以MIABIS为基础,所以选择了与其对应的核心数据模型。然而,MIABIS不直接提供任何个人或单个样本的信息,这些需深入查询获取。新版本中很有可能就包括单个样本和参与者的信息项。
核心原则的制定是本地生物样本库和国际或国家样本库目录之间EDI的基础。国家BBMRI.at目录使用URI作为每个样本库或样本的唯一标识符,从而在随后的接口中重新识别样本库或样本。我们提议只有生物样本库和样本收集机构或部门可以在其当地样本库目录或信息系统中添加,修改或分发数据,这种方式具有以下优点:首先,不需要同步机制来解决不同级别更新导致的冲突。其次,如果在任何级别都可以修改数据,必然引起混乱,就必须实施冲突消除机制。应用合适的身份验证和授权机制,可以确保合作伙伴只能更改属于自己的资源。我们一致同意使用原子实体进行数据交换,即整个生物样本库或样本数据集作为一个整体。该策略极大地简化了目录的架构和传输协议,因为我们不必处理部分更新,也不必使用版本控制机制来跟踪生物样本资源的变化。接口版本控制允许数据模型更改版本。但是,接口负责人必须确保发送到较旧接口版本的数据正确匹配到新版本。由于多数技术框架和编程语言都支持REST,并且REST是BBMRI-ERIC中最常用的,因此,我们决定使用它。有几个常用的生物样本库信息系统提供基于REST的Web服务。此外,健康信息交换第7层协议(HL7)(健康保健信息互操作性和标准的全球性权威机构)也建议在其快速医疗互操作性资源(FHIR)标准中使用REST,一个统一电子健康档案(EHR)的新一代标准框架。HL7 FHIR定义了一组字段(例如“病人”、“样本”或“身体部位”),作为电子健康信息交换的机器可读数据元素。以后,因临床统一电子健康和各样本库目录框架都依赖于相同或类似的技术标准和核心数据项,FHIR提供的REST接口和资源将会促进临床和样本数据从医疗信息系统发送映射到MIABIS的本地或国家和欧洲层面生物样本库目录。
从我们的技术原则可以看出,开发、运行和维护平台耗资极大。长远来看,这些任务应由指定的IT技术员和生物样本库管理员来执行,负责长期服务和二次开发。虽然在BBMRI中,这些任务仍由BBMRI.at研究人员完成,但BBMRI-ERIC已经建立了实施和维护内外部核心服务的公共服务IT。
目前BBMRI-ERIC推动数据架构和接口版本的更新,然后以自上而下的方式分发给国家节点和地方生物样本库。字段是“可选”、“推荐”或“必需”。因此,每个新的版本都是为了提高所描述的生物样本库、收集及样本的数据级别和质量。例如,像“诊断”这样的字段,由于在目录搜索查询中经常用到,很有可能在新版本中就由“推荐”升级到了“必需”。
目前,MUI或本地生物样本库目录大多都是手动输入数据。由于目前只是定期手动升级样本收集和分组信息,因此本地的样本分组改变(例如生物样本库的某特殊样本组的数量)通常不能立即反映在较高级别的目录中。以后MUI生物样本库目录的手动更新将由医院生物样本库信息系统的自动数据汇总来代替。现在正在进行的工作仍是收集奥地利国家或欧洲级生物样本库目录的信息。
随着国家或欧洲级样本库目录里可供查寻并可用于各项研究目的的样本数量的增加,本文的数据集成框架在医学项目研究获取合适样本方面的实用性就变得更加明显了。未来我们的主要问题是提高研究人员对现有目录的重视,并鼓励生物样本库负责人共享资源。
本文提出的协调方法和数据交换核心原则可应用于其他领域,如单个样本和患者水平的生物样本库数据的整合和统一。
译者按:生物样本库是生物医药行业发展的基石,然而国内样本库使用率普遍偏低,如何使样本“走出去”成为我国样本库发展的重大挑战。“样本库联盟”及建立样本数据共享平台是解决这一问题的重要途径之一。本研究将为我国区域样本库联盟、国家/国际样本库联盟的样本共享与整合提供战略思路,并为数据共享提供方法参考。
作者:Hofer-Picout P et al.【Medical University of Innsbruck , Austria】
编译:吴曼丽【武汉大学中南医院】
校审:任虹【华中科技大学同济医学院附属协和医院】
原文:【17049】
Conception and Implementation of an Austrian Biobank Directory Integration Framework.
Biopreserv Biobank.2017 Aug;15(4):332-340. doi: 10.1089/bio.2016.0113. Epub 2017 Apr 5.
https://www.ncbi.nlm.nih.gov/pubmed/28380303
领取专属 10元无门槛券
私享最新 技术干货