公告:庆祝本月募随科研平台与中山大学附属肿瘤医院签约

行业新闻

临床试验系统你不知道的技术语

作者:募随临床试验 发布时间:2021-08-20 18:28:09 点击:

摘要:临床试验是医学研究及其药物研发的重要内容之一。但是,由于临床试验数据的异构性与复杂性,其处理过程需要大量的人工干预,导致了管理与服务上的低效率。我们提出了一个基于语义技术的临床试验系统,称为SemanticCT系统,并在LarKC海量语义数据处理平台上实现了该系统。本文介绍如何采用SemanticCT系统实现临床试验的语义数据整合及其提供相应的知识管理与服务。

关键词:语义技术;临床试验;知识管理;

引言

临床试验(Clinical Trial)是医学研究及其药物研发的重要内容之一。临床试验的主要目标是对特定的药物或者特定的治疗方法进行疗效数据进行收集和分析。因此,临床试验过程涉及到大量的数据分析与复杂的知识处理。由于临床试验数据的异构性与复杂性,其处理过程需要大量的人工干预,从而导致了临床试验的研究与管理上的低效率。

引入语义技术来实现知识处理,能够显著地提高临床试验的管理效率与研究效率[3]。为此,我们实现了基于语义技术的临床试验系统,被称为SemanticCT (A Semantically-enabled System for Clinical Trials)系统。SemanticCT系统采用语义技术来实现临床试验数据的互操作,通过引入知识描述的方式来提供知识管理与推理支持,实现了临床试验过程的一系列自动化或半自动化的知识服务。

1 问题分析

如上所述,临床试验主要涉及到收集特定药物或者特定的治疗方法的安全性及其可能不良反应不良影响的有关信息,并对之进行分析。临床试验遵循着安全优先的法则,根据产品的类型和发展阶段,从健康志愿人员以及病人中从小规模的试点研究,一直进行到较大规模的研究。所以,临床试验的一个重要环节就是招募合适的患者进行对应的试验。

所要招募的对象的选择条件(或称为合格性标准,eligibility criteria)通常以自然语言的形式描述。这些选择条件通常被区分成入选标准(inclusion criteria)和排除标准(exclusion criteria)。前者指的是入选者所必需具备的条件,后者指的是入选者所不能具备的条件。确定一个患者是否满足临床试验的选择条件,就是通过对比该患者的电子病历等相关数据来进行的。入选者必须满足所有的入选标准而且不能具备任何一条排除标准。由于临床试验系统中的大量数据都是用自然语言的形式来描述的,而且临床试验数据与电子病历数据之间无法实现数据互操作。所以,这种招募过程(PatientRecruitment)都是通过人工介入的办法进行的,带来了临床试验管理过程的低效率。

此外,某些特定的患者可能需要从一系列相关的临床试验中选择最适合自己需要的临床试验,这种服务被称为试验寻找(Trial Finding)过程。这个过程实际上涉及到对临床试验的数据进行精准的信息检索,同样涉及到复杂的知识判定。引入语义技术为临床试验的这些知识服务提供了基本的解决方案[2]。

2 语义数据整合

我们采用国际标准化的语义描述语言(即RDF/OWL)来实现下列一系列临床试验数据的语义整合:

1) 临床试验数据:临床试验的设计者可以在SemanticCT系统中直接输入对应的结构化数据。临床试验的语义数据也可以通过关联开放数据(Linking  Open  Data)云图中所提供的LinkCT(关联临床试验语义数据)中获得。同时,也可以从临床试验网站,如美国临床试验官网(http://www.clinicaltrials.gov/)等其他网络资源上获得其对应的XML数据。采用XSLT我们可以很方便地把这些数据转换成对应的RDF三元组格式(Ntriple)。

2)医学本体与术语库:我们采用国际上通用的医学本体与规范术语库,如采用SNOMEDCT(医学术语系统命名法-临床术语)作为核心概念集来描述临床术语;采用LOINC(逻辑观察标识名与代码集,Logical Observation Identifiers Names and Codes)来描述各种医学检验指标与概念;采用DrugBank来描述与药物相关的知识与概念。

3)临床试验文本数据的语义标注:我们通过BioPortal(bioportal.bioontology.org/)所提供的生物医学文本语义标注服务工具获得临床试验数据中所涉及的各类文本的语义标注。这里所说的语义标注(SemanticAnnotation)指的是把这些自然语言文本标上其所对应的医学本体中的概念,使得它们能够与其他语义数据进行对应的数据互操作。

4)电子病历:我们采用语义化的电子病历来实现病人数据的互操作。对于现有医学信息系统中所使用的非语义化的电子病历,我们可设计其对应的语义化接口,使得我们能够从该系统中获得相应的数据与系统融合。出于对病人数据的隐私保护等因素的考虑,我们采用APDG系统工具(病人数据高级生成工具,Advanced Patient Data Generator,)来生成虚拟的语义病历以作为系统测试与对外演示之用。

3 系统结构

我们采用LarKC海量语义数据处理平台来作SemanticCT系统的基础处理平台。在LarKC平台上,我们可以很方便地载入各种语义数据。LarKC平台提供了各种语义数据处理与推理的基础插件(Plugin)。这些处理插件可以被组合成各种对应的处理工作流(Workflow),形成不同的语义数据SPARQL服务端(SPARQL endpoint)[1]。这些SPARQL服务端提供了针对临床试验各类语义数据的语义查询服务,同时也为临床试验的决策支持与知识管理提供基本的数据服务。

临床试验决策过程除了需要使用SPARQL语义查询来获得基本的数据外,常常涉及到复杂的知识判定,这就需要使用一种面向知识表示的规则语言来描述这些知识。虽然,在语义网领域,已经出台了一些面向语义数据的规则语言,如SWRL和RIF,但这些规则语言的表达能力尚不能满足我们对表达复杂知识的需求。因此,我们在SemanticCT系统中采用了逻辑程序设计语言Prolog作为面向语义系统的规则语言[4]。具体地讲,我们使用了SWI-Prolog作为Prolog的工具来实现面向规则的知识表达。SWI-Prolog提供了系统化的语义技术的支持,可以方便地从SPARQL服务端获得对应的语义数据。同时,SWI-Prolog还提供了较强的数据再处理的能力,如采用其DCG工具进行文本模式匹配处理,采用JSON工具来提供对应的网络界面交互服务。

我们采用SWI-Prolog规则来描述临床试验中的一系列复杂知识。它们被区分成下列不同的知识层次,使得其所建立的知识(即规则库)能够最大程序地可重用,大大提高了知识库维护与使用的效率:

1)试验相关的知识(Trial-specific Knowledge):即临床试验的各种选择条件(入选标准与排除标准)。这些规则知识只针对特定的临床试验。

2)领域相关的知识(Domain-specific Knowledge):即与特定疾病(如乳腺)相关的知识。这主要涉及到特定疾病的具体知识,如乳腺癌的TNM分型等。这些领域相关的知识可以被用到针对该疾病的所有的临床试验之中,以达到知识可重用的目标。如下面的Prolog规则定义了三阴性乳腺癌病人:

triple_negative(PatientData):-

getItem(PatientData, er,ER),

ER = ‘negative‘,

getItem(PatientData, pr,PR),

PR = ‘negative‘,

getItem(PatientData,her2, HER2),

HER2 = ‘negative‘.

3)共同知识(Common Knowledge):即那些独立于特定领域的知识,如那些用于描述时间与事件推理的规则知识,以及如何从SPARQL服务端获得语义数据和文本模式处理与匹配的规则知识。这些共同知识可以被用到不同疾病的临床试验的知识管理与决策分析之中。

4 知识管理与决策服务

我们使用SemanticCT系统建立了一个面向乳腺癌的临床试验的语义系统,作为欧盟第七框架语义技术的医学应用方面的重大项目EURECA的技术产品之一。目前,该系统(v0.50)已经整合了下列规模的临床试验数据:

1)4665个乳腺癌临床试验的数据,其对应的语义三元组达一百二十多万条;

2)SNOMED CT(临床概念术语与定义),其对应的语义三元组有四百多万条;

3)4665个乳腺癌临床试验的选择条件文本的语义标注,其SNOMEDCT所标注的语义三元组达十多万条;

4) 一万个乳腺癌病人的语义电子病历,其对应的语义三元组达一百二十万条。

总的语义数据规模超过六百五十万三元组。该系统可以在普通手提电脑上运行。整个系统设计不仅可供熟悉语义技术的人员使用,也可供不具备语义技术知识的医学研究人员使用。目前,该系统提供了下列临床试验知识服务:

1)临床试验数据的语义查询, 即采用SPARQL进行语义查询;

2)临床试验数据的普通查询,即采用关键词进行查询;

3)临床试验文本的语义标注查询并提供对应的概念浏览,即对语义标注数据集进行查询,并能跳转到其对应的概念,对该概念的相关概念进行浏览;

4)语义电子病历查询

5)临床试验的病人招募服务,即自动识别并判定是否特定的病人满足该试验的选择条件;

6)临床试验寻找服务,即对应特定的病人,寻找其最合适的临床试验。

5 结论

我们系统化地介绍了基于语义技术的临床试验系统SemanticCT。我们采用国际标准化的语义描述语言实现了临床试验系统中的异构数据的语义互操作。在这个基础上,我们运用LarKC海量语义数据处理平台实现了临床试验系统的知识管理与处理。我们使用逻辑程序设计语言Prolog实现了临床试验中所涉及的复杂知识的规则描述。通过这些技术手段,我们实现了面向临床试验需求的一系列知识服务,显著地提高了临床试验的研究效率与管理效率。

推荐资讯