我们是专注于电子病历后结构化研究的人工智能研发团队,微信wxid123765fg
先来说说电子病历的前结构化和后结构化
电子病历的前结构化是一种预设模块的控制,在医生书写电子病案时,提供一套结构化模板,医生可从中选择。后结构化是对医生书写的文本型非结构化数据进行事后处理,利用自然语言处理方法,从中提取结构化信息,并在电子病历模板中进行填充。即,首先要有某种结构化的电子病历规范(或称为模板),先由医生来填写,再由后结构化从医生写的病历中抽取相应的信息来填写
为何构建电子病历医疗记录?
病历结构化是医院信息化和医疗智能化发展的重要环节,是使计算机能像医生一样进行诊断和判断的基础。另外,如果病历能够结构化,就意味着以类似的方式也能完成对各种非结构化数据如病人咨询、医生检查、化验单等的结构化。所以,在智能医学领域,病历结构化被认为是除医学图像识别外的另一个关键技术。
目前医疗记录的结构化主要是基于以下几个方面的原因和要求:
(1)医疗记录数据不标准,或者没有完全整合:全国有超过2.7万家医院使用由几十家主要供应商开发的不同的 HIS系统管理医疗记录。即使这些不同的 HIS系统都以文本形式存储医疗记录,甚至有些已经采用了最新标准的电子医疗记录系统,以结构化形式存储医疗记录,但由于处理大量累积的历史记录、打通不同厂商的医疗记录系统格式、处理因个人隐私而只能提供的纸质医疗记录等诸多方面的原因,仍需要对医疗记录进行结构化,以完成后续的分析和利用。
(2)分析患者资料以供临床试验:全国有四千多个药厂,每年都有大量新药和已上市药物的临床试验,要求在医院收集患者资料以测试药物效果等指标,这就需要大量收集和协调临床资料,如 EDC系统和 CRC系统,而大多数患者资料都记录在 HIS系统,如病历。所以, EDC/CRC系统本质上是以人工整理和检查的方式来组织部分患者数据。而且采用智能化病案结构技术,可以大大降低这一环节的成本。
(3)医生诊断诊断治疗的辅助、管理和培训:以病案结构为基础,可计算出病症、疾病、药物、化验指标等多个知识点之间的推理关系和概率,进一步用于优化医生的工作。举例来说,在构建了知名大医院的病历结构之后,创建辅助诊断系统,输出到基层卫生单位以提高医生的工作能力,根据症状描述和检验结果智能地提出诊断建议;自动分析医生开的药是否合理,或判断是否存在误诊风险;自动填写病历首页等。
整体而言,将病历结构化,提取相关知识点,是智能诊疗等一系列人工智能应用的基础工作。
病案构造是根据病案内容的深层语义理解,提取出相应的知识点,因而一般包括以下几个环节:
(1)建立需要在某一领域提取的知识本体,如心脏病和糖尿病,以及相应的本体涵盖相应的疾病、症状、检查方法、分析结果、药物、治疗方法、手术名称、病因等;
(2)针对每个目标知识点,标注足够的训练语料,或者写出足够的提取规则,开始提取;
(3)利用机器学习方法,根据训练语料和提取规则,建立训练模型,采用自动学习模式,并处理新的医疗记录。
医疗记录结构化技术的研究与开发存在以下几个主要难点:
(1)知识量大:医疗记录的结构需要抽取大量的知识点,如ICD-10编码系统中规定的疾病、治疗方法就有三万多种,与症状、药物、发病机制有关的知识点更多。怎样界定成千上万的知识点,以及如何建立它们之间的关系,是非常复杂的。
精确度要求高:诊疗和药物临床试验通常需要从病历等数据中提取患者信息的精确度超过95%,而机器学习算法,包括深度神经网络,由于标注语料等各方面的原因,无法达到精确度要求(例如,不能对成千上万个知识点每个知识点标注数千个实例)。
(2)较低的召回率:医生在书写病历时,对于相同的事物(如疾病和症状描述),存在大量不同的自然语言表达。所以对于每个知识点,收集并标注足够的语料,让机器能尽可能全面地理解医疗记录中的不同表述,实际上是非常困难的,这就给召回率带来了很大的挑战。
建立病案结构时,知识图谱和深度学习是其最重要的技术支持之一。创建有关疾病领域的知识图谱,定义成千上万个概念以及它们之间的关系。将定义中的每个概念和关系从病历中提取出来,就完成了结构化。知识图谱的定义过程中,可能会出现定义不全、定义不准确的情况,这时可以通过深度学习进行完善,将少量人工定义的知识与大量历史记录相结合,自动发现新知识,完成“小知识+大知识”的过程。
构建病案结构时,首先构建相关领域的医学知识图谱,然后利用包括深度学习在内的多种算法对知识图谱进行优化,实现新知识的自动发现。
转载自原文链接, 如需删除请联系管理员。
原文链接:什么叫电子病历的后结构化?-电子病历系统电子病历模版前沿技术讲解,转载请注明来源!