编 码 和 分 类
贺贤墚
译 沈健凤 包含飞 校
注:本文摘自J.H.van Bemmel和 M.A.Musen 主编的,包含飞教授等翻译的《医学信息学手册》(Handbook of medical
Informatics)一书的第六章前半部分内容。本刊将分期刊登该书部分章节。
--编者
1.
简介
在传统的病历中,数据只使用手写形式,主要是自由文本形式,但有时也用数字数据形式,如化验结果等。病历主要记录患者本人的就医情况,如诊断,治疗和预后。若其他医生根据这种手写的病历来重建病历就会遇到这样的问题:许多医学术语定义不明,甚至模棱两可。
因为许多病人数据越来越多地使用了计算机病历(Computer-based
Patient
Records,CPR)(见第七章),所以将这些数据用于传统的存档和报告以外的目的才逐渐成为可能。
计算机存贮医学数据的理由
应用领域
·病人诊疗护理
·质量控制
--统一报告结果
--与其它单位或中心比较数据
--原始记录管理
--增强调查力
·医学研究,包括流行病学调查
·计划和管理
医学数据编码的优点
·数据简化
·标准化术语
·统计分析和研究
·支持管理和计划
·结合决策支持系统
决策支持系统可根据CPR的数据(见第十五,十六章)帮助医生决定如何采取措施。例如开药物处方可以触发运行决策支持系统,以核查药物配伍禁忌和药物交叉反应的情况。然而,只有病人全部疾病和症状记录使用标准和统一的记录格式,才能使此系统正常运行。但是许多关于健康医疗的资料,如诊断、病史、体检、X线检查报告都使用自由文本形式描述,就会导致表达上的无限多种可能性。而统计和决策系统只能处理有限定的类别。病历记录的各种表达归类的规则必须依赖客观标准。而这种归类的表达总是意味着数据的减少(即信息的丢失),但这不一定是坏事。
分类系统的设计目标决定了分类系统的适当的明细水平和结构。例如,用于卫生统计的诊断分类方法不同于为住院病人制定治疗计划的分类。另一方面,很有必要使用无任何数据丢失的电子病历。因此,在这种应用中就必需使用标准化术语。
本章的标准化术语将尽可能地遵循国际标准化组织(ISO)。国际电子技术委员会(IEC)的技术报告TR9789(信息技术,数据交换的数据元素的组织和表达原则,编码方法和原理)(请看第三十四章),这意味着三个基本元素,即对象(object)、概念(concept)、术语(term)将用于所谓的语义三角关系中。
·
对象特指实际存在的事物,他们是具体的,如"胃",也可以是抽象的,如"精神"。
·概念是由一组对象的相同属性抽象出来的一个思维单元,如"器官"。
·术语是用某种语言表示的概念或对象的语言学表达。
2.分类
分类有两层不同含义:
1)
设计一种分类方法的过程;
2)通过使用分类概念标识的编码或术语,对对象进行编码或描述。
在这里,我们仅使用分类的第一层含义。分类是某一领域内概念的序化系统,体现了显式或隐式序化原理。分类的准则取决于这些类别的应用,分类来自原有知识,是原有知识扩展的关键。
例如,分类的目的在于支持医疗保健统计或医学科研工作,如对心电图异常进行分类或对病人疾病诊断进行分类。
在分类中,概念根据属性关系被有序化,所谓隶属关系即"A为B的一种"。例如,
"肺炎为一种肺部疾病",此处肺炎代表一种相对狭窄的概念,而肺部疾病代表一种相对宽泛的概念。分类包含某一领域的概念集,所谓领域是指就诊原因,诊断和医疗步骤。国际疾病分类法第九版(ICD-9)(我们将在本章第五节讨论)即为疾病分类法。分类法让我们有可能把不同环境中收集的信息进行相互比较。例如,如果我们想计算医院里各年龄段所需要的床位数,就可以采用下面的年龄分组方法,
婴儿
0 - 3 岁 儿童 4 - 12岁 青年 13 -18 岁
成人 19 - 64 岁 老人 65
岁以上
在这个假设例子中,分类是一个相对简单的任务,分类的条件也很容易满足,分类的根据是一个简单的标准:年龄,也就是说,年龄是判别标准。
分类的条件
1)领域完整性
2)非重叠分类(互斥性)
3)适用于目标的分类
4)有序化标准的同一性(同一个级别只有一个准则)
5)明确的类别界限标准
6)应用要求明确而完整
7)详细程度恰当
计算机辅助编码系统的额外条件
1)允许使用同义词
2)允许使用变异的词汇
3)对拼写错误不敏感
4)可靠性
-
操作的统一性(对术语顺序不敏感)
- 正确性
2.1
序化准则
在分类系统使用多种序化标准时,情况较为复杂。在疾病的分类中,一般考虑如下几个方面:
·解剖位置
·病因学
·形态学
·功能障碍
以上每一项都可以作为不同分类的依据。这种贯穿整个分类过程的序化标准称为轴。
多轴分类系统同时采用多种不同的序化标准。举例说,在国际初级医疗分类法(International Classification of Primary
Care,ICPC)中,诊断是按二轴进行分类,一种轴是器官系统(以字符形式表示),另一轴是医疗组成部分(以数字形式表示,请看表6.1).ICPC主要是针对流行病的,以这种方法分类可以保证在初级医疗的卫生保健研究中,每种分类包含足够数量的病例。这也就是为什么所有的热带病都集中在一类的原因。这种分类系统可能适用于如欧洲或北美地区,但是对于在诸如非洲,
中南美洲,印度和印度尼西亚这类热带地区的全科医生(General Practitioner,GP)来说,显然是不适用的。
表6.1 ICPC的二轴系统
第一轴向: 器官系统
代码 器官系统
A 通用的和非特指的
B 血液
D 消化
F 眼睛
H 耳朵
K
循环
L 肌-骨骼
N 神经
P 心理
R 呼吸
S 皮肤
T 内分泌和代谢
U 泌尿
W
怀孕和计划生育
X 女性生殖系统
Y 男性生殖系统
Z 社会问题
第二轴向: 医疗组成部分
代码 医疗组成部分
1-29
症状和主诉
30-49 诊断性普查和预防
50-59 治疗和药物处理
61-61 化验结果
62 管理
63-69
其它
70-99 诊断
2.2
专用术语集(Nomenclatures)和主题词表(Thesauri)
统一医疗保健记录遇到的一个问题是缺少通用术语。主题词表是特定应用范围内的一系列术语的列表,如诊断术语汇编和实验室检验术语列表。主题词表总是追求对某一领域的覆盖的完整性。为实用起见,主题词表中常用术语的同义词表也正在不断发展。主题词表促进了标准化术语的使用。在某一学科内,为特定的应用目的制定的限制性术语集称为约束性词汇(controlled
vocabulary)。
在专用术语中,代码表示医学概念,而医学概念又可按特定的规则组合成更复杂的概念,这就可能导致大量的组合代码产生。
分类系统和专用术语系统的不同之处在于前者所有可能的代码都是预先定义的,而后者可根据用户遇到的任何情况自由进行编码组合。如果某病人的资料满足某一代码,从一个大型数据库中检索病人的记录是相对比较容易的,但对使用专用术语系统的病人资料进行检索就较为困难,原因是高度随意性导致代码非常复杂。然而专用术语系统适用于生成标准化报告,如出院报告。
1933年,纽约医学院就开始医学术语数据库的研究,即所谓标准疾病分类术语(the
Standard Classified Nomenclature of
Diseases)。1961年美国医学协会继续从事这项工作,并于1965年由美国病理学家协会(the American College of
Pathologists)出版了病理学系统术语(the Systematic Nomenclature of Pathology,
SNOP)编码系统。SNOP奠定了人和动物医学系统化术语(the Systematic Nomenclature of Human and Veterinary
Medicine,
SNOMED)的基础,成为专用术语集的范例(请看第5.4节)。
2.3编码
编码是一个对特定对象或事物进行分类的过程,或是对事物进行多轴分类的分类集合。在大多数分类中,各类用代码表示。事实上,编码是对对象多方面性质的解释,代码可以是数字,字母或两者兼具。下面列出了各种代码的形式。
·数字编码(Number
codes)
--数字可以是以顺序的形式来表示。也就是说,每一个新的类别都是以下一个未用
过的数字来表示,优点是能够很容易的添加新的类别。
--数字也可以以随机的形式来表示,这样可防止病员的特殊信息隐藏在代码里。
--系列数字可以保留给一类别组,这种类型的数字只用于一个固定类别组,这样该类别组不能随意扩大。
·助记编码(Mnemonic
codes)
助记编码是由相关类目的一个或多个字符组成。这有助于用户记住代码,然而对于多类目分类系统来说,可能导致代码太长或者代码与类目毫无类似之处。因此,助记编码通常用于有限数目的分类表,例如医院各部门通常使用记忆代码表示,如耳鼻喉科用ENT
表示,心脏病科用CAR 表示,妇产科用OB-GYN 表示。
·分层编码(Hierarchical
codes)
为了增加细目的级别,在已有代码上加上一个或多个字符就扩展成分级代码,增加了类的分级细节。分级代码含有相关类的分级细节信息及其与父类的分级关系信息。这种编码方式与分层数据库的结构(请看第四章)相似,父类在上层,子类在下层。这意味着病人数据可以用某一特定级别的分层编码检索,即使低层上发生了重要的扩展和修改都不受影响。例如,ICD-9中使用的代码就是分层代码。
·并列编码(Juxtaposition
codes)
并列编码是由段组成的合成代码。每段提供相关类的特征。如在ICPC中,诊断码是由一个字母(助记代码)后加两位数字码组成。如所有包含"D"的编码与消化道有关,所有以"N"开始的编码与神经系统疾病有关。在ICPC中,两个相互独立的特征同时编码,每个特征在编码中都有自己的位置。
·组合代码(Combination
codes)
另一个例子是用序列化原理对医疗过程进行分类,此序列包括行为,设备,目标和解剖部位(见图6.1)。组合内容包括一百个解剖部位,20种治疗方法,10类仪器,5类目标,这种组合可产生十万种编码的分类系统。处理这种庞大复杂的分类必须使用组合代码。通过使用六位数四个段的组合代码,其中一个两位段表示医疗方法,
一个两位段表示设备, 一个一位段表示目标,
一个一位段表示解剖部位。如此编码人员通过135个代码,就可产生十万个组合代码。
图6.1
医疗措施的多层分类,长方形分类标准,类属标准未注明
·数值相加代码(Value addition
codes)
在数值相加代码中,只用2的乘方表示数据的项和类,与组合代码一样,几个特征能组合成一个代码。然而在这种代码中,每个特征只用一个数值(而不是一个段)来编码。例如危险因素的存在或缺失是很容易用这种代码表示的:
20
= 1 为吸烟者,0为不吸烟者
21 = 2 为肥胖(超重),0为不超重
22 = 4
为胆固醇增高,0为胆固醇不增高
使用这种代码1到7,我们可以表示所有上述三种危险因素的组合。如一个胆固醇不增高伴有肥胖(超重)的吸烟者可用代码3表示,而一个肥胖(超重)伴胆固醇增高的不吸烟者可用代码6来表示。
2.4分类学
分类学是分类法的理论研究,其包括基本原则、步骤和规则。分类学这一术语源自Linnaeus的生物机体分类。分类学这一术语也可用来表示分类设计过程的最终结果,因此常常被作为分类法的同义词。本书用分类学的第一定义:分类法的科学,而分类法这一术语则表示分类设计过程的最终结果。分类学感兴趣的是一般意义下的分类法。归属于某一类所有对象必定有某种相同特性,也即,它们都处于该类的类界内。例如所有的哺乳动物形成一个类,而人,猫和鲸都属于这一类。一个类还可以根据其他特征进一步分成子类。如狮子,老虎和家猫都属于猫科动物类。在疾病分类系统如ICD-9中,分类和再分类是根据疾病发生的器官系统和其病因学进行的。ICD-9的不同的章(主要以疾病种类和病因种类)可细分为不同的大类,这些大类又可分为三位数类等(请看第5.1节,有关ICD-9的描述)。
2.5疾病分类学
疾病分类学通常定义为疾病分类法的科学,因为疾病分类学讨论的是症状、综合征、功能障碍、外伤和疾病,故把疾病分类学定义为诊断术语分类的科学更为恰当,也即诊断术语分类学。医疗卫生方面的越来越多的信息需求使疾病分类问题越来越突出,似乎上个世纪的诊断词汇快速膨胀,没有相应的精确的元语言与之匹配以描述诊断术语之间的关系。尽管一些元术语如疾病、紊乱、综合征等已经被广泛使用,但其确切含义方面仍有很多模糊,描述疾病分类学关系的元语言也仍缺乏或未被应用。
疾病分类学有别于病情学(nosography),后者是关于疾病描述的科学。疾病的定义和描述间的不同之处在于:疾病的定义仅给出疾病的基本特征,而描述包括许多非本质特性,这些特征仅经验性地与疾病的本质相关,如美国类风湿病协会(ARA)的所谓类风湿关节炎分类标准(见表6.2)。此种定义无本质的特征,所有特征均是非本质的。由一组非本质的特征表示的定义被称为多原则的(polythetic)。很显然,类风湿关节炎的本质特征尚未被现代医学所发现。人们越来越感觉到在诸如ICD,SNOMED以及精神病的诊断和统计指南(the
Diagnostic and Statistical Manual for Mental
Disorders,DSM-IV)的分类系统中的诊断术语并非理想,尚需要新的基本概念(paradigm)。
表6.2
类风湿性关节炎分类的ARA标准(1987)
--------------------------------------------------------------------------
1.
晨起僵直
2. 三个以上的关节发炎
3. 手关节发炎
4. 对称性关节炎
5. 类风湿结节
6. 血清类风湿因子
7.
典型X线病变
如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amt.com.cn | 021-51096826-112 |
在线联系