DRG 与 ICD10 编码相关论文阅读分享

相关概念

  • 关于DRG

疾病诊断相关分组(Diagnosis-Related Groups,DRG)诞生于上世纪60 年代末的美国。上世纪80 年代,美国率先将DRG 用于医疗保险定额支付,现今多数发达国家社会医疗保险都采用这一工具进行预算、资源配置管理或购买医疗服务。从本质上讲,DRG 既能用于支付管理,也能用于预算管理,同时还是促进医疗服务质量提升的有效工具。

疾病诊断相关分组(Diagnosis-Related Groups,DRG)诞生于上世纪60 年代末的美国。上世纪80 年代,美国率先将DRG 用于医疗保险定额支付,现今多数发达国家社会医疗保险都采用这一工具进行预算、资源配置管理或购买医疗服务。从本质上讲,DRG 既能用于支付管理,也能用于预算管理,同时还是促进医疗服务质量提升的有效工具。

  • 关于主要诊断

DRGs分组对于疾病主要诊断的选择要求很高,因为在DRGs分组中,主要诊断是分组的最基础数据。主要诊断选择的正确与否,直接影响到DRGs分组结果,继而对医院绩效评估造成很大影响。

  • 卫健委在《住院病案首页数据填写质量规范》关于主要诊断的定义:

主要诊断一般是患者住院的理由,原则上应选择 本次住院对患者健康危害最大、消耗医疗资源最多、住院时间最长的疾病诊断。

  • Australian Institute of Health Welfare 对主要诊断的定义:

The principal diagnosis is defined as the diagnosis established after study to be chiefly responsible for occasioning the patient’s episode of care in hospital.

  • 为什么选了这三篇paper

找论文的过程过程是这样的,现在知网找,发现没有相关工作。abstract里给主要诊断的翻译是“Main diagnosis”或者“primary diagnosis”。结果证明作者全是机翻的,谷歌学术里这个翻译啥也没找到。

后面在澳洲的网站发现里发现正确的翻译应该是“principal diagnosis”。(虽然模型代码也把主要诊断给命名成 primary_diagnosis 吧)

后面发现直接找“principal diagnosis”的论文多是医学相关,或者本质是在做 ICD 编码的工作,没有体现主要诊断的特殊要求。于是直接选择了两篇 ICD 编码相关的和 DRG 相关的 paper。

类型 描述 代表作 代表作思想
医学相关 用医学知识通过某种症状确定主要诊断 Extracting principal diagnosis, co-morbidity and smoking status for asthma research: evaluation of a natural language processing system 几乎是纯医学知识对某一个单病种的判断,略过
与“主要诊断”字眼相关的 存在主要诊断(principal diagnosis)相关内容,但实际内容是ICD编码 Implementation of a Medical Coding Support System by Combining Approaches: NLP and Machine Learning Computer-Assisted Diagnostic Coding: Effectiveness of an NLP-based approach using SNOMED CT to ICD-10 mappings 1.用提取的病历特征和传统机器学习预测编码 2.通过系统化临床医学术语集的相关性预测 (质量都比较一般)
ICD编码相关的 较为流行的方向,直接通过病历为患者编码的研究,都视作多标签分类问题 Automatic ICD-9 coding via deep transfer learning Modeling Diagnostic Label Correlation for Automatic ICD Coding 1.通过从MeSH的迁移学习得到预测结果 2.通过给ICD编码的预测得分分组计算相关性提高准确率
DRGs分组与NLP相关的 直接通过模型为相关病历确定DRG分组 Early prediction of diagnostic-related groups and estimation of hospital cost by processing clinical notes 通过先用NLP技术预测患者的DRG分组,再预测患者的开销情况(CMI)

论文介绍

1. Automatic ICD-9 coding via deep transfer learning

这篇paper的动机是 MIMIC 这个数据太小了,只有5万多份数据,平均每个编码只能有8个样本,难以训练。相对来讲 BioASQ3 是一个更大的数据集,平均每个 label 的数量也多一些。

在这里插入图片描述

这篇文章相对早一些,因此迁移学习的实现方式也并不复杂,通过直接固定 Multi-scale CNN 的参数,在MIMIC数据集上重新训练即可得到很好的结果:

在这里插入图片描述

通过与其它模型的对比,可以发现模型预测的能力准确率还是不错的(以当时的标准来看)。此外,与本身的模型但是没有迁移学习做比较,可以发现迁移的这个过程还是很有效的。

在这里插入图片描述

2. Modeling Diagnostic Label Correlation for Automatic ICD Coding

作者在这篇文章中提出了要使用预测的 label 之间的相关性来帮助提高预测的准确率。因此预测模型分为了两部分,第一部分用来直接计算 ICD 编码的可能概率,并将可能的组合分组(依据是概率乘积的大小);第二部分按照得到的分组,通过相关的模型计算 ICD 编码的相关性,对小组进行重排序。一个很有趣的是,这篇paper中用来直接计算 ICD 编码概率的模型都是来自于其他人的工作。(即下图中的predictor) 在这里插入图片描述

关于label之间的相关性,文中有这样一个例子:模型会同时给便秘和腹泻很高的预测概率,但我们知道这样的情况是不合逻辑的,这就是 lebel 间的相关性

作者通过MADE和Mask-SA两种模型来实现集合内的Reranking过程。需要注意的是,虽然两个模型都是用来衡量相关性的,但是最后小组的 score 仍然与每个 ICD 编码原来的分数有关。

在这里插入图片描述

两种模型的概率表达:

  • MADE:按随机顺序进行自回归分解来估计其联合概率
在这里插入图片描述
  • Mask-SA:mask一个ICD编码后计算概率,类似于Transformer(没有位置坐标)
在这里插入图片描述

通过这样的步骤,我们可以看到原有模型的效果提升非常明显:

在这里插入图片描述

动机是提前识别出可能会有较大开销的住院情况。(见下图)

在这里插入图片描述

即,病人的治疗还没有完成(更不必说编码、DRG分类和支付了),就大致估计一下病人的未来的开销情况。

预测分为两种DRG,Medicare Severity (MS) DRG or All Patient Refined (APR) DRG 。排除了与新生儿或后期护理相关的代码,MS-DRG的代码为738个,APR-DRG的代码为1136个。

模型分为两部分,第一部分通过病历预测DRG分类,第二部分通过分类和对应的权值预测住院开销。使用convolutional attention for multi-label classification (CAML)来完成DRGs的分类任务。得到DGR分组的权重,选择最高i的一个最为DRG分组。CAML模型是一个可以用来做 ICD 10 编码的模型,这里作者简单修改了输出,重新训练后直接用病历文本预测患者的DRG分组。CAML 的模型单元如下:

在这里插入图片描述

在得到DRG分组后,直接乘以DRG分组对应的权重即可得到预测的开销。在源代码中,有这样的一张权重表:

在这里插入图片描述

由于作者假定的预测节点在病人治疗结束前,因此模型并不会获得全部病历数据,而是获得一定的时间之前的病历数据。效果如下:

在这里插入图片描述

HPA 是患者进 ICU 后的小时数(有的病人会在进 ICU 前已经住院有病历文本记录,因此可以为负值)可以看到,随着时间推进,模型得到的病历文本也会越来越多。衡量估计准确率的 CMI Error也会逐渐降低。这是符合直觉的。

会后总结

分享论文后大家给了很多看法,讨论的非常愉快,这里说一下自己的收获~

第一篇 paper 用了迁移学习的方法取得了很好的效果。可能是由于是期刊上的文章发表周期较长,用现在直接固定模型的参数来完成迁移学习显得有些简单了。不过值得注意的是,国外在数据库资料这方面确实要走在了我们的前面。如果可以把一些办法把国外的数据集做训练后迁移回到我们的医院数据上来,或许也是一个不错的办法。(老实讲,我很赞同这个想法,因为国内医院的病历质量确实有待提高)

第二篇paper做出了很不错的成果,通过架构提高了原来模型的准确率(而且还是 naacl 这样的顶会)。提高了 ICD 编码准确率用的两个模型也很精妙。不过像“大哥”说的,其它人的模型有一些不完美的的地方是非常正常的,通过一个架构的优化提高一些准确率不足为奇。这篇 paper 难免有些用一些小 trick 之嫌。即便是 naacl 这样的顶会,有些工作是要靠作者来用一些很巧妙的手法来写(私以为就是吹牛),才会体现的很厉害的。

第三篇 paper 是我原本认为动机最“鸡肋”的一篇,毕竟人都进ICU了还预测开销有什么意义,难道医院预测出来开销很大还能赶人么()。不过考虑到一个患者住院时期可能会很长,高达数个月的情况,而医院需要每个月做一次预算,那么这时候做一个粗糙的预测也可能被医院需要。这样的工作还是有一定的意义的,也许可以帮上现在很多医院的忙。

毕竟人都进ICU了还预测开销有什么意义,难道医院预测出来开销很大还能赶人么()。不过考虑到一个患者住院时期可能会很长,高达数个月的情况,而医院需要每个月做一次预算,那么这时候做一个粗糙的预测也可能被医院需要。这样的工作还是有一定的意义的,也许可以帮上现在很多医院的忙。

此外就是,以后看论文时一定要好好总结清楚数据集的具体格式,以及模型用到了数据集哪些部分的数据训练得到的模型,这是和模型的结构一样重要的。