跳转到主要内容

中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/etc

Benchmark

  • 中文医疗信息处理挑战榜CBLUE数据集 Baseline 中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学、夸克、阿里巴巴达摩院等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。

术语集/语料库

词向量/预训练模型

  • ChineseEHRBert 中文电子病历预训练Bert;用Bert测试命名实体识别,问答模型,关系提取任务
  • MC-BERTChineseBLUE数据集和模型
  • bertcner 用于命名实体识别的预训练的中文医学Bert模型
  • PCL-MedBERT 鹏城医疗BERT预训练模型
  • medbert BERT模型在中文临床自然语言处理中的应用探索与研究
  • Chinese-Word2vec-Medicine 中文生物医学领域词向量
  • SMedBERT SMedBERT
  • eHealth Building Chinese Biomedical Language Models via Multi-Level Text Discrimination

分词

知识图谱 / 关系提取

  • cMeKG github Chinese Medical Knowledge Graph
  • 瑞金医院人工智能辅助构建知识图谱大赛 糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关系任务
  • OMAHA知识图谱(药品适应症) 开放医疗与健康联盟(Open Medical and Healthcare Alliance,OMAHA)构建的药品与药品适应证的知识图谱数据
  • 医疗知识图谱数据 医疗知识图谱数据(ownthink)
  • 病人事件图谱数据集 病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
  • 中文症状库 这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。
  • 中医医案知识图谱 从医案中抽取临床知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃炎”)的临床表现、相关疗法、相关养生保健方法等
  • herbnet 面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。 进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。
  • CHIP2020 中文医学文本实体关系抽取
  • CCKS2020 新冠知识图谱构建与问答
  • cmekg医学关系提取工具 cmekg医学关系提取

命名实体识别

  • CCKS2017 面向中文电子病历的医疗实体识别及属性抽取数据集
  • CCKS2018 面向中文电子病历的医疗实体识别及属性抽取数据集
  • CCKS2019 数据下载 面向中文电子病历的医疗实体识别及属性抽取数据集
  • CHIP2020 中文医学文本命名实体识别
  • CHIP2020 中药说明书实体识别
  • CCKS2020 面向中文电子病历的医疗实体及事件抽取
  • cmekg医学ner工具 cmekg医学ner
  • CCKS2021 面向中文电子病历的医疗实体及事件抽取

QA

  • CCIR2019 CCIR 2019 基于电子病历的数据查询类问答
  • cMedQA 中文医学QA数据集
  • cMedQA2 中文医学QA数据集
  • CMID 中文医学QA意图理解数据集
  • KGQA 基于医药知识图谱的智能问答系统
  • chatbot-base-on-Knowledge-Graph 使用深度学习方法解析问题 知识图谱存储 查询知识点 基于医疗垂直领域的对话系统
  • 中文医疗对话数据集 Chinese medical dialogue data 中文医疗对话数据集
  • webMedQA webMedQA
  • MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.
  • CHIP2020 中医文献问题生成
  • NLPEC A Medical Multi-Choice Question Dataset for the National Licensed Pharmacist Examination in China
  • CCKS2021 蕴含实体的中文医疗对话生成
  • IMCS21 CBLUE@Tianchi 中医疗对话数据集 IMCS21

术语标准化

  • CHIP2019 临床术语标准化任务:医渡云标准化7K数据集
  • CHIP2020 临床术语标准化任务

相似句对判断

  • “公益AI之星”挑战赛-新冠疫情相似句对判定大赛 比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。

文本分类

  • CHIP2019临床试验筛选标准短文本分类

其他

  • CHIP2018 针对中文的真实患者健康咨询语料,进行问句意图匹配
  • CHIP2019 平安医疗科技疾病问答迁移学习比赛
  • CCLUE 中文临床自然语言处理算法评估基准
  • CCKS2021 面向中文医疗科普知识的内容理解

原文:https://github.com/GanjinZero/awesome_Chinese_medical_NLP