跳转到主要内容

[编者按]:这是杰克·西蒙的客串帖子,他最近参加了威廉姆斯学院的黑客马拉松。他构建了一个由LangChain驱动的聊天机器人,重点关注阑尾癌症,旨在让有需要的人更容易获得专业知识。如果你有兴趣为另一种罕见的情况构建聊天机器人,请联系jms9@williams.edu.

我们之所以强调这一点,是因为我们认为这是问答系统的一个极好且不受重视的用例。虽然底层技术可能与其他问答应用程序类似,但我们发现这种用例对社会的影响特别大。

上周,我参加了威廉姆斯学院的一场黑客马拉松,在那里我建立了一个聊天机器人,它改变了我们获取罕见疾病信息的方式。通过结合文献综述、临床试验数据和学术论文,我创建了一个由LangChain驱动的聊天机器人,它可以提供有关一种特殊罕见疾病——阑尾癌症的宝贵信息。

 


虽然这个演示侧重于一种罕见的疾病,但我计划通过添加尽可能多的罕见疾病信息来扩展聊天机器人的知识库。最终愿景是创建一个人工智能驱动的应用程序,为患者和医疗保健专业人员提供可靠的信息来源。

罕见的情况往往会让患者被隔离,没有适当的指导,主要是因为只有少数专家专门研究这些情况。此外,这些专业人员往往忙于工作,几乎没有时间与个别患者接触。几乎没有可用的在线资源,大多数都是用医学术语编写的,这使得患者很难理解这些信息。不幸的是,ChatGPT对罕见的情况没有帮助;尽管该模型是在大规模的网络规模数据集上训练的,但不太常见的情况下的大多数相关信息要么没有包括在内,要么过于稀疏,模型无法了解太多。因此,ChatGPT的回应是不完整的,而且往往是明显错误的。

鉴于这些挑战,我使用了检索增强生成(RAG)方法,利用多种知识来源——这些知识来源被烘焙到模型参数中,以及上下文段落中包含的信息——来设计一个似乎优于GPT-4的模型,以及Bio_ClinicalBERT、BioBERT、BlueBERT、PubMedBERT,和SciBERT的任务需要关于阑尾癌症的特定知识。

检索增强生成是一种NLP体系结构,它使用外部文档来补充其知识。RAG方法通过访问更细粒度的数据,甚至是在基本模型训练期间不可用的数据,提供了显著的优势。该方法涉及从外部数据集检索上下文文档,例如执行过程中的文献综述、临床试验信息和学术论文语料库。然后,模型将这些上下文文档与原始输入相结合,以生成输出。

尽管现有模型和数据集在提供有关常见疾病的更具体信息方面取得了进展,但它们很难为患者少于1000人的病例提供必要的信息。这是因为他们缺乏足够的临床试验、社区支持论坛和罕见疾病专家从业者的详细信息。与这些限制相关的挑战源于训练这些模型的高昂成本,以及目前大规模收集罕见条件下的综合数据的不可行性。

通过构建一个可以访问和理解大量医学文献的聊天机器人,我们可以弥合患者与他们所需知识之间的差距。这种人工智能驱动的方法不仅实用,而且在革命性医疗保健方面也很有吸引力。

随着人工智能和LangChain等开源大型语言模型框架的进步,围绕罕见疾病的信息问题现在可以得到解决。

我构建的聊天机器人证明了这样一个工具可以用来帮助患者和医疗保健专业人员。通过扩大聊天机器人的知识库,以涵盖更罕见的情况,我计划创建一个平台,提供有价值的见解和信息,而不会用复杂的医学术语淹没患者和家人。

我相信人工智能聊天机器人有潜力显著改善医疗保健行业,尤其是在罕见疾病领域。随着我们继续开发和完善这些人工智能驱动的工具,我们可以创建一个更易于访问和包容的医疗保健系统,为患者和医疗保健专业人员赋权。

如果你有兴趣了解更多关于这个项目的信息或参与其中,请通过电子邮件或推特联系我。我们可以共同努力,让人们更容易获得有关罕见疾病的信息,并最终改善受这些疾病影响的人的生活。