建立以医学知识图谱为基石的搜索壁垒

2020
10/19

+
分享
评论
火石数智
A-
A+

知识图谱是个大的知识网络,而且能一定程度上“理解”人们输入的内容。

随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。

要实现医学智能,就必须要构建医学知识图谱并满足医疗领域不同层次难度的应用需求。


01

医学信息检索

当需要从海量的医学信息中检索目标信息时,可以在检索结果中显示结果信息包含的一些关键目标以及它们之间的关联关系。


02

机器人医学问答

为了让机器人更好的“懂医学”,需要用大量的医学数据对模型进行训练。这样当机器人需要基于一个已有的“问题-答案”列表来回答新的问题时,算法模型可以计算与新问题最近似的已有问题,并返回该问题的答案。知识图谱常用来辅助定义该问题领域的一些关键概念以及词语之间的同义关系,以改进对答案的检索效果,提高准确度。


03

医学知识库

在专业化程度集中的医疗领域,如何快速给医生群体提供最新的医学文献、指南等信息,识别并回答专业医学信息,就需要将医学信息结构化并形成知识库,以支持算法自动处理共性的问题。例如,建立疾病、症状、药品、化验手段、临床研究等相关的医疗知识图谱,可以回答与症状和疾病的逻辑有关的共性问题。


01

VIEWPOINT


构建医学知识图谱的前提:

是对医学专业的充分理解

在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属关系构成。

实体: 指的是具有可区别性且独立存在的某种事物。是只是图谱的节点。如图的“奥美拉唑”、“十二指肠溃疡”、“处方药”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

关系: 是知识图谱的边,指实体和实体之间的关系。如图“青霉素”这个名词和“青霉素(药品)”的关系是“青霉素”是“青霉素(药品)”的名称。

如图的知识图谱例子所示,青霉素(药品)一个实体,溶血性感染类性疾病是一个实体,适应症是关系,表示溶血性链球菌感染性疾病的关系是溶血性链球菌感染性疾病是青霉素的适应症。青霉素--适应症--溶血性感染类性疾病是一个(实体-关系-实体)的三元组例子。

医学知识图谱的搭建核心在于对业务的理解及对知识图谱本身的设计,这种设计尤为关键,离不开对业务的深入理解以及对未来业务场景变化的预估。火石数智基于自身强大的医学团队,构建医学术语集,以探索式分析发现数据规律,将数据要素与业务生产、组织关系耦合,完成从客观数据汇聚向抽象知识沉淀的认知跃迁,为组织提供知识驱动的辅助决策。


02

  VIEWPOINT


通过医学知识图谱

构建和传统搜索不同的智能搜索

火石数智的智能医学内容中心(AIMed)在搭建过程中,训练AI模型基于PICOs的分解方式把多源异构的文献数据进行庖丁解牛式拆解,抽取文献中包含的指标信息,形成一个个的标签,转化为高度结构化数据,来支持信息的快速调用和检索。而通过医学术语集和医学知识图谱的构建,将实现更符合医学领域的智能搜索,为用户呈现更加“懂医学”的搜索结果。

传统搜索:从前我们上网查信息,输入关键词后会出现很多相关链接,比如在知网空间输入关键词“奥美拉唑”搜索结果如下:

在这种搜索环境中,用户需要一个个点开这些链接去寻找想要了解的信息,如果想知道奥美拉唑适应症,需要再搜“奥美拉唑适应症”。传统的搜索引擎只是单纯地从各个网页中提取用户输入的关键词进行匹配,然后把结果按相关度排序,再按排序返回搜索出的条目。也就是说,计算机没有去“理解”人们输入的词,而只是把这些词仅当做一个个字段去匹配而已。


知识图谱搜索:

1)搜索一个关键词,它返回关于这个关键词的各方面信息,如下图:

知识图谱的搜索结果是把“奥美拉唑”相关的知识连接在网络里,从关键词“奥美拉唑”可以连接到“奥美拉唑”相关的其他知识,比如:奥美拉唑的化合物简介,药典标准,药物说明和专家点评等;还把奥美拉唑一些特征属性展示出来:比如分子式,CAS编号,中文别名,英文名称,药品名称等;还推荐出同是消化系统的其他药品。这些都是在知识图谱形成的语义网络里把与奥美拉唑相连接的节点给予展示出来,是传统的搜索做不到的。

2)而在知识图谱搜索中,通过意图识别理解用户意图,搜索引擎会更“理解”用户输入的内容,从而返回更为精确的结果。比如:想知道奥美拉唑的适应症,直接搜“奥美拉唑的适应症”就准确地呈现出适应症是:治疗十二指肠溃疡,应激性溃疡等。


03

  CONCLUSION


结语


综上所述,知识图谱是个大的知识网络,而且能一定程度上“理解”人们输入的内容。基于知识图谱的搜索已成为现今搜索引擎的主要形式,其技术框架也在不断改进和完善。作为医学智能化创新的先驱者,火石数智秉承着“让医学证据生成更简单,让医学价值传递更高效”的信念,以医学领域的专业沉淀,研发的医学知识图谱不仅提供有关医药专业术语的知识图谱智能搜索,还能提供大众常用的医药健康非专业术语的知识图谱智能搜索。

专业术语数据来源不仅包括WHODrug, HPO, MedDRA, UMLS等国际标准术语,还来源于医药,健康文献,字典,书籍,临床指南等,用于构建火石数智智能医学机器人整体解决方案中:AIMed,Social Listening和Chatbot三大产品线的数据基石。非专业术语数据源主要来源于医药健康相关社交媒体的大众常用的术语,让火石数智不仅可以实现智能搜索,还能够让智能医学机器人提供更符合人性化的智能问答。


—END—

声明:本文为火石数智原创文章,欢迎个人转发分享,网站、公众号等转载需经授权。

作者:术语专家 邹翠兰


本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:guikequan@hmkx.cn
关键词:
奥美拉唑,青霉素,图谱,医学,数据

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!