申请认证 退出

您的申请提交成功

确定 取消

陈华钧:开放的知识图谱

2017-02-07 17:19   OMAHA

医疗与健康一直以来都是语义网和知识库技术的最典型应用领域之一,因此也是知识图谱目前最活跃的垂直领域。

讲起与OMAHA的关系

谷歌在吸收了语义网领域成果的基础之上,于2012年提出了知识图谱的概念,并作为谷歌的两大重要技术储备之一,用来支撑下一代搜索和在线广告业务。另外一个是深度学习,形成了谷歌大脑。

医疗与健康一直以来都是语义网和知识库技术的最典型应用领域之一,因此也是知识图谱目前最活跃的垂直领域。此外,医疗和健康一直以来也有非常好的开放传统,有很多基础医学知识库都是免费开放的,我想这是医学知识图谱能得以突出发展的重要原因之一。从这两方面讲,“开放的知识图谱”都与今天OMAHA的目标密切相关。

讲起知识图谱的起源

我们可以从万维网的起源去探寻知识图谱的起源。早在1945年,美国首任总统科学顾问Vannevar Bush提出了一个称为MEMEX的记忆机器。他认为人脑的记忆偏重关联,更多通过联想去搜寻记忆。不像图书馆,通常通过从上往下构建一个很强的分类体系去支持检索。MEMEX启发了超文本Hypertext的发明,而超文本又进一步启发了万维网Web的发明。

今天的万维网是怎样来的呢?Web之父Tim Berners Lee在1989年的时候提出要构建一个以链接为中心的系统(Link Information System)。他认为在开放的互联网里面,以链接为中心的系统更加容易生长和扩展,它没有很强的中心控制,每个人都可以往这样大链接里面关联自己的东西。他实现了世界上第一个Web页面,从此,无数的Web页面被创建并链接起来,形成了今天的万维网。

1994年,Tim又指出,仅仅建立Web页面之间的链接是不够的,应该要进一步建立数据之间的链接Linked Data或事物之间的链接Linked Things, 因为人们要搜索的并不是页面,而是数据或事物本身,于是他提出了语义网(The Semantic Web)的理念。谷歌2012年推出的基于知识图谱的搜索引擎正是这一理念的商业化实现。

我们为什么强调语义和知识库

为什么强调语义和构建知识库,大概可以总结为下面几方面的价值:

首先最直接的是搜索引擎|这是非常成功的应用,目前添加了语义搜索和知识图谱功能的搜索引擎产品确实有效的提升了搜索体验,比如谷歌和百度。

其次我们讲人工智能

《经济学人》今年1月份刊文谈自然语言理解与人工智能,指出:“言语是最典型的人类特征,所以很难想象机器可以像人类一样真正的交谈,而不具备和人相似的智能,这两者应该同时出现。”实际上仅仅依靠传统的自然语言处理技术本身,确实是很难做到机器跟人一样的交流。因为人类在理解一句话的时候并不是单纯分析文法结构本身,而是需要同时借助大脑中的背景知识来帮助理解含义。一句话的语义并不仅仅包含在字面的文字当中,比如,我们说“中国足球队谁也赢不了”和“中国乒乓队谁也赢不了”,单纯依靠字面层次的文法分析无法区分两个“谁也赢不了”中的“谁”分别指代的是什么,但是人能够很快的理解,这是因为人依靠大脑连接各种有关于“中国足球队”和“中国乒乓球队”的背景知识来帮助理解这句话。人脑借助知识库来理解语言,机器也需要这样。因此知识图谱显得尤为重要。

再者是语义化的数据分析

数据分析的终极目标就是寻找数据之间隐藏的各种潜在关系。建立数据之间的链接,为粗糙的数据增加语义将有效的提升后续数据分析的效果和质量。著名的大数据公司Palantir正是充分利用语义和知识图谱的技术方法去提升传统数据分析手段的效率。

最后机器和机器之间的交互也需要语义

不仅仅人和机器的交流,机器和机器之间的交流也需要处理语义。这方面,国际上最大的物联网标准化组织OneM2M和国际万维网联盟W3C目前都在推动相关工作。

知识图谱和语义技术的大量应用

目前很多允许语音输入的个人助理,例如Siri亚马逊的ALEXA、谷歌Home、百度度秘、公子小白机器人等后面都有知识图谱做支撑。在垂直应用领域,医疗健康应该可以算排在第一个,其它包括金融、公共安全、农业、地理等。

知识图谱和人工智能的关系

在人工智能的发展历史上有不少发展流派,例如模拟人的心智的符号派,模拟脑的结构的连接派,模拟人的行为的行为派等。

知识图谱可以对应于模拟人的心智的符号派;而深度学习则可以对应于模拟人脑结构的连接派。这一轮的人工智能热潮当然得益于深度学习的发展。但我们一定不能忽视符号派的重要性。深度学习有效的解决了人类感知层面的问题,如视觉、听觉等,但高层次的人工智能是在认知层面,如语言理解、常识推理等,这需要符号人工智能包括知识图谱的帮助。深度学习能够帮助我们构建聪明的人工智能,提升机器人的感知和判断能力;而知识图谱或知识库能够帮助我们构建有学识的人工智能,提升机器人的搜索、理解和推理能力。事实上,包括Hinton在内的很多人工智能领域的专家都认为,人工智能未来发展的方向之一是深度神经网络与符号人工智能的深入结合。

开放的知识图谱:OpenKG.CN

正如硅谷教父凯文凯利在他的新书《必然》中谈到,开放和共享是互联网发展的“必然”。 而构建覆盖广泛的知识图谱更加需要开放和共享。前面谈了很多知识图谱的重要性,但很多知识图谱目前面临的突出问题是覆盖面小、知识不完全、质量过低。人类的知识覆盖面太过广泛,很难依靠单一的机构,去构建全面通用的知识图谱,甚至谷歌之类的大公司也做不到。

互联网的开放和众包促成了像Wikipedia这样的超级大百科全书的出现。同样的,开放和众包也将是构建覆盖广泛的知识图谱的必要途径。开放的另外一个重要价值是,你的数据能与其它领域的数据充分互联和链接,就像传统的Web页面链接会创造新的价值一样,开放数据之间的链接也能增加你的数据价值。

OpenKG.CN是国内在第一线从事知识图谱研发的一群朋友共同发起的。其宗旨是推动知识图谱数据的开放和互联,和推动知识图谱和语义技术的普及和应用。 特别是对于那些希望从事知识图谱研发的中小企业,他们能快速从一些现有的开放图谱数据和开放的工具出发去改造和定制,而不是从零开始摸索。此外,中文领域的知识图谱的构建是我们的专注的目标。我们相信这会是一件非常有意义的事情。

OpenKG.CN起步没多久,但已经包含了常识和百科领域国内做得最好的几个知识库,如Zhishi.me、CN-DBPedia等,还包含医疗、金融、娱乐等多个垂直领域的知识库。开放工具的功能刚刚上线,我们将系统性的梳理和汇集知识图谱相关的技术和工具,并向整个社区开放相关的技术资源。

目前,OMAHA的平台和OpenKG的平台实现互相对接,全新的医学知识服务平台已上线,我们期待您的贡献。我们欢迎众多有志于医疗知识库的开放,特别中文领域的知识库开放,和希望通过开放和外链增加您的知识库的价值的科研机构、企业和个人加入到我们的行列!

不感兴趣

看过了

取消

陈华钧,图谱,知识,人工智能,知识库,语义,数据

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交