语义网，下一代互联网的神经 _北京市通信与互联网协会

当前位置：行业管理> 行业动态

行业动态

语义网，下一代互联网的神经

发布时间：2003-03-12 来源：阅读量：44 分享：

作者：北京大学电子商务协会技术主管王亚章

　　编者按：互联网已成为人们获得信息、取得服务的重要渠道之一。目前大多数页面信息的表现方式多为自然语言、图片、声音等方式，这适应于人们的阅读（收听）需求，但不便于机器自动处理。语义网的出现，将改变上述现状。

　　上个世纪80年代，Tim Berners-Lee将超文本技术应用于计算机网络，促成了互联网(WWW)的诞生。而今，Tim Berners-Lee及他所领导的W3C（World Wide Web Consortium）正致力于开发语义网——能理解人类语言的智能网络。

　　今天的互联网（WWW,World Wide Web），业已成为人们获得信息、取得服务的重要渠道之一。但是，目前大多数页面的设计仅仅针对人类自身的,不便于机器自动处理——现在网页信息的表现方式，多为自然语言、图片、声音等方式，这适应于人们的阅读（收听）需求。但是，这些媒介固有的不确定性引起数据格式的多样性，而无法被计算机理解。例如，“一江春水向东流”、“滚滚长江东逝水”、“黄河之水由西而来，流入渤海”这三句都涉及到“江河向东流”这一共同属性，稍有文字知识的人就可以看出来。但是，要是让计算机分析，恐怕就难以得出这一规律了。这在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天，成为信息检索的一个难题。

更好地利用信息

　　语义网（Semantic Web）的出现，力图改变上述现状。它的目标就是定义、互联一个在功能方面不仅仅显示内容（给人看）的网络，还要尽量使得机器可以通过各种各样的程序自动操作、集成以及重复使用整个网络上的信息。语义网，是一个“数据网，某种意义上可以说是全球数据库。”

　　语义网力图将“理解信息的含义是人类的专利”这一局面成为历史，使得计算机在一定程度上也同样可以做到，从而有助于信息共享、再利用，并使网络能够提供动态的、个性化的、主动的服务。在Tim Berners-Lee看来，语义网是对WWW本质的变革。

　　今天的搜索引擎，在找到你所需材料的同时，通常会带来大量毫不相关的“副产品”，需要我们再进行过滤工作。例如，如果你用关键字“西门”搜索，计算机根本无法知道你是在找一个地点，还是找有关姓氏的信息，抑或是其他什么带有“西门”的企业或其他什么。问题的根源在于“西门”这个词对计算机来说根本没有含义。如果语义网被广泛采用，那么“精细、准确和自动化”的搜索就能够实现。那个时候，程序能够基于一些模糊的知识分类找到一个人：她的姓是“西门”，她是你的朋友之一，她曾经与你共同去云南旅游……这些信息的组合可能并不在单个网页中出现，但是语义信息能够让程序—通常称为Agent（代理）—更容易分辨不同网页中的元素，Agent能够理解“‘西门甲’是‘西门乙’的孩子”这样的关系，而且能够把多个页面的信息结合在一起，自动处理复杂的过程和事务。

　　语义网研究的主要目的，就是扩展当前的WWW，使得网络中尽可能多的信息都是具有语义的，是计算机能够理解和处理的，便于人和计算机之间的交互与合作。其研究重点就是如何把信息表示为计算机能够理解和处理的形式，即带有语义。Tim Berners-Lee给出了语义网中的层次关系——基于XML和RDF/RDFS，并在此之上构建本体和逻辑推理规则，以完成基于语义的知识表示和推理，从而能够为计算机所理解和处理。

语义网的基石

　　人类的知识，建立在两个基石之上：语义学和数学。在数学方面，“电脑”已远远超越了“人脑”；提高计算机理解语言逻辑的能力，已经成为下一阶段的重点。

　　为了让语义网能够工作，计算机必须能够访问结构化的信息集合和推理规则，再借此进行自动论证。在Web出现前很久，人工智能（AI，Artificial-intelligence）研究人员就已经开始着手研究这样的系统。知识表现，是这类技术的通常称谓，和WWW出现之前的超文本技术类似：它显然是个好主意，也有些非常好的范例，但是它还无法改变世界。知识表现蕴含着产生重要程序的种子，但是要发挥它的全部潜能，必须将其和一个全球系统联系在一起。

　　传统的知识表现,通常是集中式的，这意味着每个人对于共同的概念，如“父母”和“车辆”，必须使用完全一样的定义。例如大家一般都知道“爸爸”、“父亲”、“爹”是同一概念，但是计算机一般会将其当作三个概念。可见，集中化控制有些死板。随着知识表现系统的规模和范围快速增长，这些系统通常谨慎地对需要的问题加以限制，确保其能够给予可靠的回答。

　　开发语义网的两个重要技术已经就绪，它们是XML（可扩展标记语言eXtensible Markup Langauge）和RDF(资源描述框架，Resource Description Framework)。

　　XML让每个人都可以创建自己的标签，对网页进行注释。脚本（或者说程序），可以利用这些标签来获得信息，但这是以写脚本程序的人明白网页制作者各个标签的用意为前提。以一言蔽之，XML允许使用者在他们的文档中插入任意的结构，但没有说明这些结构的含意。

　　为了解决上述缺陷，语义网引入了RDF来表达含意。RDF通常是三元组的结构，每个三元组由相当像句子中的主语、动词和宾语（SVO，subject, verb, and object）三个部分组成（也有一种说法是主谓宾，subject, predicate and object）。在RDF中，文档中的声明通常是某个事物（人、网页或其他任何东西）对于某些值（另一个人、另一网页）拥有某些属性（例如“是姐姐”，“是作者”）。这种结构用于描述由机器处理的大量数据，是非常自然的方法。

智能“语义网”的发展

　　语义网与目前的Web并不是各成一派，前者其实是目前Web的一个延伸。语义网中的信息含义定义得更好、更利于计算机等使用者之间的协同合作。将语义网融入现有Web的努力，业已开始。不久，当计算机能够更有效地处理和“理解”目前仅仅是进行显示（给web使用者）的资料时，我们将迎来很多重要的新功能，例如质量更高、速度更快的搜索引擎及软件工具。

　　业界知名厂商，包括IBM、惠普、Adobe甚至美国防御高级研究计划局，都支持并已经开始在语义网技术方面进行研究。各地的研究人员正在积极地使网络上的信息更加结构化，并使其能轻松为计算机本身所理解。“语义网”的理念，是使web页面文件本身更加数据化，使得搜索软件与web页面之间更有效沟通。

　　当许多程序被开发用来从不同的资源收集网页内容，处理信息和其他程序交换结果，将真正实现语义网络的力量。当出现更多的机器可读的网页内容和自助服务（包括其他的代理），这种软件代理的效率将呈指数级增长。语义网络提倡这样的协同作用，即使各代理之间并非明确设计为在一起工作，当数据随语义到达时，代理之间也能传送数据。将来，语义网能够将搜索的水平从“词”上提升到“概念”的层面；其次，XML格式突破了原有HTML格式在辩识对象的局限，可以在数据层面进行分析；RDF作为语义网的重要组成部分，能够将不同的URI连接起来，从而清楚表达对象间的关系。

行业动态

语义网，下一代互联网的神经

你知道你的Internet Explorer是过时了吗?