当前位置: 行业管理> 行业动态
行业动态
语义网,下一代互联网的神经
发布时间:2003-03-12      来源:      阅读量:24      分享:

作者:北京大学电子商务协会技术主管 王亚章

  编者按:互联网已成为人们获得信息、取得服务的重要渠道之一。目前大多数页面信息的表现方式多为自然语言、图片、声音等方式,这适应于人们的阅读(收听)需求,但不便于机器自动处理。语义网的出现,将改变上述现状。

  上个世纪80年代,Tim Berners-Lee将超文本技术应用于计算机网络,促成了互联网(WWW)的诞生。而今,Tim Berners-Lee及他所领导的W3C(World Wide Web Consortium)正致力于开发语义网——能理解人类语言的智能网络。

  今天的互联网(WWW,World Wide Web),业已成为人们获得信息、取得服务的重要渠道之一。但是,目前大多数页面的设计仅仅针对人类自身的,不便于机器自动处理——现在网页信息的表现方式,多为自然语言、图片、声音等方式,这适应于人们的阅读(收听)需求。但是,这些媒介固有的不确定性引起数据格式的多样性,而无法被计算机理解。例如,“一江春水向东流”、“滚滚长江东逝水”、“黄河之水由西而来,流入渤海”这三句都涉及到“江河向东流”这一共同属性,稍有文字知识的人就可以看出来。但是,要是让计算机分析,恐怕就难以得出这一规律了。这在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天,成为信息检索的一个难题。

更好地利用信息



  语义网(Semantic Web)的出现,力图改变上述现状。它的目标就是定义、互联一个在功能方面不仅仅显示内容(给人看)的网络,还要尽量使得机器可以通过各种各样的程序自动操作、集成以及重复使用整个网络上的信息。语义网,是一个“数据网,某种意义上可以说是全球数据库。”

  语义网力图将“理解信息的含义是人类的专利”这一局面成为历史,使得计算机在一定程度上也同样可以做到,从而有助于信息共享、再利用,并使网络能够提供动态的、个性化的、主动的服务。在Tim Berners-Lee看来,语义网是对WWW本质的变革。

  今天的搜索引擎,在找到你所需材料的同时,通常会带来大量毫不相关的“副产品”,需要我们再进行过滤工作。例如,如果你用关键字“西门”搜索, 计算机根本无法知道你是在找一个地点,还是找有关姓氏的信息,抑或是其他什么带有“西门”的企业或其他什么。问题的根源在于“西门”这个词对计算机来说根本没有含义。如果语义网被广泛采用,那么“精细、准确和自动化”的搜索就能够实现。那个时候,程序能够基于一些模糊的知识分类找到一个人:她的姓是“西门”,她是你的朋友之一,她曾经与你共同去云南旅游……这些信息的组合可能并不在单个网页中出现,但是语义信息能够让程序—通常称为Agent(代理)—更容易分辨不同网页中的元素,Agent能够理解“‘西门甲’是‘西门乙’的孩子”这样的关系,而且能够把多个页面的信息结合在一起,自动处理复杂的过程和事务。

  语义网研究的主要目的,就是扩展当前的WWW,使得网络中尽可能多的信息都是具有语义的,是计算机能够理解和处理的,便于人和计算机之间的交互与合作。其研究重点就是如何把信息表示为计算机能够理解和处理的形式,即带有语义。Tim Berners-Lee给出了语义网中的层次关系——基于XML和RDF/RDFS,并在此之上构建本体和逻辑推理规则,以完成基于语义的知识表示和推理,从而能够为计算机所理解和处理。

语义网的基石



  人类的知识,建立在两个基石之上:语义学和数学。在数学方面,“电脑”已远远超越了“人脑”;提高计算机理解语言逻辑的能力,已经成为下一阶段的重点。

  为了让语义网能够工作,计算机必须能够访问结构化的信息集合和推理规则,再借此进行自动论证。在Web出现前很久,人工智能(AI,Artificial-intelligence)研究人员就已经开始着手研究这样的系统。知识表现,是这类技术的通常称谓,和WWW出现之前的超文本技术类似:它显然是个好主意,也有些非常好的范例,但是它还无法改变世界。知识表现蕴含着产生重要程序的种子,但是要发挥它的全部潜能,必须将其和一个全球系统联系在一起。

  传统的知识表现,通常是集中式的,这意味着每个人对于共同的概念,如“父母”和“车辆”,必须使用完全一样的定义。例如大家一般都知道“爸爸”、“父亲”、“爹”是同一概念,但是计算机一般会将其当作三个概念。可见,集中化控制有些死板。随着知识表现系统的规模和范围快速增长,这些系统通常谨慎地对需要的问题加以限制,确保其能够给予可靠的回答。

  开发语义网的两个重要技术已经就绪,它们是XML(可扩展标记语言eXtensible Markup Langauge)和RDF(资源描述框架,Resource Description Framework)。

  XML让每个人都可以创建自己的标签,对网页进行注释。脚本(或者说程序),可以利用这些标签来获得信息,但这是以写脚本程序的人明白网页制作者各个标签的用意为前提。以一言蔽之,XML允许使用者在他们的文档中插入任意的结构,但没有说明这些结构的含意。

  为了解决上述缺陷,语义网引入了RDF来表达含意。RDF通常是三元组的结构,每个三元组由相当像句子中的主语、动词和宾语(SVO,subject, verb, and object)三个部分组成(也有一种说法是主谓宾,subject, predicate and object)。在RDF中,文档中的声明通常是某个事物(人、网页或其他任何东西)对于某些值(另一个人、另一网页)拥有某些属性(例如“是姐姐”,“是作者”)。这种结构用于描述由机器处理的大量数据,是非常自然的方法。

智能“语义网”的发展



  语义网与目前的Web并不是各成一派,前者其实是目前Web的一个延伸。语义网中的信息含义定义得更好、更利于计算机等使用者之间的协同合作。将语义网融入现有Web的努力,业已开始。不久,当计算机能够更有效地处理和“理解”目前仅仅是进行显示(给web使用者)的资料时,我们将迎来很多重要的新功能,例如质量更高、速度更快的搜索引擎及软件工具。

  业界知名厂商,包括IBM、惠普、Adobe甚至美国防御高级研究计划局,都支持并已经开始在语义网技术方面进行研究。各地的研究人员正在积极地使网络上的信息更加结构化,并使其能轻松为计算机本身所理解。“语义网”的理念,是使web页面文件本身更加数据化,使得搜索软件与web页面之间更有效沟通。

  当许多程序被开发用来从不同的资源收集网页内容,处理信息和其他程序交换结果,将真正实现语义网络的力量。当出现更多的机器可读的网页内容和自助服务(包括其他的代理),这种软件代理的效率将呈指数级增长。语义网络提倡这样的协同作用,即使各代理之间并非明确设计为在一起工作,当数据随语义到达时,代理之间也能传送数据。将来,语义网能够将搜索的水平从“词”上提升到“概念”的层面;其次,XML格式突破了原有HTML格式在辩识对象的局限,可以在数据层面进行分析;RDF作为语义网的重要组成部分,能够将不同的URI连接起来,从而清楚表达对象间的关系。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.