语义Web step-up

语义Web step-up http://blogger.org.cn/blog/blog.asp?name=orangebench orangebench的博客 blogger.org.cn W3CHINA Blog webmaster@blogger.org.cn <![CDATA[sementic web的意义何在]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=409 orangebench 2004/11/18 23:18:01 Semantic Web可以分两层理解：
1）RDF是统一的元数据语言，在图书馆能用作者名，书名查询，而在Web上只能用关键词查询，原因在于Web上的数据没有元数据。即使RDF没有推理能力，这种统一的元数据语言也非常有用。
2）RDF表示的Web上的元数据还可以推理，可以发掘隐含的知识，聚集分散的知识，这就是本体的作用，因为本体提供了领域的概念模型，背景知识等等；

Semantic Web不会很快就能实现，但我一直觉得Semantic Web技术可以很快应用于实际的信息系统。

一些后继的想法：

第一层对应的实际就是RDF/RDF Schema,着重的是元数据格式；第二层对应的就是OWL本体了，因为着重在强大的推理能力。

从目前来看，第一层RDF（S）较容易被人接收，因为RDF Schema一般都比较简单，而这种统一的元数据格式又非常有用。目前较为成功的SW项目基本都在这一层面上，如FOAF，RSS 1.0(Atom)，Dublin Core。他们的一个共同特点就是简单，容易被人接受。

而OWL层呢，首先建个本体很麻烦，其次推理时间复杂度太高，我感觉会很难真正在Web上得到广泛应用，它的应用场景可能在一些基于SW技术的信息系统中，如企业Portal，企业的知识管理，等。

结果是：在Semantic Web上RDF层可能会跳过OWL层，直接和上面的层次打交道，如rule，proof, trust。

]]> <![CDATA[语义Web的思想]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=408 orangebench 2004/11/18 23:17:59 1）语义Web是让计算机能够理解并自动的处理Web上的内容，并不是通过人工智能方法，如自然语言理解，或机器学习来实现的,而是通过制定统一的标准，包括RDF，OWL来实现。“It only indicates a machine’s ability to solve a well-defined problem by performing well-defined operations on existing well-defined data. Instead of asking machines to understand people’s language, it involves asking people to make the extra effort”―― Tim Bernes-Lee, What the semantic Web isn’t but can represent.

2） SW的一个任务可以理解为Webize KR，即如你所说：” 把人工智能或知识工程方面的这些成果转移到Web环境中”, 很多传统的AI难题的确一样会在SW研究中碰到，如context, action, non-monotonicity, paraconsistence。AI一直没有像早期所声称的那样改变世界的原因之一就是AI以前大多追求集中式的，封闭的知识处理。而SW通过把知识Web化，并且抛弃AI中那些完全知识，绝对正值，可证明性等限制，很有可能真正地使AI改变世界，正如Web把传统的HyperText全球化的效果。但研究SW是否一定要有AI研究的基础呢，我觉得SW为AI带来了很多新的问题，而这些问题用传统的AI方法并不适合，而其他领域的方法更为适合，如数据库技术。

3）关于SW的应用，我一直没时间真正去做一个系统，所以也一直很想听听真正做过系统的人的观点。我说说自己的猜想：a）相对与传统的基于数据库的信息系统而言，如果这个系统是完全封闭的，不会和别的系统打交道，如果这个系统的模块没有重用的价值，则用不着SW技术。对这种系统用SW技术的优势在于：把数据用RDF表示，便于重用，以及系统的互操作性，另外RDF表示的数据处于概念层次上，独立于数据表示的格式，如库表的设计。b)相对于基于XML的信息系统，我觉得RDF完全可以作为XML的替代，因为RDF就是有语义的XML数据。

也就是说，SW技术可以应用于大部分的信息系统，只要有元数据的地方，就可以用RDF，因为RDF本身就是一种元数据表示语言。在数据库系统中，元数据是库表的Schema,在XML信息系统中，元数据是XML的标签和XML Schema，而RDF+RDF Schema完全可以做为他们的替代品，而它的优势之一就是它是有语义的，机器可理解的，而且Web化.

]]> <![CDATA[能否找到一个OWL Full的RDFS兼容的，可判定的子集？]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=407 orangebench 2004/11/18 23:14:38

我们知道，用OWL 描述本体有个很烦的跷跷板现象：
1）如果用OWL DL或Lite 描述本体，则当用RDF表达关于这个本体的事实部分的时候，大部分RDF的功能都不能用了，如类可以当实例看，属性的属性，关于声明的声明（reification）,而这些功能正是RDF的鲜明特性，如果这些都不能用，还能叫RDF吗？
2）如果用OWL Full 描述本体，一切Okay, 完全兼容RDF(S),RDF的全部功能都能用，但是描述逻辑学家告诉我们：OWL Full是不可判定的，目前没有推理机完全实现了对OWL Full的推理（或许二价逻辑的推理机可以），这等于在说，OWL Full实际上是没用的，提出来，就是为了安慰RDF(S)：哦，OWL没有完全背叛RDF，有个大佬和RDF兼容了。

RDF(S)本身是一个非常完美的形式系统，有形式化的语法，语义，而且是可判定的，还有证明论（entailment closure）,并且是可靠和完全的。但RDF Schema表达能力实在是太弱了，没法构造概念，关于属性就一个定义域和值域。我一直在想，我们能否找到一个OWL Full的子集，扩展了RDF Schema的表达能力，且完全兼容RDF Schema，并且是可判定的，不像OWL DL那样不兼容RDF(S), 不像OWL Full那样不可判定。

大家有什么看法？这个可判定的OWL Full子集又在何方呢？

]]> <![CDATA[OWL 语义中的comprehension principles]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=406 orangebench 2004/11/18 23:13:55

为什么在OWL Full语义中要comprehension principles呢？先举个例子：John 是概念Intersection（A B C）的实例，能否推出John 是概念Intersection（A B）的实例呢？如果OWL FULL照搬RDF的语义，它是推不出来的。因为在RDF中，类也是实例，我们无法保证在所有在John是概念(A,B,C)的交为真的解释中，存在一个对象 Intersection（A B）（注意：Intersection（A B）必须是论域中的一个元素）。
问题在于：一些OWL的类表达式必须同时也是一个实例，所以，OWL FULL语义中利用comprehension principles为每个类表达式添加一个对应的实例。但循环定义不能有comprehension principles，因为会导致语义悖论。

参考：
【1】Jeff Z. Pan and I. Horrocks. RDFS(FA) and RDF MT: Two Semantics for RDFS. In Proceedings of the 2nd International Semantic Web Conference (ISWC2003).
【2 】From SHIQ and RDF to OWL– The Making of a Web Ontology Language

]]> <![CDATA[知识,本体的概念]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=405 orangebench 2004/11/18 23:10:28 1) 数据, 知识 , 知识库
http://computing-dictionary.thefreedictionary.com/KnowLedge

knowledge - The objects, concepts and relationships that are assumed to exist in some area of interest. A collection of knowledge, represented using some knowledge representation language is known as a knowledge base and a program for extending and/or querying a knowledge base is a knowledge-based system.

Knowledge differs from data or information in that new knowledge may be created from existing knowledge using logical inference. If information is data plus meaning then knowledge is information plus processing.

A common form of knowledge, e.g. in a Prolog program, is a collection of facts and rules about some subject.

For example, a knowledge base about a family might contain the facts that John is David’s son and Tom is John’s son and the rule that the son of someone’s son is their grandson. From this knowledge it could infer the new fact that Tom is David’s grandson.

知识是可以推理的数据,也就是说有形式化的语义的数据. 知识库就是用知识表示语言表示的一个知识的集合。

2）本体，本体库，领域本体
本体：共享概念模型的明确的形式化规范说明
领域本体：特定领域的本体，区别与通用(即领域无关的)本体，如CYC, WordNet
本体库：一个本体集合？

所以，知识是可以用本体表示，但并不是所有知识都适合用本体表示，如不共享的知识，即Context, 或者“我的小秘密“，不是表达概念模型的知识，如领域的具体应用相关的知识，即一些facts。

但是在OWL中，本体和知识库这两个概念的区别很模糊。因为OWL本体可以包含一些facts的声明，因为一个OWL本体实际对应于一个描述逻辑的知识库。但通常来说，应用相关的facts不包含在本体中的。

]]> <![CDATA[关于RDF Schema的特点]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=404 orangebench 2004/11/18 23:07:30 1）表达能力太弱：没有任何构词，不能构建新的概念和属性，因此需要OWL, OWL rule
2) 表达能力太强： class as instance, property, statement as resources, 在经典模型论语义下相当于高价逻辑，不可判定！因此需要非经典的模型论语义，而导致难以扩展RDF Schema的表达能力，而导致 OWL 要分DL version, full version.

rdf semantics 这个规范非常难啃，首先pat hayes是以前和人工智能之父混的，喜欢讨论AI中的哲学问题，因此文字艰涩。第二 rdf的语义是非经典的模型论语义，可以参考
１）RDFS(FA) and RDF MT- Two semantics for RDFS
２）　Three Theses of Representation in the Semantic Web
３）　Layering the Semantic Web–Problems and Directions
加深理解。

]]> <![CDATA[RDF Reification到底有什么用呢？]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=403 orangebench 2004/11/18 23:04:54 1）RDF具体化是关于陈述的描述，但对这个陈述本身的真值不作判定，而上下文需要描述一个陈述在不同的上下文中真值的变化，因此，RDF具体化无法表达上下文（context）。
—-Guha’s “contexts for the Semantic Web”

2) RDF数据出处（provenance）都要求一种“quotation”（引用）机制，即对里面的陈述不作解释，这也是避免认知逻辑中的“referential opacity ”问题。而RDF具体化不是引用机制，这在RDF primer文档中有特意地说明，RDF具体化要对里面的陈述作出解释。

3）具名图（named graph）是一种引用机制，它是quad的一个特例，即第四元是图的URIref。

这样的化，RDF 具体化不能表示context和provenance, 它到底有什么用呢

]]> <![CDATA[语义Web的零碎想法]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=400 orangebench 2004/11/18 22:55:44 一般的MIS系统中，都支持所谓的语义查询（概念查询）因为数据都集中保存在数据库中，库表信息为这些数据提供了元数据描述。

而在语义Web中，数据分散在不同站点，每个站点都有其元数据描述（RDF）,而搜索引擎能够提供语义查询服务是因为它可以把这些站点的元数据获取到，通过进一步的处理，如聚合，索引，推理，为用户提供语义查询服务。

所以，语义Web和分布式数据库，或说数据集成，有点类似。

语义Web是想让计算机理解和处理Web上的内容，让计算机能像人一样在网上浏览网页，购物。这是一种美好的Vision，还不是技术。

那怎样让计算机理解网页呢，不是靠NLP技术，而是靠标准的力量。描述Web内容的标准语言－RDF，描述时所用词汇的标准语言－OWL。

]]> <![CDATA[实例, 类, 属性之间的独立性]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=399 orangebench 2004/11/18 22:53:54 这个问题的关键是要理解RDF的一个设计目标[参考: rdf concept and abstract syntax]
Anyone Can Make Statements About Any Resource
To facilitate operation at Internet scale, RDF is an open-world framework that allows anyone to make statements about any resource.
In general, it is not assumed that complete information about any resource is available. RDF does not prevent anyone from making assertions that are nonsensical or inconsistent with other statements, or the world as people see it. Designers of applications that use RDF should be aware of this and may design their applications to tolerate incomplete or inconsistent sources of information.

这个设计目标使得RDF和其他表达语言(ER, UML, FOL)有重大的区别: 非常灵活, 表达能力很强, 以属性为中心, 适合应用于开放的环境, 如Web.

因为实例(instance)一词常用于OO(UML)系统, 为了避免混淆,我们用个体这个词(Individual).

1. 个体和类的独立性

让个体独立于类的目的也是为了表达的灵活性, 因为这样的话, 我们可以在一个地方说这个个体属于类A, 别人在其他地方又可以说这个个体属于类B, 并有一些属性等等. (一个个体属于owl:Thing,而不属于一个具体的类)

2. 类和属性的独立性

参考 RDF primer 5.3 节, wiki上有翻译版.

RDF的以属性为中心的方法的一个好处是：扩展属性的用途使其应用于最初定义时未预知的情形更为容易。

它的缺点是：和OO的以类为中心不同，因此，很难映射到OO系统，难以像XML那样直接生成数据对象。例如，FOAF的Person对象，如果对应到一个Person类的话，无法说明它有哪些属性。因为不同的文档都可以把不同词汇集中的属性定义域定义为Person，即Person类的属性可能有无穷多个。这和OO的思想很不同。

3. 定义一个个体属于某个类
如果我们定义类Course必须有code, description属性, OWL表示如下:
Class(Course complete
Restriction(cardinality code 1)
Restriction(cardinality description 1))

然后我们定义个体 INFS3101 属于类Course, 但并没有说它有个属性code的值是多少…,我现在不能肯定这样的话, 系统是推出三元组 (INFS3101 code :_x) , 即它有这个属性, 还是报错? ?
希望谁补充一下.

4. 判断一个个体是否属于某个类
另外一种情况, 如果要判定一个个体是否属于某个类, 如果类Course如上定义, 这这个个体必须有属性code和description 才能被推理机认为它是属于类Course的.

]]> <![CDATA[RDF数据聚合（RDF Data Aggregation）]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=398 orangebench 2004/11/18 22:51:56 1. 什么是数据聚合
这里说的数据聚合（Data Aggregation）就是指合并来自不同数据源的数据. (@@@todo:我没找到比较正式的定义，希望谁能补充一下), 而数据集成（Data Integration）是指为不同的数据源提供统一的查询视图，其中很重要的一步是“Answering Query using Views ”。数据聚合主要是强调把分散在不同地方关于同一对象的不同说法合并起来，得到此对象的更为完整的信息。另外，数据聚集一般都牵涉到隐私问题，因为把数据合并，并通过一些推理后，可能会得出一些数据发布者并不期望的结论。

2. RDF数据容易聚合

对RDF数据来说，它相对于XML数据的一个最大的优势就是容易聚合，因为RDF有URIref标识资源，数据模型又是基于图的，RDF陈述的主体，客体都可以是URIref，因此，很容易通过URI把RDF数据合并。而XML数据是很难聚合的，根本原因是XML中的数据没有标识符。

3. 基于URI的聚合

如果资源都有URIref标识，聚合的过程就是把关于这个URIref的陈述都合并起来就行了。

例如，在香港某网站上的A.rdf中，说了
  http://foo.com/JackChen  ex:girlfriend  http://foo.com/QiliWu（吴绮莉）
然后在马来西亚某网站上有个B.rdf，说了，
  http://foo.com/QiliWu  ex:hasChild   “小龙女”
RDF聚合软件（Aggregator）就会根据URI http://foo.com/QiliWu,  把这两个陈述合并，得到结论：JackChen的女朋友有个女儿。如果这个Aggregator大胆些的话，有一条规则：?x ex:girlfriend ?y 且 ?y ex:hasChild ?z   ?x ex:hasChild ?z 的话，就会得到JackChen还有个女儿。特大新闻！呵呵，这就是聚合的威力！这当然也侵犯了某人的隐私。

4. 基于IFP的聚合

基于基于URI的聚合的前提是资源都有URIref标识, 并且不同的人对同一个资源使用相同的URIref，这显然是不现实的。例如，同一本书，不同卖书网站给的URIref一般不同。

解决这个问题的一个办法是cross-mapping：即维护一个映射，说明 ex:a owl:sameAs ex:b, 即说明哪些URI标识的对象是相同的，这个方法也比较麻烦，因为这个映射难以维护。何况很多资源还不一定有URIref呢，可能是匿名资源。

另外一个方法是基于IFP属性(InverserFunctionalProperty), 即OWL中的反函数型属性，类似于数据库中的主键。即这个属性的值唯一标识了有个对象。如身份证号码标识了一个公民。如果一个地方都说有个人，它的身份证号码是1001，它的名字是xxx，另外一个地方说说有个人，它的身份证号码是1001，它的年龄是yyy, 虽然没有URIref来标识它，聚合器可以得到把这两条信息合并起来。

对RDF数据的基于IFP的聚合，现在有个特定的名词很流行：Smushing (is an informal term for ’merging data based on knowledge of uniquely identifying properties’.)

基于IFP的聚合减少了对URI的依赖，但同时引入了新问题：即大家要使用同一个关于这个IFP属性的词汇表。

后面的参考文献中有对聚合算法的讨论。这里不多说了。

5. 进一步的讨论
a）数据聚合要考虑不同数据的来源(provenance)以及其上下文(context).
b）可以放宽对属性的限制，即不一定要是IFP属性，更通用的是reference-by-description（Guha’s works, TAP project in Stanford）
c）不同数据源的数据含有矛盾，怎么处理？

参考文献：

Identifying things in FOAF

Finally… a couple of points of further reading on the technical rather than social side of this problem. A couple of years ago I wrote a brief note on aggregation strategies which describes the ’smushing’ problem. A more recent writeup by Matt Biddulph describing his Java implementation is worth a read too, as are many of the documents from the TAP project, which share FOAF’s concern for reference-by-description. Guha and Rob’s overview paper sets out the issues very clearly.

]]> <![CDATA[语义Web的研究方向]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=397 orangebench 2004/11/18 22:45:50

语义Web在RDF和OWL正式成为标准以后，已经进入phase II的阶段，这时新成立了两个work group，分别是RDF数据访问和语义Web最佳实践和发布。从这点可以看出，RDF数据的查询和存储，语义Web的一些设计模式，以及应用经验，是下一步的研究重点。

第二，语义Web体系结构在OWL上层还是logic, proof,trust, 因此，OWL怎么和上层的结合也是热点之一，OWL Rule Language（ORL）就是典型的工作。还是就是语义Web上的信任机制。ISWC2004对Rule，trust有专门的workshop。

第三：RDF和OWL称为标准，并不等于其问题已经完全解决。RDF方面,怎么表达context，provenance是热点，如Named graph是代表工作。他们都是对RDF做一些语法和语义的扩展。OWL方面，对数据类型推理的更多支持，OWL DL推理的实现都还是Open problem。

第四：不同领域的应用：如Semantic Web Service， Agent on Semantic Web，Semantic Blogging, Semantic EMail, Semantic Portal, 基于SW技术的Knowledgement management, EBusiness，Information integration, egovenment 等等。

这方面的进展当然要关注两个大会：ISWC和WWW，以及相关的Workshop，如SWDB。另外，参考XML.com上的一篇文章：WWW2004 Semantic Web Roundup。

总之，语义Web还是个新兴领域，理论和应用都还有很多问题可以做。

]]> <![CDATA[怎么给开发人员讲语义Web]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=396 orangebench 2004/11/18 22:43:58

今天碰到一个朋友，是软件开发人员，向他介绍语义Web，怎样才能让他听懂呢？

1）元数据角度:
软件开发人员一般都熟悉MIS, 所以可以考虑用MIS系统的例子图书管理系统做比较，从元数据的角度出发。

图书管理系统可以按作者，书名，出版社查询，是因为有元数据，即在数据库中，每个数据都有所属的字段名和表名。而Web上只能按关键词查询，是因为网页上的内容没有元数据，例如，网页上一个数字“15”，程序没法知道这个数字是年龄呢，还是个数呢，等等，当然人能够根据上下文判断出来。

语义Web的基本思想就是让网页上的数据都有元数据描述它，说明它的含义，这样计算机程序能够理解网页上的数据，也能更好地为大家服务。如提供类似MIS的那种查询界面，而不是关键词查询。

语义Web提供了一种统一的元数据描述语言，和其所用的词汇定义语言。

2)数据交换角度：

如果不同的图书管理系统要实现互操作，如馆际互借，由于不同系统的数据格式都是私有的，很难实现数据交换和共享。先讨论不同时期的数据交换方式：

a)Pre-Web: 在Web出现以前，要从一台机器访问另一台机器的数据，恐怕只有用软盘了。
b)Web-HTML：Web出现以后，信息可以HTML格式发布在Web上，地球上的其他人都可以分享你的信息。但程序无法理解其中的内容，而且躺在数据库中的数据也无法共享，虽然别人可以用Web界面通过程序对数据库进行查询，但查询的结果还是一个网页。
c)Web-XML: XML出现以后，可以消除不同数据之间的内部格式差异，可以让不同机器的程序之间交换数据（如，Web服务）。但是对N个应用程序，其数据格式虽然都是XML，但可能遵循N种DTD（XML Schema），他们之间的数据交换是N* exp(2)个映射。当然理想的方式大家都遵循一个XML Schema，但这是不现实的。
d)Semantic Web-RDF: RDF的引入屏蔽了格式问题：多个不同格式的XML文档可能表示同一个意思，但可以用同一个RDF文件描述。RDF是一个元数据语言标准，用于表示数据的语义。类似的是：关系数据库系统可以互操作是因为他们基于共同的关系模型，RDF就是Web化的关系数据语言，使得Web上的数据都遵循一个数据模型！

上述的N个应用交换数据问题可以这样解决：每个应用把他的数据导出为RDF数据，需要数据输入的应用则只要写一个RDF数据抽取程序，这个程序对任意输入的RDF文件，在其中查询其需要的数据。当然，一个前提是基于同一个词汇表，如大家都用“Student”这个词表示学生，这个词汇表就是RDF Schema。它和XML Schema的区别在它不是约束XML数据的格式，而是描述RDF数据中词汇的含义。这样，就屏蔽了同一含义不同XML语法的问题。也就是说，RDF Schema比XML Schema更容易为大家达成一致，因为它只关心领域的概念模型，而不关心这个概念模型用XML表示出来的格式（XML Schema可以看成是概念模型的XML表示方式）。

3）Web搜索角度：
目前的网页是让人看的，如查找信息，（如查找人口超过1000万的城市），网上购物，语义Web上的网页是让计算机看的，但并不是通过NLP技术，而是制定一个Web上数据表示语言的规范，用以描述Web内容，且让计算机能够理解。语义Web怎么实现这个查询呢？类似MIS系统的界面。

4）科幻小说角度：
毛向辉对Tim发表在科学美国人杂志上的Semantic Web 的翻译。

http://www.isaacmao.com/works/essays/archives/SementicWeb/sementic_web.htm
—共产主义宣言中文版

或英文版： http://www.scientificamerican.com/print_version.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21

参考：
[1]Business Model for the Semantic Web，http://www.w3.org/DesignIssues/Business
[2]XML+RDF——实现Web数据基于语义的描述 http://www-900.ibm.com/developerWorks/cn/xml/x-xmlrdf/index.shtml

今天碰到一个朋友，是软件开发人员，向他介绍语义Web，怎样才能让他听懂呢？

1）元数据角度:
软件开发人员一般都熟悉MIS, 所以可以考虑用MIS系统的例子图书管理系统做比较，从元数据的角度出发。

语义Web提供了一种统一的元数据描述语言，和其所用的词汇定义语言。

2)数据交换角度：

4）科幻小说角度：
毛向辉对Tim发表在科学美国人杂志上的Semantic Web 的翻译。

http://www.isaacmao.com/works/essays/archives/SementicWeb/sementic_web.htm
—共产主义宣言中文版

或英文版： http://www.scientificamerican.com/print_version.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21

]]> <![CDATA[对rdfs:domain的理解以及问题]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=395 orangebench 2004/11/18 22:36:58

在RDF Schema规范中说：

rdfs:domain is used to state that any resource that has a given property is an instance of one or more classes.

A triple of the form: P rdfs:domain C
states that the resources denoted by the subjects of triples whose predicate is P are instances of the class C.

意思是说：如果一个个体有属性P，则它是类C的实例。这和RDF语义文档说的一致：

If is in IEXT(I(rdfs:domain)) and is in IEXT(x) then u is in ICEXT(y).

要注意的是：是if…then…而不是if and Only if。下面讨论它的含义。

1）和数学上函数的定义域的区别：
我们知道数学上的函数的定义域中的元素，都有一个映射（把函数看成属性的话，即定义域中的元素都有这个属性）。一个属性P的rdfs:domain（定义域）是类C，那么C的实例都有这个属性吗？答案是否定的。Web是开放的世界，说一个属性的定义域是某个类，并不是说这个类中的所有元素都有这个属性。而是说，如果某个个体有这个属性，那它必然属于这个类。

2）RDFS是用来推理的，不是用来验证的。
例如，
:x rdf:type :Person
:carType rdfs:domain :Car .
:x :carType :Saloon .

如果我们知道个体:x的类型是Person， carType这个属性的定义域是Car，:x有个carType属性，验证程序能说这个RDF文档有错误吗？不能，因为我们只能推出:x还有个类型是Car。在没有说明类Car和类Person是disjoint以前，这个RDF文档是OK的。

]]> <![CDATA[数据演化史和语义Web的应用]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=382 orangebench 2004/11/18 17:08:08 http://blog.w3china.org/~orangebench/

语义Web的基本技术是：统一的元数据语言（RDF），数据具有语义，数据是Web化的，这种数据可以称为“Smart data”。

从数据的演化史看，早期的数据依附于程序（过程性编程），后来数据的封装，不再依附于程序，但是封闭在应用中的（OO编程），现在的开放数据（XML，可以在应用中间交换，语法互操作性），下一步就是智能数据（RDF＋ontology，开放性，语义互操作性）。所以，语义Web技术不是一种很表面化的应用技术，而是对整个软件发展有革命性的意义。它会从根本上改变程序的设计和编写模式。正如OO对过程式编程一样。

因为RDF是在数据模型这一层，对传统的关系数据模型，和半结构数据模型（XML）作了重大改进，有人称为“Smart data”，即智能数据。

我的观点是只要有数据（文档）处理的地方，就有RDF的用武之地。所以，大部分的软件都可以利用RDF技术。

这些是我的“狂言”，希望它们是对的。

]]> <![CDATA[ODE-SWS: 语义Web服务开发环境]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=381 orangebench 2004/11/18 17:06:05 Asuncion Gomez-Perez ( Universidad Politecnica de Madrid) and Manuel Lama (Universidad de Santiago de Compostela) annnounced the first release of ODE-SWS, a Semantic Web Service development environment, which has been developed in the context of the EU project Esperonto. ]]> <![CDATA[语义Web的爬虫：Crawling the Semantic Web]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=380 orangebench 2004/11/18 17:03:12 Crawling the Semantic Web discusses some concerns of the Semantic Way of searching information and ontologies.

语义Web上的爬虫和目前Web的爬虫有什么区别呢？
1）RDF世界的链接方式是rdfs:seeAlso,和它的子属性，如rdfs:isDefinedBy
2) RDF 可能嵌在HTML中，或者XML中，而这都没有标准，因此RDF数据的获取较为困难。
3) RDF数据具有语义，RDF数据的聚集需要RDF Schema信息。
如：IFP；owl:sameAs; 函数型属性（客体相同）
4）provenance信息，不协调信息的处理
5）需要利用RDF服务器 Joseki

]]> <![CDATA[OWL与RDF(S)]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=374 orangebench 2004/11/18 11:49:37 RDF(S)的表达能力很弱：在RDF Schema中没有任何构词，不能构造新的类和属性，也不能声明属性的特征(传递性、对称性);但同时，它的表达能力又很强：
RDF认为所有的一切都是资源，包括资源之间的属性也是资源，描述资源的陈述也是资源，在RDF Schema中，类也可以是实例。这使得RDF需要非经典的模型论语义。

RDF(S)的丰富而自由的表述能力导致难以扩展RDF Schema的表达能力，为了克服这个困难，OWL分两种类型的版本：基于描述逻辑的OWL DL和与RDF(S)完全兼容的OWL Full版。OWL DL用经典逻辑学中的语义，即：(1)要求个体、类、属性是三个不交的集合；(2)所有的个体视为资源，并直接将类和属性分别视为资源的集合和资源-资源对的集合。这样，只有一部分RDF文档是合法的OWL DL文档。而OWL Full则可视为不受限制的RDF(S)的扩展，句法仍使用RDF三元组，并基于非经典的模型论对RDF语义做OWL的语义扩展，它是完全兼容RDF(S)的。由于OWL
Full对于RDF图上的匿名结点、环路结构等这些超出描述逻辑常规的语法并未做任何限制，同时也没约束属性的传递性和数量限定等，因此OWL Full是不可判定的。

]]> <![CDATA[RDF storage system如何支持OWL的推理(2)]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=373 orangebench 2004/11/18 11:36:59

支持OWL推理的主要方法有：

1)Rule based approach： Jena2

把rule引擎建立在数据库中，但Jena2的rule引擎好像只能处理内存中的RDF模型。
另外基于rule的方法的推理是不完全的。

2)DL Reasoner+RDB: Instance Store ； DLDB[1]

instance store=Racer+RDB; 只支持role-free的ABox
DLDB= FaCT+RDB: 只对类和属性用数据库的视图做缓存，具体如何支持OWL推理，未知。

3)RDB: IBM的snobase

用数据库的trigger实现OWL推理，能实现多大程度，效率如何，理论结果等未知。但是：

“Even certain types of inference rules can be implemented in RDBMSs. As described by Ullman [2, Chapter 3], for any set of safe, non-recursive datalog rules with stratified negation, there exists an expression in relational algebra that computes a relation for each predicate in the set of rules. Thus database views could be used to compute each predicate. Therefore, some but not all, of the rules could be implemented using views. Depending on the RDBMS, some recursive predicates may even be computable. For example, some commercial RDBMSs include operators to compute the transitive closure of a relation (e.g., the CONNECT WITH option in the Oracle SELECT operator).”

4)Deductive database：XSB

我看到用deductive database，如XSB可以支持部分OWL Lite的推理，因为一个OWL Lite的子集可以用Datalog或prolog完全刻画（如：description logic program[3]）, 但不知道deductive database的效率如何，不明白这项在90年代初就比较成熟的技术为什么没有被工业界采纳。

也许snobase方法的理论基础在deductive database。

5)Native XML database
“对于"以数据为中心"的XML文档，XED（XML Enabled Database）可以方便地将其中的数据抽取，存储在传统数据库中，但对于 “以文档为中心"的XML文档则显得力不从心了。NXD由于无需在两种模型之间转换数据，因此在处理"以文档为中心"的XML文档就很有优势。”

这样看来，RDF数据当然可以存在XML数据库中，但XED更为合适些。但XML数据库如何支持OWL的推理，还是个难题。

总之，这是个很困难的问题，也许instance store是条不错的路子。

6)approximate logical reasoning techniques; Distribution and parallelization of inference[4]

[1] Z. Pan and J. Heflin. DLDB: Extending Relational Databases to Support Semantic Web Queries. Technical Report LU-CSE-04-006, Dept. of Computer Science and Engineering, Lehigh University, 2004.

[2] J. Ullman. Principles of Database and Knowledge-Base Systems, volume 1. Computer Science Press, Rockville, MD, 1988.

[3] Volz, Raphael, doctor thesis: Web Ontology Reasoning with Logic Databases. 2004

[4]HolgerWache, D2.1.1: Survey of Scalability Techniques for Reasoning with Ontologies, Knowledge Web Delievables. http://www.cs.vu.nl/~holger/KnowledgeWeb/Deliverables/D2.1.1/D2.1.1-StateOfTheArt.pdf

]]> <![CDATA[针对XMLer的语义Web介绍]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=267 orangebench 2004/11/14 16:04:51

A No-nonsense Guide to Semantic Web Specs for XML People [Part II]

part 1：http://www.betaversion.org/~stefano/linotype/news/57/

提到了XML和RDF的区别：
Now let us confront this with the above RDF model:

1。the XML model needs a root element and since this looks like an addressbook, the person doing the schema decided to use such an element for inclusion. It could have been anything really, but the point here is that if we take those elements and move them in another context, we need to rewrite the XQuery or the XPaths that lead to them, unless, of course, we started our XPaths with //.
2。the XML model is able to identify a particular element inside the document space, but that ID is not guaranteed to be unique across documents (the impact of this could be reduced if the practice of using URIs for ids was more widespread but it’s really not the case, also because very few XML people care about absolute identification of elements, considering XPaths a much more flexible way to address parts of a document).
3。the XML model does not, on its own, have a native distinction between URIs and Literals. This means that “Bob” and “mailto:bob@work2.example” are treated equivalently by the XML parser, unlike in RDF.
4。last, but not least, the XML model does not make the relationships between elements explicit and uniquely addressable.

最后，XML中元素嵌套的Implicit semantics导致无法自动把XML转成RDF。

if this implicit semantic information is somehow made available, it is entirely possible to transform XML into RDF, for example, thru the use of an XSLT stylesheet. As I showed above, this stylesheet cannot be a general one-size-fits-all one, but must be tuned for the specific schema and/or for the specific requirements that the data consumer might have (for example, what data should be given a literal and what should be given a URI). Here is a paper that part of our group wrote to describe what we have done in the migration of XML data into RDF.

So, in short: should you care about RDF? For now, you are safe if you care about keeping your own data valid and coherent. The semantic web is trying hard to unlock the chicken-egg problem of “no killer app until data, no data until killer app” and automatic trasnformation of existing data into RDF is what I think is going to unlock it. Also, the fact that we are building tools that you can now use to operate on your RDF data, for example to browse and search it, will show you what you can gain by making those relationships explicit.

]]> <![CDATA[RDF storage system如何支持OWL的推理(1)]]> http://blogger.org.cn/blog/more.asp?name=orangebench&id=264 orangebench 2004/11/14 15:46:24

Sesame 目前只支持OWL Tiny。Jena支持OWL Lite, 但效率堪忧，无法支持海量数据。

为了支持OWL的推理，目前的工作有： Z. Pan[2]提出了用视图(view)保存所有类的实例，还有Snobase用trigger的方法，当然还可以考虑用deductive database，有一部分OWL（在OWL tiny和owl lite之间）可以转换到它支持的datalog语言，但效率好像还是不太理想。

暂时不知道在Native XML Database中，是否能更好地支持这种推理。当然把RDF存在XML数据库中，并没有太大问题。

[1]SWAD-Europe Deliverable 3.11: Developer Workshop Report 4 – Workshop on Semantic Web Storage and Retrieval
http://www.w3.org/2001/sw/Europe/reports/dev_workshop_report_4/

[2] Z. Pan and J. Heflin. DLDB: Extending Relational Databases to Support Semantic Web Queries.
Technical Report LU-CSE-04-006, Dept. of Computer Science and Engineering, Lehigh University, 2004.
http://km.aifb.uni-karlsruhe.de/ws/psss03/proceedings/pan-et-al.pdf

]]>