|
|
|
[XML初学进阶]XML(12) 网上资源
|
|
2.1 什么是“形式良好的”XML文件
“HTML有大约三百个不同的标记,大多数标记又有相当多的标签, 每个标签还有几种、十几种不同的取值。乍一想起来,XML比HTML更加强大,所以你可能觉得它会有更多的标记。其实不然,XML预定义的标记数目近乎为0。
——Elliotte Rusty Harold”
(注:其实HTML中只有90多个标记,Harold有点夸张了。)
读过前面一章后,相信大家对这段话都会有一个深刻的理解。恰如我们前面所讲的,XML是一个源置标语言,可以看作是用来产生置标语言的工具。因此,XML并没有预定义一个特定的标记集,而是描述了一个用来定义标记集的方法。当我们用这个方法规定好一个标记集,并根据这些规定填入文本内容后,这些标记就和纯文本一起构成了一个XML文件。
从一开始起,我们就一直在讲XML“文件”如何如何,不过需要指出,使用“文件”这个词可能会造成误导。XML标记语言除了能够放在通常意义的文件中以外,还能够按照数据流、数据库结果集、以及由应用程序动态产生的结果而进行传送。因此,我们所说的XML文件实际上是广义的文件,更准确的叫法应该是一个“数据对象”,但是为了简便起见,我们仍称它为“文件”。
尽管XML允许你“随心所欲”地建立你自己的标记集(后面一章我们会讲到建立标记集所要遵循的种种规则),一旦这个标记集建立起来,你就不能再那么“随心所欲”地写你的XML文件了,你必须严格遵守XML的语法和你自己的标记集的规定。当一个XML文件呈交给一个XML处理程序时,为了保证处理程序能够很好地理解它,XML必须遵守XML的语法标准。最起码的,这个XML文件应该是“形式良好的”(well-formed)。否则,处理程序将会不知所措,无法再进一步进行下去,这时你能得到的全部结果,也只不过是一个“致命错误”的抱怨而已。
在XML中,“形式良好”有着明确的标准,即是要遵守XML1.0规范中的语法规则。无论是从物理结构上讲,还是从逻辑结构上讲,XML都必须符合规范,才能被正确解释处理。
可能刚刚看到这里,你就已经被吓坏了。干嘛要那么多语法限制,现在不是都讲究“鲁棒性”吗?别忘了XML制定的本意。XML创建之初的目标就是希望XML文件既容易被人阅读,又容易被机器理解。为人设计一个可读的语言尚且容易,因为经过多年的磨练,人们似乎擅于理解一个不严格遵守文法的,甚至有歧义的XML文件。但机器可没有那么智能化,如果文法不是很明确,或者一个文件没有遵守文法,那机器就丈二和尚——摸不着头脑了。所以,确保你的文件是“形式良好的”,这是一个最低标准,符合了这个标准,就能保证连最笨的机器也能阅读你的XML文件了。
在这一章里,我们就来详细讲述这些最低标准。语法中的条条框框总显得枯燥乏味,不过正是它们保证了XML严密的条理性、逻辑性和良好的结构性,XML的优点也正是依靠它们体现出来的。
| |
|
|
|