XML简明教程
翻译:褚健
1 处理XML元素
2 处理XML文档
3 处理XML数据岛
4 类似于文档对象访问一个XML数据岛
5 访问XML对象模式
6 在XML文档中使用数据类型
7 访问经过类型定义的XML值
8 XML Schema
处理XML元素
XML是一种标识语言。一个XML元素是由开始标签、结束标签以及标签之间的数据构成的。开始和结束标签用来描述标签之间的数据。标签之间的数据被认为是元素的值。例如,在下面一个XML元素的例子中,元素“director”的值是“Éd Wood”。
<director>Ed Wood</director>
元素名(“director”)允许你把“Ed Wood”这个值标出来,这样你就能把这些数据同另外类似的数据区分开来。例如,有可能另一个元素的值也是“Ed Wood”。
<actor>Ed Wood</actor>
由于每个元素都有不同的标签名,所以你能很容易把上面两个元素的值区别开来。如果没有办法把数据标出来,两个有同样值的元素会混淆起来。
返回
处理XML文档
一个基本的XML文档就是一个XML元素,它可以嵌套XML元素。例如,下面的XML元素“books”就是一个有效的XML文档。
<books>
<book isbn="0345374827">
<title>The Great Shark Hunt</title>
<author>Hunter S. Thompson</author>
</book>
</books>
构建一个基本的XML文档需要记住关键的三点:所有元素必须有结束标签;所有元素必须正确的嵌套(不允许交迭元素);所有特征值必须加引号。
返回
处理XML数据岛
什么是XML数据岛?
数据岛是指存在于HTML页面中的XML代码。数据岛允许你在HTML页面中集成XML,对XML编写脚本,不需要通过脚本或<OBJECT>标签读取XML。几乎所有能够存在于一个结构完整的XML文档中的东西都能存在于一个数据岛中。包括处理指示、DOCTYPE声明和内部子集。(注意,编码串不能放在数据岛中。)
数据岛的XML可以是内嵌的:
<XML ID="XMLID">
<customer>
<name>Herbert Hanley</name>
<custID>81422</custID>
</customer>
</XML>
或者在XML标签中通过SRC属性引用:
<XML ID="XMLID" SRC="customer.xml"></XML>
处理指导
简单处理XML。把XML放到一个XML元素中,并且给这个XML元素一个ID。
返回
类似于文档对象访问一个XML数据岛
什么是XML文档对象?
XML文档对象是指一个拥有属性和方法的对象,你可以利用这些属性和方法访问和处理XML文档。当一个XML数据岛被读取和解析时,就会创建一个XML文档对象。
怎样访问XML数据岛?
下面是一个带有数据岛的HTML页面。数据岛在<XML>元素中。
<HTML>
<HEAD>
<TITLE>HTML with XML Data Island</TITLE>
</HEAD>
<BODY>
<P>Within thisdo
cument is an XML data island.</P>
<XML ID="resortXML">
<resorts>
<resort>Calinda Cabo Baja</resort>
<resort>Na Balam Resort</resort>
</resorts>
</XML>
</BODY>
</HTML>
你能通过ID属性访问数据岛,“resortXML”成为文档对象的名称。你能利用这个对象的方法和属性访问它的根节点和孩子节点。在上面的例子中,根节点是<resorts>,孩子节点是<resort>。下面列出了一些属性和方法,可用来访问XML文档的节点。
XMLDocument:返回对XML文档对象模式的引用。
documentElement:返回XML文档的根节点。
childNodes:返回节点的孩子节点目录。
item:通过索引访问目录中的个别节点。索引值是从0开始的,所以item(0)返回第一个节点。
text:返回节点的内容。
下面的代码访问第二个孩子节点<resort>并返回它的内容“Na Balam Resort”。
resortXML.XMLDocument.documentElement.childNodes.item(1).text
返回
访问XML对象模式
什么是XML对象模式?
微软IE5中的XML解析器揭示了XML对象模式,允许你访问和处理XML文档中的节点。当解析器读取并且解析一个XML文档时,它将建立一棵节点树,每个节点都能通过脚本来访问。
例如,如果解析器读取并且解析下面的XML文档,它将创建一个能通过文档ID值(xmlDocument)被引用的文档对象,一个表现根节点的对象和一个表现树中其余节点的对象。
怎样访问树中的节点?
请试着在下面的数据岛中找出访问每个节点所需要的代码。
<XML ID="xmlDocument">
<class>
<student studentID="13429">
<name>Jane Smith</name>
<GPA>3.8</GPA>
</student>
</class>
</XML>
返回
在XML文档中使用数据类型
什么是XML文档中的数据类型?
微软提供的XML Schema版本支持数据类型。作为一项预先展示的技术,它对于那些想要用schema和丰富的数据类型构造原型和增长经验的开发者来说是很有用的。微软积极参与制定逐步形成的W3C的XML Schema标准。开发者需要注意这个版本的XML Schema是要变化的。在微软IE5当中,元素值能被指定数据类型。数据类型能够通过XML Schema或根据实际情况被指定。以前,XML元素值只有一种类型(字符串),所以开发者要处理XML文档必须花时间转换元素值。键入你的XML数据,解析器会进行数据类型转换。另外,由于元素值有特定的数据类型,所以元素值的改变也要符合数据类型。这给你提供了一种确认使用者输入的方法。
如何指定XML元素值的类型?
通过XML Schema指定元素值的类型,你必须在XML Schema的开头声明数据类型的名域和schema的名域。
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
dt前缀用来在schema中表示指定数据类型的类型属性。
<ElementType name="NUMBER" content="textOnly" dt:type="number"/>
通过dt属性指定元素类型,你必须在XML文档的开头声明数据类型的名域。
<NUMBERS xmlns:dt="urn:schemas-microsoft-com:datatypes">
dt前缀用来给一个元素的例子指定数据类型。
<NUMBERS xmlns:dt="urn:schemas-microsoft-com:datatypes">
<NUMBER dt:dt="number">44533</NUMBER>
</NUMBERS>
返回
访问经过类型定义的XML值
什么是经过类型定义的XML值?
经过类型定义的XML值是指在XML Schema中被指定数据类型的元素值。XML解析器使用schema来确认文档。
微软提供的XML Schema版本支持数据类型。作为一项预先展示的技术,它对于那些想要用schema和丰富的数据类型构造原型和增长经验的开发者来说是很有用的。微软积极参与制定逐步形成的W3C的XML schema标准。开发者需要注意这个版本的XML Schema是要变化的。
除了拥有字符串值以外,每个XML元素也可以有经过类型定义的值。例如下面的XML元素:
<date>1970-09-30</date>
值可以是“1970-09-30”,也可以是经过类型定义的“Web Sep 30 00:00:00 PDT 1970.”
如何访问经过类型定义的XML值?
可以通过XML对象模式访问经过类型定义的数据。就好象你能根据元素节点的节点值性质找到元素值一样,你能根据元素本身的节点类型值找到经过类型定义的元素值。
例如,考虑一下下面的XML文档:
<?xml version="1.0"?>
<weather xmlns="x-schema:weatherSchema.xml">
<date>1970-09-30</date>
<degrees>67.5</degrees>
</weather>
“weatherSchema.xml”是下面这个文件:
<Schema xmlns="urn:schemas-microsoft-com:xml-data"xmlns:dt="urn:schemas-microsoft-com:datatypes">
<ElementType name="date" content="textOnly" dt:type="date"/>
<ElementType name="degrees" content="textOnly" dt:type="float"/>
<ElementType name="weather" content="eltOnly"/>
<element type="date"/>
<element type="degrees"/>
</ElementType>
</Schema>
如果你要处理“degrees”这个元素(xmlDocument.documentElement.childNodes.item(1)),你可以根据节点类型值来访问它的值(xmlDocument.documentElement.childNodes.item(1).nodeTypedValue)。
返回
XML Schema
什么是XML Schema?
W3C XML Activity Page 声明:“尽管XML1.0提供了一种机制,文档类型定义(DTD)给标记的使用加了限制,但是对XML文档的自动处理需要更严格更全面的工具。需要主要体现在对应用软件各部分的结合、文档结构、属性和数据类型等等的约束。W3C XML Schema工作组正忙于定义XML文档的结构、内容和语义。”
微软IE5支持XML Schema,这项预先展示的技术是建立在递交给W3C的XML-Data草案的基础上的。XML Schema可被认为是XML-Data草案的子集,它符合文档内容描述(DCD)提议的特点。
IE5中的XML解析器能够根据文档类型定义(DTD)或XML Schema解析XML文档。XML Schema是用来声明内容模式的基于XML的语法。它有DTD所有的功能,并且还有其他的功能如数据类型定义。
如何建立XML Schema?
请在下面的XML文档中找一找每个节点的schema声明。
<class xmlns="x-schema:classSchema.xml">
<student studentID="13429">
<name>Jane Smith</name>
<GPA>3.8</GPA>
</student>
</class>
你会注意到在上面文档中默认的名域是“x-schema:classSchema.xml”。这告诉解析器根据URL(“classSchema.xml”)上的schema(x-schema)来解析整个文档。
下面是上面那个文档的完整的schema。注意schema的根元素中的名域声明。第一个(xmlns=”urn:schemas-microsoft-com:xml-data”)表明这个XML文档是一个XML Schema。第二个(xmlns:dt=”urn:schemas-microsoft-com:datatypes”)允许schema处理者在“ElementType”和“AttributeType”声明中的“type”属性前加“dt”前缀来说明元素的类型和内容的特征。
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<AttributeType name='studentID' dt:type='string' required='yes'/>
<ElementType name='name' content='textOnly'>
<ElementType name='GPA' content='textOnly' dt:type='float'/>
<ElementType name='student' content='mixed'>
<attribute type='studentID'/>
<element type='name'/>
<element type='GPA'/>
</ElementType>
<ElementType name='class' content='eltOnly'>
<element type='student'/>
</ElementType>
</Schema>
schema用“Schema”元素开头,“Schema”元素包括schema名域的声明,在本例中还包括数据类型名域的声明。Schema的内容以“AttributeType”和“ElementType”的声明开头。
<AttributeType name='studentID' dt:type='string' required='yes'/>
<ElementType name='name' content='textOnly'><ElementType name='GPA' content='textOnly' dt:type='float'/>
这些声明接下来的是刚声明过元素的父亲元素的“ElementType”声明。
<ElementType name='student' content='mixed'>
<attribute type='studentID'/>
<element type='name'/>
<element type='GPA'/>
</ElementType>
这个过程继续下去,直到所有元素都已经声明了。
不同于DTDs,XML Schema允许有一个开放的内容模式,你可以进行定义数据类型、使用默认值等等操作而不必限定内容。
在下面的schema中,“GPA”元素的类型被定义并有一个默认值,但在“student”元素中没有其他节点被声明。
<Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes">
<AttributeType name="scale" default="4.0"/>
<ElementType name="GPA" content="textOnly" dt:type="float">
<attribute type="scale"/>
</ElementType>
<AttributeType name="studentID"/>
<ElementType name="student" content="eltOnly" model="open" order="many">
<attribute type="studentID"/>
<element type="GPA"/>
</ElementType>
</Schema>
上面的schema允许你只确认你所关心的区域。这使你对文档有更多的控制,并允许你使用schema提供的一些特性而不必严格确认。
一些说明:
“ElementType”和“AttributeType”声明必须放在“attribute”和“element”内容声明之前。例如,在上面的schema中,“GPA”元素的“ElementType”声明必须放在“student”元素的“ElementType”声明之前。
“order”属性的默认值是建立在“content”属性的值上的。当content值为“eltOnly”时,order默认值是“seq”。当content值为“mixed”时,order默认值是“many”。
XML 结构
翻译:褚健
XML语言,XML名域和DOM是W3C建议的,这是W3C发展过程中决定性的一步。由于它们已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。
使用可升级的三层模型,XML可以从存在的数据中产生出来。使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤.我们看下图的总结:
数据结构,名域
XML名域允许开发人员在可识别的情况下定义元素的名称,以避免同名元素间产生冲突。在一个文档中使用的元素,比如购买单,可以在不同的schemas中被定义。名域保证元素名称不会产生冲突,并且阐明了各个元素的来源,但是不能决定如何处理元素。解析器必须知道每个元素的意义和如何处理它们。
来源于不同名域中的标记可以混合在一起,这是从不同来源过来的数据所必须具备的。有了名域,元素既可以存在于相同的以XML为基础的文档中,也可以存在于不同的schemas中,说明唯一的语义。例如,在书店的购买单上,一个”title”元素可以包含一个书名,另一个”title”元素可以包含作者名。
W3C已经发布了XML的名域,允许元素服务于URI。即使不同的作者选择同样的元素名称,也不会辨识不清。随着任何人都能发布自己的主页或者浏览他人的主页,名域的功能允许使用者定义个人的术语字典或者使用公布的公用名域。
<orders xmlns
erson="http://www.schemas.org/people"
xmlns:dsig="http://dsig.org">
<order>
<sold-to>
<person:name>
<person:last-name>Layman</person:last-name>
<person:first-name>Andrew</person:first-name>
</person:name>
</sold-to>
<sold-on>1997-03-17</sold-on>
<dsig:digital-signature>1234567890</dsig:digital-signature>
</order>
</orders>
这段编码告诉读者如果一个元素是以"dsig"打头,它的意义是由http://www.dsig.org/的名域所定义的。同样,以”person”打头的元素的意义是由http://www.schemas.org/people的名域所定义的。
名域保证元素名称不会冲突,也阐明了元素是由谁定义的。它并不给出如何处理元素的指令。读者仍然需要知道元素的意义,并且决定如何处理它们。名域只是针对元素名称。处理人员能够定义元素的数据类型和内容的格式。可以使用数据类型名域的dt属性来达到这一目的。
<sold-on dt:dt="date"
xmlns:dt="urn:schemas-microsoft-com:datatypes">1997-03-17</sold-on>
在这里,"data"说明"sold-on"元素的内容是按照标准格式的,这种格式是由数据类型名域说明的。有了元素名称,处理人员终于可以设计他们自己的数据类型,也能使用共享的类型。微软正同W3C一起定义一套标准类型,并且已经在IE5中提供部分支持XML Schema的第一份数据类型清单。
数据发送,处理
由于XML是开放的、基于文本的格式,它可以通过HTTP像HTML一样传送.桌面上的数据可以用DOM处理.代理商将支持XML更新功能,使得中间层或数据服务器上数据的变化可以传递给客户,反之亦然.因此,代理商能够从客户端得到更新的数据,并把数据传送到储存服务器上.
解析XML
IE5中的XML解析器能够读入一串XML数据,经过处理,产生一棵结构树,并且使用DOM把所有数据元素作为对象。解析器用CSS或XSL样式表显示数据,或者用脚本把数据进行进一步的处理,或者把数据移交给另外的应用软件或对象进行进一步的处理。DOM用扩展方式支持名域、数据类型、查询和XSL转化。
使用文档对象模式(DOM)处理和编辑数据
DOM实际上是一个应用编程接口(API),用来定义一种标准方法。通过这种方法,开发人员能够处理XML结构树的元素。对象模式控制着使用者如何同结构树交流,并且把所有树的元素作为对象暴露出来。
用HTML显示XML数据
XML文档自身不能决定如何显示信息。XML数据只包含事实。HTML是一个理想的显示语言。举个例子来说,网上书店的店员可以访问主页寻找订单。在后端,个人数据记录是用XML表示的。但是,在前端,它们是用HTML表示的。为了构造这个主页,Web服务器和Web浏览器都需要把XML数据记录转变为用HTML来表示。
数据捆绑和样式表可以用来把XML数据组织成形象化的表达形式,并加上交互功能。数据捆绑是动态HTML(DHTML)的一个方面,它把单独的数据从信息源(例如XML文档)移动到HTML显示上来,允许把HTML作为显示XML数据的模块。微软把XML数据源对象(XML DSO)作为IE5的一部分。XML DSO能够在XML数据岛基础上被调用。
XSL(可扩展类型语言)能够进一步加强这一过程。一个XSL样式表包括如何从XML文档中拿出信息以及如何把它转变为另一种格式的指令。XML转变为另一种格式,比如HTML,采用的是一种公布了的方法,这比采用脚本编写简单而且容易理解。另外,XSL把XML作为它的语法,使XML的编写者不用去掌握另外的标识语言。
CSS仍然被应用于结构简单的XML数据,并且也很有用。但是,CSS不提供与数据源结构不同的数据显示结构。使用XSL,可以产生与原来的XML数据结构完全不同的表达结构。如下所示。
XSL提供内容和表现形式的语义和结构独立性。
增加HTML
给HTML页增加语义信息并不容易。很多程序曾经试图用一些非标准的方法来解决这一问题,比如在HTML注释中隐藏数据。但是,这样的注释是很难使用的,对象模式并不能理解它们。
为了解决这一问题,W3C定义了一个格式,用来把基于XML的数据放到HTML页中。通过使用数据岛(data islands),扩展HTML允许很大范围的应用软件使用HTML作为主要文档和显示格式,并且使用这些文档中内含的XML保存数据。
一个HTML页包含有关这一页主题的特殊数据。例如,如果这一页显示一位作者最近一部小说的广告,这一页也包括有关这本书的XML数据,比如ISBN序号、出版者或者是价格。这些信息显不显示并不重要,重要的是这些信息作为数据可被获得和理解。
转换和查询XML
随着XML作为在Web上交换数据的一种标准方式的出现,不可避免地种种需要就会产生,比如查询XML、制作压缩数据、对数据分类和过滤以及转换XML语法。XSL和XSL模式语言提供了满足这些需要的一种方法。
XSL模式是简明的语法用来识别XML文档的节点,建立在节点类型、名称、内容和与树中其他节点相关的前后联系的基础上。
XSL提供了一种语法,使XSL模式查询的结果与模板有关,使XML源文档中的数据具体化。XML语法可以输出,以供分类和过滤,或者把一个schema中的数据转化到另一个schema中去。
W3C正考虑开发出更强大的查询语言,但开发小组还没有建立。
设置字符和编码
XML中的信息都是用统一的字符编码标准编写的。包括元素的内容和名称。因此XML支持所有的国际字符的表现形式。
统一的字符编码标准可以直接转换为16位字符,但更通常的是把它转换为方便使用的或者是简化的某种语言的编码。XML支持广泛的编码,只要一个文档中使用同一种编码。
空格符
不同于HTML在多数情况下忽略空格符,XML是针对数据的,因此通过xml:space属性可以保留空格。例如,下面两种情况是不同的:
<title xml:space="preserve"><composer>Tchaikovsky</composer>'s
First Piano Concerto</title>
<title xml:space="preserve">
<composer>Tchaikovsky</composer>'s
First
Piano Concerto
</title>
在IE5中xml:space="default"这一取值在标记间加入了一些装饰用的空格符。