在.NET Framework中轻松处理XML数据(三) chyich(翻译)
关键字 XML,.NET Framework
出处 http://msdn.microsoft.com/msdnmag/issues/03/05/Real-WorldXML/default.aspx
带验证的阅读器
XmlValidatingReader类实现了XmlReader类,它提供了支持多种类型的XML验证:DTD,XML-Data Reduced(XDR)架构,以及XSD,DTD和XSD都是W3C官方推荐的。而XDR是Microsoft早期用于处理XML构架的一种格式。
你可以用XmlVlidatingReader类去验证XML文档和XML片断。XmlValidatingReader类工作在XML阅读器上面---是一个典型的XMLTextReader类实例。XMLTextReade用于读取文档的节点,但是XmlVlidatingReader依据需要的验证类型去验证每一个XML块。
XmlVlidatingReader类只实现了非常小的XML阅读器必备的一个功能子集。该类总是工作在一个已存在的XML阅读器上面,它监视方法和属性。如果你深入该类的构造函数,你会发现它很明显的依靠一个已存在的文本阅读器。带验证的XML阅读器不能直接的从一个文件或一个URL序列化。该类的构造函数列表如下:
public XmlValidatingReader(XmlReader);
public XmlValidatingReader(Stream, XmlNodeType, XmlParserContext);
public XmlValidatingReader(string, XmlNodeType, XmlParserContext);
带验证的XML阅读器能分析任何的XML片断,XML片断通过一个string或者一个stream提供,也可以分析任何阅读器提供的XML文档。
XmlVlidatingReader类中有重大改变的方法非常少(相对其它reader类来说),另外对 Read,它有Skip和ReadTypedValue方法。Skip方法跳过当前节点所有的子节点(你不能跳过不良格式的XML文本,它是相当有用的算法),Skip方法也验证被跳过的内容。ReadTypedValue方法返回指定 XML 架构 (XSD) 类型对应的CLR类型。如果该方法找到了XSD类型对应的CLR类型,则返回CLR的类型名。如果找不到,则把该节点的值作为一个字符串值返回。
带验证的XML阅读器正如其名,它是一个基于节点的阅读器,它验证当前节点的结构是否符合当前的schema。验证是增量式的;它没有方法返回表示文档是否有效的布尔值。通常你都是用Read方法去读输入的XML文档。实际上,你也可以用带验证的阅读器去读XML文档。在每一步中,当前被访问的节点的结构是否与指定的schema符合,如果不符合,抛出一个异常。图四是一个控制台应用程序,它有一个要输入文件名的命令行,最后输出验证结果。
Figure 4 Console App
using System;
using System.Xml;
using System.Xml.Schema;
class MyXmlValidApp
{
public MyXmlValidApp(String fileName)
{
try {
Validate(fileName);
}
catch (Exception e) {
Console.WriteLine("Error:/t{0}", e.Message);
Console.WriteLine("Exception raised: {0}",
e.GetType().ToString());
}
}
private void Validate(String fileName)
{
XmlTextReader xtr = new XmlTextReader(fileName);
XmlValidatingReader vreader = new XmlValidatingReader(xtr);
vreader.ValidationType = ValidationType.Auto;
vreader.ValidationEventHandler += new
ValidationEventHandler(this.ValidationEventHandle);
vreader.Read();
vreader.MoveToContent();
while (vreader.Read()) {}
xtr.Close();
vreader.Close();
}
public void ValidationEventHandle(Object sender,
ValidationEventArgs args)
{
Console.Write("Validation error: " + args.Message + "/r/n");
}
public static void Main(String[] args)
{
MyXmlValidApp o = new MyXmlValidApp(args[0]);
return;
}
}
ValidationType属性设置验证的类型,它可以是
TD, XSD, XDR或者none。如果没有指定验证的类型(用ValidationType.Auto选项),阅读器将自动的根据文档用最适合的验证类型。在验证过程中出现任何错误,都会触发ValidationEventHandler事件。如果未提供事件ValidationEventHandler事件处理程序,则抛出一个XML异常。定义ValidationEventHandler事件处理程序是用于捕捉任何在XML源文件中存在错误而引发XML异常的一种方法。要注意的是阅读器的原理是检查一个文档是否是格式良好的,以及检查文档是否与架构吻合。如果带验证的阅读器发现一个有严重的格式错误的XML文档,只会触发XmlException异常,它不会触发其它的事件。
验证发生在用户用Read方法向前移动指针时,一旦节点被分析和读取,它获得传送过来的处理验证的内部的对象。验证操作是基于节点类型及被要求的验证类型。它确认节点所有的属性和节点包含的子节点是否符合验证条件。
验证对象在内部调用两个不同风格的对象:DTD分析器和架构生成器(schema builder)。DTD分析器处理当前节点的内容和不符合DTD的子树。架构生成器根据XDR或者XSD架构对当前的节点构建一个SOM(schema object model)。架构生成器类实际上是所有指定为XDR和XSD架构生成器的基类。为什么呢,虽然XDR和XSD架构的许多相同的方法被加工处理过,但是它们在执行时的性能没有区别。
如果节点有子节点,用另一个临时的阅读器收集子节点信息,因此节点的架构信息能被完全地验证。你可以看图五:
注意,尽管XmlValidatingReader类的构造函数可以接受一个XmlReader类作为其阅读器,但是该阅读器只能是XmlTextReader类的一个实例或者是它的一个派生类的实例。这意味着你不能用其它从XmlReader派生的类(例如一个自定义的XML阅读器)。在XmlValidatingReader类的内部,它假设阅读器是一个子XmlTextReader对象及把传入的阅读器显式的转换成XmlTextReader类。如果你用XmlNodeReader或者自定义的阅读器器,程序在编译时会出错,运行时抛出一个异常。
节点阅读器
XML阅读器提供一种增量式的方法(一个一个节点的读)来处理文档的内容。到目前为止,我们假设源文件是一个基于硬盘的流或者是一个字符串流,然而,我们不能保证在实际中会提供一个源文件的XMLDOM对象给我们。在这种情况下,我们需要一个带有特别的读方法的特别的类。对这种情况,.NET Framework提供了XmlNodeReader类。
就像XmlTextReader访问指定XML流中所有节点一样,XmlNodeReader类访问XMLDOM子树的所有节点。XMLDOM类(在.NET Framework中的XmlDocument类)支持基于Xpath的方法,例如SelectNodes方法和SelectSingleNode方法。这些方法的作用是把匹配的节点放在内存中。如果你需要处理子树中的所有节点,节点阅读器比用增量式方法处理节点的阅读器具有更高的效率:
// xmldomNode is the XMLdo
M node
XmlNodeReader nodeReader = new XmlNodeReader(xmldomNode);
while (nodeReader.Read())
{
//do
something here
}
当你要在配置文件(例如web.cofig文件)中引用自定义的数据时,先把这些数据填充到XMLDOM树中,然后用XmlNodeReader类与XMLDOM类结合处理这些数据。这也是高效的。