如何在Java中用DOM分析HTML页面?若解决再加200分!(100分)

  • 主题发起人 主题发起人 creation-zy
  • 开始时间 开始时间
C

creation-zy

Unregistered / Unconfirmed
GUEST, unregistred user!
DOM是不是包含在JDK或J++Builder中?若不在,应该从哪里下载?
最好给出分析例程。
 
我的毕业设计主要基于它,(用途是从搜索引擎返回的HTML页面中将有效信息提取出来)。
急!急!
哪位大侠能够帮助在下,先谢过了!
 
哪个DOM?Document Object Model?
 
是的。
听说还有ICE也可以解析HTML页面,是吗?哪个好呢?
 
不知道ICE。但DOM已经够了。要提取什么信息?
 
比如说,从网上搜索引擎返回的查询结果页面中将相关条目的超级链接及其说明提取出来。
这类页面一般比较有规律可循。
我的想法是:针对每个搜索引擎编写一个专门的信息提取器。但我现在刚开始学Java,
可以说什么都不知道,望各位大侠不吝赐教。
 
http://xml.apache.org/xerces-j/index.html
The Xerces Java Parser 1.3.1 supports XML 1.0 recommendation and contains
advanced parser functionality, such as XML Schema,do
M Level 2 version 1.0,
and SAX Version 2, in addition to supporting the industry-standarddo
M Level 1
and SAX version 1 APIs.
 
我听人说,由于DOM是专门用于解析XML文件的,所以用于语法不是很严格的HTML文件时会出问题,有这回事吗?
 
多人接受答案了。
 
唉!我试过了,99.9%以上的HTML不能用DOM解析...
HTML的语法太不严格了,一个<BR>还要跟一个</BR>才行...
还不如我自己写的一个提取工具,虽然不能应付100%的情况,但我的目标只是98%,
我没工夫写一个HTML语法解释器。
 
后退
顶部