如何分析网站,并从中提取出有用的信息?(100分)

  • 主题发起人 主题发起人 LeeQme
  • 开始时间 开始时间
L

LeeQme

Unregistered / Unconfirmed
GUEST, unregistred user!
RT.仅针对知URL可以得到源码的网站.最好是多线程对整站进行分析.
 
使用TWebBrowser控件的HTMLDocument2接口可以获得网页的body,link等,但是要自动的分析完整个网站的所有网页的话,我建议你先分析一下这个网站的网页是怎么安排的,网页与网页之间有没有什么规律,这样,可以通过链接的变换,每次给控件提供一个URL,那么就可以分析完整个网站了。至于网页信息提取,不妨你可以看一下中科院的一个中文信息处理平台,上面有一些论文和一些例子。
 
网中戏兄弟:请你自重

to 楼主

2ccc上面有个例子,是多线程获得网页数据的,可以参考一下
http://www.2ccc.com/article.asp?articleid=3786,代码作者已经建立了一个qq群,可以区交流
 
自己解决了。
 
已自决,谢谢大家!
 
多人接受答案了。
 

Similar threads

后退
顶部