直接从TWebBrowser得到网页源码及Html这会你可以分析了吧?!
下面先介绍一种极其简单的得到TWebBrowser正在访问的网页源码的方法。
一般方法是利用TWebBrowser控件中的Document对象提供的IPersistStreamInit
接口来实现,具体就是:先检查WebBrowser.Document对象是否有效,无效则退出;
然后取得IPersistStreamInit接口,接着取得HTML源码的大小,分配全局堆内存块,
建立流,再将HTML文本写到流中。程序虽然不算复杂,但是有更简单的方法,
所以实现代码不再给出。其实基本上所有IE的功能TWebBrowser都应该有较为简单的
方法来实现,获取网页源码也是一样。下面的代码将网页源码显示在 Memo1中。
Memo1.Lines.Add(IHtmlDocument2 (WebBrowser1.Document).Body.OuterHtml);
同时,在用TWebBrowser浏览HTML文件的时候要将其保存为文本文件就很简单了,
不需要任何的语法解析工具,因为TWebBrowser也完成了,如下:
Memo1.Lines.Add(IHtmlDocument2 (WebBrowser1.Document).Body.OuterText);