如何提取两个标签之间的内容？ (50分)

张一健 · 2001-10-14

想要提取某个网页的数据，因为它不是XML格式。
比如提取 <TABLE>..</TABLE> 之间的内容, (..)之间的内容等等。
各种语言都可以，如果能用正则表达式做到，那就最好了。

alvinlv · 2001-10-14

可以用textfile 类打开这个文件然后分别找到 <table> 和 </table>
的开始位置在从开始位置＋ 7 取到结束位置。

张一健 · 2001-10-14

有没有简洁的算法呢？

delphi_lsl · 2001-10-14

YB_unique · 2001-10-14

估计你打算要批量处理大量的HTML文件，对吗？那就用TstringList.
先将文件读入一个TstringList中，
List:=TstringList.create;
List.LoadFromFile(aFilename);
然后用pos(Findstring,LowerCase(List[Counter]))定位，
最后用change_illegal_letter()函数转换非法字符即可。

张一健 · 2001-10-17

没想到 M$ 自己提供了 HTML 分析器，试试看先！[

]
发分了！

张一健 · 2001-10-17

多人接受答案了。

如何提取两个标签之间的内容？ (50分)

张一健

Unregistered / Unconfirmed

alvinlv

Unregistered / Unconfirmed

张一健

Unregistered / Unconfirmed

delphi_lsl

Unregistered / Unconfirmed

YB_unique

Unregistered / Unconfirmed

张一健

Unregistered / Unconfirmed

张一健

Unregistered / Unconfirmed

Similar threads