如何提取两个标签之间的内容? (50分)

  • 主题发起人 主题发起人 张一健
  • 开始时间 开始时间

张一健

Unregistered / Unconfirmed
GUEST, unregistred user!
想要提取某个网页的数据,因为它不是XML格式。
比如提取 <TABLE>..</TABLE> 之间的内容, (..)之间的内容等等。
各种语言都可以,如果能用正则表达式做到,那就最好了。
 
可以用textfile 类打开这个文件然后分别找到 <table> 和 </table>
的开始位置 在 从 开始位置 + 7 取到 结束位置。
 
有没有简洁的算法呢?
 
估计你打算要批量处理大量的HTML文件,对吗?那就用TstringList.
先将文件读入一个TstringList中,
List:=TstringList.create;
List.LoadFromFile(aFilename);
然后用pos(Findstring,LowerCase(List[Counter]))定位,
最后用change_illegal_letter()函数转换非法字符即可。
 
没想到 M$ 自己提供了 HTML 分析器,试试看先![:)]
发分了!
 
多人接受答案了。
 
后退
顶部