请问:如何识别/分离html文件中的标示符和中间的文字???(100分)

  • 主题发起人 主题发起人 mr.chy
  • 开始时间 开始时间
M

mr.chy

Unregistered / Unconfirmed
GUEST, unregistred user!
请问:如何分离html文件中的标示符和中间的文字???

例如:<a href="abc.htm" target="_blank">标题!!</a>

如何在 Delphi 编程识别出 abc.htm 和 标题
 
事实上不就是将HTML文件中所有字符串读出


List := TStringList.Create;
List.LoadFromFile( ‘你的文件路径和文件名’);
然后对LIST里的每个字符串分析,如果有HTML标记符号的就按自己要求处理
 
to onedot:
如果 HTML 标记符号分在两行怎么办?
 
如果不行那些网页设计软件如何做出来的??
 
如果不想用TSTRINGS,可以将htm文件当成TEXTFILE来处理,ASSIGNFILE、RESET、READLN
、然后逐行分析。
 
这个就靠你自己编程了,比如你在分析到一个字符串有<a时令一个标记变量为TRUE,
然后继续分析后面字符串,只要还没字符串包含</a>就代表还没分析完这个整个连接。
这只是个小例子,更多需要自己根据自己需要考虑、分析字符串。
 
我知道可以用文本方式分析,可是能不能具体一点给出点代码?
 
最普通的方式是查找<a href=",这个字符串,获取位置1,接着查找",获取位置2,
然后找到紧跟着的>,获取位置3,再查找下一个<,获取位置4.
1和2之间是地址,3和4之间是标题。这种方法只能查出一部分。
 
又问hhzh426:问题是如果属性的位置不固定,例如<a border="0" href="">又如何识别?
 
html中表示一个链接的方法最普通的是<a,表示一个锚点,href是关键字,="xxx"是内容
其中xxx就是地址,该锚点以>结束,紧跟着是标题,然后是</a>。你了解到这一
点就可以编程分解了!
 
和 delphi 一样,HTML 语言也有关键字,搜索出关键字,根据语法,后面的就应该是
相应的内容。
 
最好的办法。
用IE来解析是最好的。到这里http://www.intelligo.net/iedelphi/
找IEParser或者UILess,读入源文件之后,用IE的接口转换一下就行了
完全不用自己分析语法。
如果接口转换不懂的话,上我的竹叶,eagleboost.myrice.com
我写了篇文章《TWebBrowser编程简介》,你要的东西里面有。
 
你是不是想要NetAnts打开全部链接的效果啊?
得到链接的标题和Url?
如果是这样不必分析语法。简单,简单,呵呵。
 
mr.chy:如果还想接着讨论请定期提前自己的帖子,如果不想继续讨论请结束帖子。
 
多人接受答案了。
 
后退
顶部