总 总有爱 Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-01 #1 如题, 比如 <html></body>ABCDFe卧式<div>sfjweiflsd</div>等等,去掉所有的标签只留下文字. 我用递归做的,可一旦标签很多的时候就堆溢出,有什么办法解决吗?
总 总有爱 Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-01 #2 如题, 比如 <html></body>ABCDFe卧式<div>sfjweiflsd</div>等等,去掉所有的标签只留下文字. 我用递归做的,可一旦标签很多的时候就堆溢出,有什么办法解决吗?
光 光子 Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-04 #3 看看你的程序,你是用什么语言在写? 我觉得取掉所有的<、>以及他们之间的内容并不复杂,把整个html文件当一个字符流,扫描一遍就可以了。
总 总有爱 Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-04 #4 是不复杂, 我是用java写的,首先找到第一个 < 然后找到下一的 > 把之间的内容去掉,可标签太多的时候,就堆溢出!有好的方法吗?
P popoer Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-15 #7 jdk 1.4以后的版本已经具有正则处理的类库 String类的replaceAll也是是使用正则的 简单的去除html标记可以用 htmlStr.replaceAll("<(.*?)>","" 就OK了 (.*?)匹配了任意字符,并使用非贪婪匹配模式 更多的资料google一下就有了~
jdk 1.4以后的版本已经具有正则处理的类库 String类的replaceAll也是是使用正则的 简单的去除html标记可以用 htmlStr.replaceAll("<(.*?)>","" 就OK了 (.*?)匹配了任意字符,并使用非贪婪匹配模式 更多的资料google一下就有了~
U utop Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-15 #8 可以试试DHTMLEdit,读入该html,然后用DOM.Body.innertext方法得到不代标记的文本内容
风 风铃夜思雨 Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-15 #9 可以将文本内容传给IhtmlDocument2,用outerText直接取出
S satanmonkey Unregistered / Unconfirmed GUEST, unregistred user! 2005-11-16 #10 是啊,直接利用IHTMLDocument2多方便.