求清理WORD产生的HTML之垃圾代码解决方案。急!!!!! (100分)

腾龙

Unregistered / Unconfirmed
GUEST, unregistred user!
1、求清理WORD产生的HTML之垃圾代码解决方案。
详细代码或者使用什么技术以及解决的方法说明都可以。
别笼统的告诉我分析HTML代码,我是做网站的出身对HTML代码熟悉,如果我手工可以搞定
不过希望可以做到自动完成。

2、在DELPHI中能否实现正则表达式?怎么做的
 
用IE提供的IDocument接口
访问dom的各个节点
 
具体一点
 
呵呵,可怜呀,上一个帖子我给你提出的意见被你认为是灌水,而且在这里明确指出“别笼统的告诉我分析HTML代码”
不过下面这两个帖子应该不算灌水吧?
关于正则表达式的,你搜索一下yysun老师的问题,它回答过n类似的,记得还有一片是说Delphi中如何引用正则表达式的(正和你的意思),不过我没有找到,不过可以肯定的告诉你,在Delphi中肯定可以!
http://www.delphibbs.com/delphibbs/dispq.asp?lid=619439
http://www.delphibbs.com/delphibbs/dispq.asp?lid=635070

还有,你的这个问题,其实我给你的就是编程解决的办法,关键是你如何去分析,希望你仔细看一下我前一次给你的回答。
 
To yzhshi:
我仔细看过WORD转出来的HTML,也看了DR这样去除WORD的垃圾代码的一些东西。但是仍然感觉无
从下手。部分比较大块的代码我知道,不过一些小的部分却不知道,比如列表在HTML中<ul><li></ul>
可实现,不过WORD转换的WORD列表却是用了不同的形式。还有对于<p>标签内部,WORD一般都即用常规
标签,还同时用STYLE;还有STYLE里边他每个P标签都设定MARGIN,大量的增加的代码,而在HTML中,
无特殊要求是不用的。不过判断什么时候是多余的就难了。
所以我其实是想知道别人如果是代码分析,他的分析思路是如何的?具体的操作有什么技巧。如果
有别的解决途径那么又是如何搞定的。
说的具体点:(1)如何分析代码(2)WORD的容易代码种类,即特征’或(1)其他的解决方法是什
么?比如直接分析WORD的文件格式,然后转成HTML;或者(1)通过引用DR中的去除垃圾代码的函数或方
法,如何搞定。
 
分析html就用DOM模型,可以访问遍历各个节点,这个需要IE控件。
word文档也有类似的,一个文档就是一大堆range的集合,
就是你得调用word自动化对象。
 
还是不知道怎样下手。
 
多人接受答案了。
 
顶部