求清理WORD产生的HTML之垃圾代码解决方案。急！！！！！ (100分)

腾龙 · 2002-09-20

1、求清理WORD产生的HTML之垃圾代码解决方案。
详细代码或者使用什么技术以及解决的方法说明都可以。
别笼统的告诉我分析HTML代码，我是做网站的出身对HTML代码熟悉，如果我手工可以搞定
不过希望可以做到自动完成。

2、在DELPHI中能否实现正则表达式？怎么做的

xusong168 · 2002-09-21

用IE提供的IDocument接口
访问dom的各个节点

腾龙 · 2002-09-21

具体一点

yzhshi · 2002-09-21

呵呵，可怜呀，上一个帖子我给你提出的意见被你认为是灌水，而且在这里明确指出“别笼统的告诉我分析HTML代码”
不过下面这两个帖子应该不算灌水吧？
关于正则表达式的，你搜索一下yysun老师的问题，它回答过n类似的，记得还有一片是说Delphi中如何引用正则表达式的（正和你的意思），不过我没有找到，不过可以肯定的告诉你，在Delphi中肯定可以！
http://www.delphibbs.com/delphibbs/dispq.asp?lid=619439
http://www.delphibbs.com/delphibbs/dispq.asp?lid=635070

还有，你的这个问题，其实我给你的就是编程解决的办法，关键是你如何去分析，希望你仔细看一下我前一次给你的回答。

腾龙 · 2002-09-23

To yzhshi:
我仔细看过WORD转出来的HTML，也看了DR这样去除WORD的垃圾代码的一些东西。但是仍然感觉无
从下手。部分比较大块的代码我知道，不过一些小的部分却不知道，比如列表在HTML中<ul><li></ul>
可实现，不过WORD转换的WORD列表却是用了不同的形式。还有对于<p>标签内部，WORD一般都即用常规
标签，还同时用STYLE；还有STYLE里边他每个P标签都设定MARGIN，大量的增加的代码，而在HTML中，
无特殊要求是不用的。不过判断什么时候是多余的就难了。
所以我其实是想知道别人如果是代码分析，他的分析思路是如何的？具体的操作有什么技巧。如果
有别的解决途径那么又是如何搞定的。
说的具体点：（1）如何分析代码（2）WORD的容易代码种类，即特征’或（1）其他的解决方法是什
么？比如直接分析WORD的文件格式，然后转成HTML；或者（1）通过引用DR中的去除垃圾代码的函数或方
法，如何搞定。

xusong168 · 2002-09-24

分析html就用DOM模型，可以访问遍历各个节点，这个需要IE控件。
word文档也有类似的，一个文档就是一大堆range的集合，
就是你得调用word自动化对象。

腾龙 · 2002-09-24

还是不知道怎样下手。

iapollo · 2002-10-11

腾龙 · 2002-11-27

多人接受答案了。

求清理WORD产生的HTML之垃圾代码解决方案。急！！！！！ (100分)

腾龙

Unregistered / Unconfirmed

xusong168

Unregistered / Unconfirmed

腾龙

Unregistered / Unconfirmed

yzhshi

Unregistered / Unconfirmed

腾龙

Unregistered / Unconfirmed

xusong168

Unregistered / Unconfirmed

腾龙

Unregistered / Unconfirmed

iapollo

Unregistered / Unconfirmed

腾龙

Unregistered / Unconfirmed

Similar threads