pdf to txt 方法讨论一下。。。(300分)

  • 主题发起人 主题发起人 yobdrow
  • 开始时间 开始时间
Y

yobdrow

Unregistered / Unconfirmed
GUEST, unregistred user!
折腾了一天。。aerial 2.0是最好用的。虽然对中文做的不好。。

大家谈谈看法。。可能自己编程实现吗。。有什么好控件和思路
 
http://hem.spray.se/joakim.slettengren/
 
我也在找。。。。。。。
 
我倒是有pdf的格式文档说明,很烦的。
 
daiwei:给我一份好吗
 
留下email阿
 
pdf 文档不是可以看吗?
干什么要转换呢?
要装中文字库才可以看得。
 
wordboy@163.net

呵呵。。忘了。。谢谢
 
能给我(comnetcom@163.net)一份PDF格式档吗,我找了半天没找到,而且我也正在做这个
http://www.delphibbs.com/delphibbs/dispq.asp?lid=726660
 
the download add: www.xhrc.net/pdf.zip
 
http://www.lowagie.com/iText/
 
试一试这个,听说可以
http://www.pdfimage.com/pdf/PDF2HTM2.0.zip
 
试一试这个,听说可以
http://www.pdfimage.com/pdf/PDF2HTM2.0.zip[:D]
 
不是要工具,要资料
 
PDFtoTXT 调用用pstotxt1.dll (Win16),pstotxt3.dll(Win32)!
http://www.research.compaq.com/SRC/virtualpaper/pstotext.html 有源码!
 
呵呵,我曾经专门作过针对PDF的浏览器(不是Adobe的)......

1、概念:
1)Adobe的PDF文件是首先针对打印,而不是显示,它的Font和其余一些概念都是照搬
PostScript(也是Adobe的),可以算得上是PostScript的一个子集,相关格式、
资料全部是公开的,可以去Adobe下载;
3)PDF文件格式容纳的东东很多,因为格式文档里有,在此不再赘述,但是Font是
PDF文件格式的重中之重;
2)Adobe PDF文件显示文字也是以打印为基础的。
PDF文件里每一种制定的Font并不是像一般字体一样给出的是信息,而是一段代码;
换句话说:PDF文件的字体是开放的,可以由任何人创作,但是创作字体的人必须
写一段程序来教Acrobat如何画出这种字体!!!
所以PDF文档的打印效果实在是一流的,而且理论上可以达到完美的效果!
这就注定了PDF文件的字体只是考虑打印、显示,并不考虑编码,这也就带来了
PDFToTxt的困难。
而每一个PDF文件都将Font信息随身携带,于是,PDF文件的大小和文本文档就有得一
比了......
3)但是因为给出字体的信息是程序,这就必然导致了字体编码和程序代码的联系转换问题。
如果Adobe的字体编码和外界的编码(Unicode等)有联系、有转换关系,则可以转
换,如果没有联系,则无法转换。因为Font理论上是可以由任何人创造的,Adobe也
无法控制,所以如果字体作者不使用公开的转换关系的话,没有人能把文字Copy出来;
还有一种情况是这样的:比如文件中只使用了20个汉字,而这个PDF文件如果把所有的
6万多个汉字都带在身上,显然没有必要;于是他便用0~19来标示这20个汉字的ID,
0~19分别对应20段程序,来画出这20个汉字。遇到这种情况,就是大罗金仙也没法将
他们copy出来(我说的是通用的程序实现)
这也就是为什么有时候在Acrobat里面浏览的好好的,Copy出来就是一堆乱码的原因了。
所以说君子有所为,有所不为,如果Acrobat也只能将文字显示出来,并不能知晓它的
编码的时候,任何PDFToTxt程序都是没法将它提取出来的(包括Adobe自己!)。
4)在PDF文件中,Font分为四种(很久没做了,名字记不清了,可以查到)。Font中间的
FontType1编码可以按照一定的规律转换,FontType2就是Unicode,因为开发成本所限,
我们的浏览器无法支持所有的Font。如果要研究Font,我这里有几十兆的文档!!!
需要完整地处理所有Font的话,我们需要浏览PostScript的格式以及一系列的Font格式
补充说明,这是PDF文件格式的信息量所不能比拟的......
但是,如果要做PDFToTxt,就必须研究所有可能转换出Txt的Font,苦啊!
3)按照PDF文档规范要求:PDF文件是可以加密的。
加密分三层:
第一层:不输入密码不可以修改文件;
第二层:不输入密码不可以Copy文件中的文字(相信很多人之所以想要PDFToTxt,
就是因为这个了)
第三层:不输入密码不可以访问文件。

2、处理方法:
只处理PDF文件中的Font信息,将有可能转换的Font通过计算,转换为正常编码.

3、虽然我做过PDF浏览器,但是因为保密协议限制,我不能将做过的源程序发给你,
而且我的可执行程序是CE上的 :-) 不知道您有没有CE? 不过我可以介绍一个
很好的PDF浏览器,带源码的,叫XPDF,在Linux平台上工作,效果相当惊人!
(不过我们所作的PDF浏览器在很多地方已经比他强了)
基本上是我们所看到的最好的免费PDF浏览器了!在他的站点上还有他们做的
PDFToTxt,也是我所看到的最好的PDFToTxt了。不过,它依然存在着我上面所说的局限性。

另外,如果还有疑问,可以与我联系。
最近半个月可能没法保持通讯,一个月以后就没事了。
 
Adobe自己都说如果在创建PDF时使用“嵌入字体”的话,将很难还原!
 
多人接受答案了。
 

Similar threads

D
回复
0
查看
1K
DelphiTeacher的专栏
D
D
回复
0
查看
2K
DelphiTeacher的专栏
D
D
回复
0
查看
1K
DelphiTeacher的专栏
D
D
回复
0
查看
1K
DelphiTeacher的专栏
D
S
回复
0
查看
3K
SUNSTONE的Delphi笔记
S
后退
顶部