冰 冰力不足 Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #6 真正的pdf转换为txt要涉及文字识别技术 如果哪一天能够这样 那么完美了
L littlestone08 Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #7 不需要文字识别. PDF的文件格式中包括许多的东西,像一个网页一样(当然有许多不同的,只是打个比方). 有自己的文字,图片,甚至按钮,表单等等. 楼上的说需要文字识别,那可能是那个PDF文件本身是由扫描的图片制作的,如果想要将这样的PDF转换成文本就需要文字识别了 . 不用控件,应该不用有好的办法,只好自己用它的SDK了 工作的难度应该比抓取网页的文本的难度要太得多
不需要文字识别. PDF的文件格式中包括许多的东西,像一个网页一样(当然有许多不同的,只是打个比方). 有自己的文字,图片,甚至按钮,表单等等. 楼上的说需要文字识别,那可能是那个PDF文件本身是由扫描的图片制作的,如果想要将这样的PDF转换成文本就需要文字识别了 . 不用控件,应该不用有好的办法,只好自己用它的SDK了 工作的难度应该比抓取网页的文本的难度要太得多
D dreamisx Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #8 littestone80 说得对,我用过一个PDF控件,那控件有3万多行,虽然功能比较强,但写得很差劲,性能也很不好;我改了一个读某些PDF不能正确解码的BUG,费了我好大的劲,还是没完全改好(因为是公司的,故不能放上来).
littestone80 说得对,我用过一个PDF控件,那控件有3万多行,虽然功能比较强,但写得很差劲,性能也很不好;我改了一个读某些PDF不能正确解码的BUG,费了我好大的劲,还是没完全改好(因为是公司的,故不能放上来).
W WickedladII Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #9 难,不要说不用现成的软件,用现成的也没个真正做的好的。。。
W weiliu Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #10 顶,比较困难哦,估计没戏了。还是想办法调用现成的软件吧。
L lx378 Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #11 我并不需要很完美,只要能把非扫描的文本内容提取出来,有个叫PdfReader.exe的文件就可以,好象调用pdfocx.dll来完成,只是它不能批量处理,我想解决这个问题
鳄 鳄鱼先生 Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #12 下载Adobe Acrobat 7.0 SDK 文件后有Simple,有解决方法和代码(C++)
L lx378 Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-29 #13 鳄鱼先生:c语言我看不懂,能告诉我哪里有delphi的例子吗?
D delfree Unregistered / Unconfirmed GUEST, unregistred user! 2006-07-30 #14 很难,除非属于可以识别的 PDF文档,否则可能性不大
N newyj Unregistered / Unconfirmed GUEST, unregistred user! 2006-08-01 #15 c是基本功,我现在做东西很多都是先用vc做个dll,del调用
E easypdf Unregistered / Unconfirmed GUEST, unregistred user! 2006-08-01 #16 我手头有成熟的技术,请和我联系。easypdf@gmail.com
H hzjone Unregistered / Unconfirmed GUEST, unregistred user! 2006-08-02 #18 没做过,有的也发一份给我。hzjone@eyou.com
H herui Unregistered / Unconfirmed GUEST, unregistred user! 2006-08-06 #19 安装Adobe Reader,运行软件,在里面全选,另存为文本文件即可。 软件地址http://www.onlinedown.net/soft/2696.htm