请教各位大大的虾该如何处理这个高难度的问题。(PDF相关)(300分)

  • 主题发起人 主题发起人 xiao_wen
  • 开始时间 开始时间
X

xiao_wen

Unregistered / Unconfirmed
GUEST, unregistred user!
请问: 如何能把简体的PDF文件变成繁体,繁体转换为简体?(当然不能改变PDF文件
的原有结构)
 
用pdf控件先转为TxT在转为繁体
 
这个由难度,关键是因为PDF与普通的文本文件不同,因为它根本没有使用字的编码来显示
而是用图形,所以可能不行,我曾经用它自带的转化为文本文件的工具试了 一下,发现格式
全部丢失,根本无法还原,即使我把文件编码转为简体的了,可是原先的排版格式都丢了!
一个字,难,或者说简直不可能!
 
To ALL:
谢谢大家的捧场。
我想应该是可以的。因为好象最新版本的acrobat reader就实现了简繁互换的问题。
请大家看看这个站点(http://www.zeon.com.tw/zeoncom/),他好象就能够实现PDF
文件的抽取插入和替换等操作的。他的东西我还没有开始研究,总觉得应该有一个可
行的办法能解决这个问题的。因为PDF的格式应该可以研究出来。
 
我也在此说一下,PDF不全是图形,也是其一定的结构组成的,现在还有控件可以生成PDF呢
所以,这是可以实现的,小文呀,你等我几天,等我把这先干完了
 
to 天真:
等你我都等的花儿也谢了。这几天忙于我们公司的别的设计方案,所以顾不上这个东西的.
我也需要过几天! 呵呵

to all: 请各位高手赐教啊!
 
看来各位高手,大大的虾们都不愿意出手吗? 救救小弟啊。呵呵。
我实在是找不到好的方法了。救命啊。斑竹!高手们!
 
用PDFLIB试试看,打开整个PDF文件,然后获得相应信息,再作转换,这是我能想到的办法了
http://www.pdflib.org
 
我知道有通过xslt在pdf和xml之间互换的东西。
 
to 流云
谢谢你提供的地方,只能创建一个pdf文件,但不能修改,也不能读取.
to going_cc
你说的xslt是什么啊? 他能修改pdf文件吗? 能读取pdf文件吗?
to all:
本来打算通过ADOBE acrobat提供的SDK看能不能找到 可以如何读pdf文件中的文本的东东
但到现在都没有结果.基本上是找不到啊!
各位大虾.救命啊!
 
确实是一个高难度的问题,不过我有一个建议你可以试试:
事实上ADOBE公司有一套自己的标记语法来描述pdf及其他文件(据我的推测pdf文档
实际就是这种标记语言的压缩包),这套标记语言成为ADOBE Post Script,关于它的资
料在ADOBE的SDK应该有描述,你可以从Post Script中解析出字符编码内容,然后在做简
繁的转换,最后填充到Post Script文本的相应位置中去,通过adobe Distiller工具就
可以生成转换好的PDF文档,格式不会丢失。
你可以先做一个实验:
首先打开一个pdf文档,在Acrobat中选取另存为,保存类型是PostScript Files
(*.ps),在设置里可以选择生成1-2页,然后用记事本打开你就可以看到整齐的描述
语言代码,如果你有安装adobe Distiller,那么双击这个.ps文件就会自动启动adobe
Distiller并自动生成一个新的pdf文档,只有两页但格式完全被保留下来。
相比之下,post script的内容是比较规范的,焦点问题就是如何解析里面的内容
,还有一点要注意的就是acrobat仍然要依赖于字体,你转换文本编码后必须使用繁体
字体才能看到内容。

另注:xslt只能把xml转到pdf,不能解析pdf格式,不能解决你的问题,就不要在这个
上浪费时间了。

希望能对你有所帮助。如果能够解决这个问题,你可以写一个商业控件,很有前途。
 
to yu_gao:
首先谢谢你的回答。
TO ALL:
从目前的理解来看,想了解pdf的格式确实是一件很困难的事情,因为
光PDF-FORMAT就有500多页(而且都是E文),再加上 PDF-SDK 里的文档,可以说进行分析的话
工作量一定非常的大。而且从ADOBE提供的PDF-SDK来看,主要是针对于创建和读取pdf文件
的(当然这些事情都是比较简单的事情了,通过SDK应该很容易就作到了),而修改PDF文
档的SDK却没有。也就是说修改的接口目前很少有人能够知道,不过修改的SDK 叫一个什
么PDI的SDK文件。如果能找到的话,实现简繁互换应该不是问题。可我却没有。不知道哪位
大虾知道,烦请告之!

我现在基本上还没有开始分析PDF的格式.总觉得先搞清楚事情的主攻方向,然后发力克之..
pdf格式的本身是很复杂的,再加上加密,压缩等,可以说如果没有一个好的思路的话,盲目去
研究,好象也是徒劳的。

再此,特恳请各位高手,赐教!
 
一句话,不可能自己解决,只能通过第三方软件实现!
 
好问题,PDF的格式确实很难进行转换,而且有时用他自己的保存成TXT后,格式完全丢失。
希望各位高手能不吝赐教!
TO XIAOWEN,如果有解决的思路,希望也能统治我一下,多谢!!
 
pdf有其自己的格式,据我所了解,其将字库信息也带入了文件中,所以能在各种环境下
阅读,如果不搞清其格式,要想自己解决编码转换问题,我看是不可能的。
 
如果要自己做,必须了解它的对象模型,或者用现成的东东。
 
我认为凭个人的力量,即使有PDF格式的SDK文档(我看到过),想要弄清楚是非常非常困难的,因为
它实在是太复杂了,比Office里的任何一种文档都复杂的多,它不仅有排版、还有一套安全保护系
统就够你看得了,更何况里面还很可能有所保留。还是要充分利用现有的一些工具,以巧破千斤,
另辟蹊径,才能成功。
 
to louhong:
我现在比较需要的就是PDF的SDK文档。你知道在什么地方能找到吗?
 
我在网上看到过,记不大清楚了,帮你找找。如果找到了,怎么给你?用Email?
 
后退
顶部