请教各位大大的虾该如何处理这个高难度的问题。（PDF相关）(300分)

xiao_wen · 2002-07-29

请问：如何能把简体的PDF文件变成繁体，繁体转换为简体？（当然不能改变PDF文件
的原有结构）

哈利波特 · 2002-07-29

xujia · 2002-07-29

用pdf控件先转为TxT在转为繁体

only you · 2002-07-29

这个由难度，关键是因为PDF与普通的文本文件不同，因为它根本没有使用字的编码来显示
而是用图形，所以可能不行，我曾经用它自带的转化为文本文件的工具试了一下，发现格式
全部丢失，根本无法还原，即使我把文件编码转为简体的了，可是原先的排版格式都丢了！
一个字，难，或者说简直不可能！

xiao_wen · 2002-07-30

To ALL:
谢谢大家的捧场。
我想应该是可以的。因为好象最新版本的acrobat reader就实现了简繁互换的问题。
请大家看看这个站点（http://www.zeon.com.tw/zeoncom/），他好象就能够实现PDF
文件的抽取插入和替换等操作的。他的东西我还没有开始研究，总觉得应该有一个可
行的办法能解决这个问题的。因为PDF的格式应该可以研究出来。

天真 · 2002-08-02

我也在此说一下，PDF不全是图形，也是其一定的结构组成的，现在还有控件可以生成PDF呢
所以，这是可以实现的，小文呀，你等我几天，等我把这先干完了

xiao_wen · 2002-08-02

to 天真:
等你我都等的花儿也谢了。这几天忙于我们公司的别的设计方案,所以顾不上这个东西的.
我也需要过几天! 呵呵

to all: 请各位高手赐教啊!

xiao_wen · 2002-08-08

看来各位高手，大大的虾们都不愿意出手吗？救救小弟啊。呵呵。
我实在是找不到好的方法了。救命啊。斑竹！高手们！

流云 · 2002-08-09

用PDFLIB试试看，打开整个PDF文件，然后获得相应信息，再作转换，这是我能想到的办法了
http://www.pdflib.org

going_cc · 2002-08-10

我知道有通过xslt在pdf和xml之间互换的东西。

xiao_wen · 2002-08-12

to 流云
谢谢你提供的地方,只能创建一个pdf文件,但不能修改,也不能读取.
to going_cc
你说的xslt是什么啊? 他能修改pdf文件吗? 能读取pdf文件吗?
to all:
本来打算通过ADOBE acrobat提供的SDK看能不能找到可以如何读pdf文件中的文本的东东
但到现在都没有结果.基本上是找不到啊!
各位大虾.救命啊!

yu_gao · 2002-08-14

确实是一个高难度的问题，不过我有一个建议你可以试试：
事实上ADOBE公司有一套自己的标记语法来描述pdf及其他文件（据我的推测pdf文档
实际就是这种标记语言的压缩包），这套标记语言成为ADOBE Post Script，关于它的资
料在ADOBE的SDK应该有描述，你可以从Post Script中解析出字符编码内容，然后在做简
繁的转换，最后填充到Post Script文本的相应位置中去，通过adobe Distiller工具就
可以生成转换好的PDF文档，格式不会丢失。
你可以先做一个实验：
首先打开一个pdf文档，在Acrobat中选取另存为，保存类型是PostScript Files
（*.ps），在设置里可以选择生成1－2页，然后用记事本打开你就可以看到整齐的描述
语言代码，如果你有安装adobe Distiller，那么双击这个.ps文件就会自动启动adobe
Distiller并自动生成一个新的pdf文档，只有两页但格式完全被保留下来。
相比之下，post script的内容是比较规范的，焦点问题就是如何解析里面的内容
，还有一点要注意的就是acrobat仍然要依赖于字体，你转换文本编码后必须使用繁体
字体才能看到内容。

另注：xslt只能把xml转到pdf，不能解析pdf格式，不能解决你的问题，就不要在这个
上浪费时间了。

希望能对你有所帮助。如果能够解决这个问题，你可以写一个商业控件，很有前途。

xiao_wen · 2002-08-14

to yu_gao:
首先谢谢你的回答。
TO ALL：
从目前的理解来看,想了解pdf的格式确实是一件很困难的事情,因为
光PDF-FORMAT就有500多页(而且都是E文),再加上 PDF-SDK 里的文档,可以说进行分析的话
工作量一定非常的大。而且从ADOBE提供的PDF-SDK来看，主要是针对于创建和读取pdf文件
的（当然这些事情都是比较简单的事情了，通过SDK应该很容易就作到了），而修改PDF文
档的SDK却没有。也就是说修改的接口目前很少有人能够知道，不过修改的SDK 叫一个什
么PDI的SDK文件。如果能找到的话，实现简繁互换应该不是问题。可我却没有。不知道哪位
大虾知道，烦请告之！

我现在基本上还没有开始分析PDF的格式.总觉得先搞清楚事情的主攻方向,然后发力克之..
pdf格式的本身是很复杂的,再加上加密,压缩等,可以说如果没有一个好的思路的话，盲目去
研究，好象也是徒劳的。

再此，特恳请各位高手，赐教！

gophie · 2002-08-14

一句话，不可能自己解决，只能通过第三方软件实现！

flb_delphibbs · 2002-08-17

好问题，PDF的格式确实很难进行转换，而且有时用他自己的保存成TXT后，格式完全丢失。
希望各位高手能不吝赐教！
TO XIAOWEN，如果有解决的思路，希望也能统治我一下，多谢！！

lw86 · 2002-08-18

pdf有其自己的格式，据我所了解，其将字库信息也带入了文件中，所以能在各种环境下
阅读，如果不搞清其格式，要想自己解决编码转换问题，我看是不可能的。

jsxjd · 2002-11-02

如果要自己做，必须了解它的对象模型，或者用现成的东东。

louhong · 2002-11-03

我认为凭个人的力量，即使有PDF格式的SDK文档(我看到过)，想要弄清楚是非常非常困难的，因为
它实在是太复杂了，比Office里的任何一种文档都复杂的多，它不仅有排版、还有一套安全保护系
统就够你看得了，更何况里面还很可能有所保留。还是要充分利用现有的一些工具，以巧破千斤，
另辟蹊径，才能成功。

xiao_wen · 2002-11-06

to louhong:
我现在比较需要的就是PDF的SDK文档。你知道在什么地方能找到吗？

louhong · 2002-11-06

我在网上看到过，记不大清楚了，帮你找找。如果找到了，怎么给你？用Email？

请教各位大大的虾该如何处理这个高难度的问题。（PDF相关）(300分)

xiao_wen

Unregistered / Unconfirmed

哈利波特

Unregistered / Unconfirmed

xujia

Unregistered / Unconfirmed

only you

Unregistered / Unconfirmed

xiao_wen

Unregistered / Unconfirmed

天真

Unregistered / Unconfirmed

xiao_wen

Unregistered / Unconfirmed

xiao_wen

Unregistered / Unconfirmed

流云

Unregistered / Unconfirmed

going_cc

Unregistered / Unconfirmed

xiao_wen

Unregistered / Unconfirmed

yu_gao

Unregistered / Unconfirmed

xiao_wen

Unregistered / Unconfirmed

gophie

Unregistered / Unconfirmed

flb_delphibbs

Unregistered / Unconfirmed

lw86

Unregistered / Unconfirmed

jsxjd

Unregistered / Unconfirmed

louhong

Unregistered / Unconfirmed

xiao_wen

Unregistered / Unconfirmed

louhong

Unregistered / Unconfirmed

Similar threads