admin 管理员组文章数量: 887021
2024年1月24日发(作者:lusailstadium翻译)
PDF文件和图片如何转换成可以编辑word
———— PDF文件格式转换心得
世事无绝对,首先解密方面,试过几种软件,最好用的还是Passware_Acrobat
Key,其次是Adult PDF Password Recovery v2.2.0和PDF Password Remover v2.2,再次,至于图像扫描的文本转换,中文的话,比较麻烦,将图片存为不压缩的TIF格式,用清华TH-OCR 9.0版或者汉王文本王进行识别转换,如只是部分识别也可以不存图片,用文通慧视小灵鼠进行屏幕捕获识别,上面这3个OCR软件可以在上面下载,如果是文本格式可用Solid Converter PDF转换成Word编辑翻译,不过,Solid Converter PDF支持的语言较多,英文和繁体中文应该也没问题,至于英文方面,文本格式的PDF可以通过ABBYY PDF Transformer 1.0进行文本转换,格式为RTF可以在Word中编辑,图像格式可以使用最近刚推出的OCR软件_IRIS Readiris Pro v10.0,速度效果都还不错,最后翻译软件方面就看大家自己的喜好了。以上是个人的小小心得,仅供各位参考!
最近更新的Recosoft PDF2Office Personal v2.0软件也可以将PDF文件转换成DOC格式,也支持中文,如果有专业版就更好了。IRIS Readiris Pro v10.0也有亚洲语言支持包OCR,如果可以下载到带Keygen的最新版本就可以转换中文了!目前看来只有再等等看了!
部分软件可以在的ISO和0day下载到,也可以去找不到部分!
如果是英文就太简单了,sional可以直接将图片形式的PDF转化为DOC,而且文字和图表的格式都基本不变,可惜的是FineReader连祖鲁语都支持,就是不支持中文。
abbyy 下载地址
/down/?id=296
所以中文稍微复杂一些,先用Adobe Acrobat 5.0/6.0将PDF另存为JPG,然后想怎么OCR就怎么OCR了,Ken推荐的汉王6.0不错,我用过的所有中文OCR软件中最好的。
看清楚,是Adobe Acrobat,不是Acrobat Reader哈!
简介:
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
工具:
1,清华文通Th-OCR 9.0
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。
TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。
TH-OCR的六大优势:
1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS
98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
原版地址:/soft/
破解下载:/soft/ 选择第三个链接下载即可
说明:把下载的文件放到安装的目录里面,运行即可即可,不要删除和运行.如果你以前安装过其他的破解补丁,请卸载软件重新安装原始版本.因为程序有自校检功能所以不要把文件删除和修改.运行补丁包的文件即可.修改快捷方式指向即可(原来指向)没有字体限制,没有扫描限制,没有通用错误警告,完美破解
这是最新的破解版,据说没有任何限制了,我试了一下,在批量导出为RTF格式时仍会出错。
汉王和紫光各有千秋,喜欢紫光的就去下吧。
2,汉王文豪5800
文豪5800除了具备文本王经典版的各项功能,诸如操作简单快捷、一键即可实现扫描识别输出到Word文档外,它还能准确识别各种表格和图像,并新增加了批量工程处理、表格拼接、ACDSee图文索引和摘抄高手等人性化的功能设计。它配备了一台光学分辨率为1200dpi×2400dpi、48位色彩增强技术、USB2.0接口的超薄高速扫描仪,对印刷文稿的识别率能达到99.5%以上,能够轻松识别百余种印刷字体和各种图文混排格式的文本。
对于有批量录入需求的用户来说,文豪5800的“工程文件”能够解决批量录入中的很多问题,它能将工作进度自动进行保存,用户再次打开此项工程的时候它就能自动指向工作的断点,免去了重复查找、识别、校对的麻烦。
要提醒用户的是:如果想将扫描的文字或者表格直接转换为doc、rtf、txt等格式保存的话,一定要注意印刷品的放置方向,如果方向反了的话,识别出来的文字会全部都是乱码,虽然在扫描仪上有印刷品放置方向的提示,但是若非实际使用,用户很难把握怎样放置才能得到正确的扫描输出结果——这也在一定程度上反应出产品细节设计的不足。
总体而言,汉王文本王文豪5800在识别印刷品的时候识别率高,识别速度也比较快,对于有大量文字录入需求以及需要将传统印刷品转换为电子档的用户来说,汉王文本王文豪5800是一个非常不错的选择。不过整体来看,文豪5800的配套软件设计得还不够精致,界面不够美观,风格也不够统一,很多细微的地方应该加以改进。和汉王名片通的配套管理软件比较起来,汉王文本王文豪5800的配套软件显然要逊色得多。
汉王文本王文豪5800的使用比较简单,其配套的印刷版使用手册图文并茂,对硬件安装和软件使用进行了非常详尽的介绍;电子帮助文档比较简单。
简单描述:文稿表格快速录入
一键扫入
WORD输出
省去了传统扫描录入时的灰度调整
倾斜校正等很多步骤
可实现1000页稿件的批量识别录入
最高速度可达6000字/分钟
文表图只需按一键就"复印"入WORD!
下载地址:
汉王文豪5800:/down/soft/
汉王文豪5300:/softdown/
汉王OCR2.5:ftp://software@211.147.168.80/pic/
汉王OCR2.5安装说明:
下载的压缩包解压后应该有三个文件:hwdocSetup文件夹、HWDOC 升级、汉王文本王2.5扫描仪破解程序_。
安装顺序:
1,先安装hwdocSetup文件夹中的汉王2.3主程序
2,运行“HWDOC 升级”进行升级
3,运行“汉王文本王2.5扫描仪破解程序_”进行破解
一切OK!!!
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5。我喜欢用汉王,5300和5800的OCR核心似乎相同,破解也是相同的,据说是完全破解,但批量处理时仍会出错,所以我还是用2.5的。
3,ABBYY FineReader OCR Professional 7.0
ABBYY FineReader 7.0专业版是最新、最准确的ABBYY OCR软件版本。它可以为用户提供最高级别识字精确率,是一个非常节省时间的好方案。FineReader允许你将各种纸张和电子文件转换、编辑以及重新使用,包括:杂志、报纸、传真、复制和PDF文件。
下载地址:/soft/
慧视小灵鼠
屏幕文字识别系统,可以从数码相机等各种设备摄取的图片中识别文字信息;联机手写文字识别系统, 可以脱离手写板的限制,任意书写文字。慧视-小灵鼠(包括屏幕取字和鼠标手写输入等新技术)
将至下载后,解压缩到统一文件夹内, 然后运行Disk1目录下的
下载地址:
/html/service/?channelid=12&catid=21&id=341
下载地址1:/html/service/download/
下载地址2:/html/service/download/
下载地址3:/html/service/download/
下载地址4:/html/service/download/
下载地址5:/html/service/download/
下载地址6:/html/service/download/
我试用了一下,很好用,用于摘抄非常方便,对于那些不能直接COPY的文字,用“慧视”是最方便不过了,省去了文字的输入过程。但美中不足的是不能用于批量识别,校对也不是太方便。要用于批量文件识别,还是汉王好。
其它还有:尚书OCR、汉王OCR、蒙怡OCR、丹青OCR等。
OCR软件使用方法
请参见:
/pcedu/soft/gj/photo/10205/
/eschool/inforcenter/A29_
如何将PDF文件转为文本?
此问题需分为两部分来解决:
一、如果PDF文档本身由WORD转成:
网上巳有很多这方面的论述,请参阅:
/
也可用其它PDF转Word工具,如:“PDF转Word工具”
/soft/
二、如果PDF文档本身由扫描文件转成,用上面的方法就无效了。那就需要分几步来完成:
1,先将PDF转为图片:
可用:“Galcott PDF Converter”软件将PDF转为图片格式
/SoftView/SoftView_
2,再用OCR软件识别、校对:
推荐使用“汉王OCR2.5”
ftp://software@211.147.168.80/pic/
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5,用它的批文件处理模式可进行自动识别,然后再校对。
3,输出到文本:
完成识别校对后,可用我先前发的“OCR助手”软件
/personal/wyx/download/
删除多余的换行符并合并导出为单个文本文件。
4,在WORD中作最后的修饰。
如何将PDG(超星格式)文件转为文本?
最简单的办法就是用超星自带的OCR进行文字识别了,不过效果和效率嘛.........
推荐的方法:
总的原理就是先把PDG转为图片,再用专业软件识别、校对,最后输出为文本。
1,将PDG转为图片
首先安装抓图软件“SnagIt”
/soft/
让你安装此软件,不是要你用它来抓超星的图的~~~,我们需要的是它的“虚拟打印”功能(安装时一定要选中安装虚拟打印)。
使用方法:在“超星”中打开需要进行格式转换的书,然后“打印”,在弹出的窗口中选择打印机时,选择“SnagIt”即可,并设置输出图片为“黑白”(如为“彩色”,那输出的文件大的可怕。),等打印结束后自动弹出SnagIt程序主界面,保存即可。
2,文字识别和校对
3,...........
4.............
请参阅上面的说明。
通过学习如何将PDF或PDG文件转换为文本文件,我们可以发现,关键是如何将源文件转换为图象格式,然后再进行文字识别,本人推荐使用SnagIt和汉王OCR,通用、快捷、方便。
如果以后遇到中国期刊网的CAJ文件、国图的NLC文件......等等等等,就不用我再.......
其它说明:
如果是要OCR PDF文件,似乎文件的大小不应成为障碍,因为我们会将PDF文件的每一页输出为一个图象文件(只要你的磁盘空间允许即可)。
如果一本书就是一个PDF文件,那操作起来会方便得多;反之,如果一本书由多个PDF文件组成,就需要进行重复的操作了。
如果你只是想要OCR其中的一部分内容,可用“打印”的方法(请参阅/cgi-bin/?forum=6&topic=289&show=0),并在打印时选择相应的页码即可以了。
如果你要分割或合并PDF文件,可以用PDF Split-Merge 软件,下载地址:
/?url=:8080/down/
另外:PDF Converter 1.4的Serial: 3861794
Office2003实现PDF文件转Word文档
经过本人尝试,发现可以利用Office 2003中的Microsoft Office Document
Imaging组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务。方法如下:
用Adobe Reader打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document
Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Microsoft Office Document Image Writer”项,使用Office
2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft
DRAW转换器”。
然后,运行“Microsoft Office Document Imaging”,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
注:对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用,其他版本没有Microsoft Office Document Image
Writer。
PDF 文件处理
1. 问:PDF 与WORD 之间如何通过软件实现格式转换 答:PDF—>DOC 使用软件Acrobat,pdf2word;DOC—>PDF 使用软件Acrobatpdf->Tiff(JPEG,PNG)->OCR 输出word,效果极佳,如果是English几乎不用怎么修改就可以用了.推荐OCR 软件:ABBYY FineReader 7.0;ScanSoft OmniPage Pro14.0(最强)
2. 问:如何把WORD 文档转换成PDF 答:安装Acrobat(不只是Reader)完全版,在安装选项里有的,把这一项选上,选pdfmaker.在word 的工具条上会有一个转换按钮.装好之后在WORD 的工具栏里面会有Adobe PDF,下拉菜单里面会有convert
to Adobe PDF,按那个就行了.在控制面板里的打印机里多了两个关于Acrobat 的,说明可以了.装了Acrobat 的话,默认会装一个distiller,你也可以装acrobat 里面的pdfwriter,它们两个都会成为虚拟的打印机的.然后在Word 里,File->Print 选择刚过装好的虚拟打印机就可以了.
3. 问:如何将PDF 文档直接转为WORD 除了ACROBAT 还有其它软件工具吗,用这个图片走样很厉害答:使用pdf2word,pdffactory 这些软件可以实现
4. 问:DOC 转换成PDF 时,图很不清楚,怎么办 论文的提交的格式是DOC,但
在DOC 转PDF 时,图很不清楚.答:不要用pdfwriter,用distiller 可能会好一些.或者用Letex,图的清晰度损失不大
5. 问:很多用VISIO 画的图,插入在WORD 文档里面的,怎么专成PDF 以后,图
里面的字母位置变了 而且变的很夸张,满屏幕乱窜,这个问题怎么办啊答:Word 中所有图片都变成tif 格式的.其他的一律事先转成tif,压缩的,这样文件也不大.或者变成BMP 位图也可以,但图片容量比较大.
6. 问:我想把PDF 格式文档直接转成DOC(就是WORD 文档)或者TXT(纯文本文档),可以吗 答:PDF 格式的文档是不能直接转换成DOC(WORD 文档)的,但是可以先转换成RTF 格式,然后再转成DOC 格式,前提是该PDF 文档必须是纯英文的,中文的PDF 转换之后会出现乱码.此时,需要用到一个工具:Aerial,这个工具是Acrobat 的一个插件,可以用来把PDF 文档转换成RTF 文档.原PDF 文档可以包
含图片,图片能正常转换到RTF 文档中.如果只需转换成TXT 文档,那么直接转换就可以了(图片就没了).
7. 问:PDF 文件中的文字怎么转换成WORD 答:如果是文本的,可以用Acrobat 选中文字功能,如果是图片格式的,可以用最新豪华版的维普的OCR 功能,但是要自己改错字.
8. 问:我的PDF 转WORD 的时候怎么排版变了 答:有些地方没有用固定的东"在经济学的边缘上" 网站欢迎你!
/web/fanyq2
西 固定,比如分页符,软回车,图片不统一也很有可能排版变掉
9. 问:PDF 转换成WORD,提示PDF 有密码,怎么办呢 答:找一个PDF 密码破解器,破解后,再转换就可以了.比如Advanced pdf Password Recovery;pdf Password
Remover;;Advanced Password Recovery5.3.后者是一个各种破解的集成,里面的Acrobat 是针对PDF 的.
10. 问:PDF 文件到TXT 文件的转换,除了copy 和paste 得方法外,还有什么办法吗 答:将WORD 转为PDF,然后用方法2 另存为rtf 文件,WORD 可以识别.但是一般的下载文献,因为本身是图形,所以第二种方法不能实现.
以上所说的是针对中文文本.PDF-—>WORD 方法总结如下:●如果PDF 本身就是图形的话处理方法如下:(1)英文处理方法:A,用photoshop6.0 打开PDF 将之转化为tif 格式文件.B,用Omnipagepro10.0 打开tif 文件,识别.这个东东识别准确率极高.(2)中文处理方法:A,用photoshop 打开PDF 将之转化为tif 格式文件.B,用th-ocr2000 专业版或者Shocr6.0 打开tif 文件,识别.●如果PDF 本身是文本的话处理方法如下:(1)使用BCL 公司的drake 软件(Acrobat 的插件)转换.使用第一种方法转换成的rtf 文件格式比较乱,不过可以直接拷贝出其中的图形.使用的二种方法转换成的rtf 文件格式遵循原文,不过不能拷贝原文中的图形.
11. 问:为什么我的PDF 文档不能选取文字内容或者存为rtf 或者txt
答:如果不属于这种情况,很可能是因为这个文档中的所谓的文字是从图像文件(比如扫描仪得到的结果)打印出来的.这种情况下是肯定不能直接选取文本的.顺便说一下,在Acrobat 6.0 中是另存为WORD 文档.解决办法:使用OCR 软件识别图像中的文本内容.识别英文的软件推荐Abbyy Fine Reader,中文推荐北大汉王,
清华紫光.扫描仪一般会附带这种软件的.
12. 问:怎么把pdf 格式中的图表拷贝出来 答:如下方式均可:●acrobat6.0 以上里面有复制表格这一个选项的●尚书六号软件●snagit●print screen 一键即可
13. 问:visio 的图转化为pdf 文件时出问题了,框图中的文字位置跑到外面去了,不知道怎么回事,其它几张都是好的,如何处理 答:即使转成wmf 格式插在word 中有时也会这样.把它转成emf 就没问题,应该在pdf 中也可以;或者把word 中的visio 框图换成位图,然后再转成pdf 就可以了;图片不要存成默认格式,存成tiff 格式,分辨率设得高一点,再插入到word中,再转成pdf 文件
14. 问:如何把pdf 文件连起来 答:用acrobat,全选,右键然后选择合并...;有个combine pdf 选项可以实现,文件(File)—创建PDF—从多个文件—浏览—添加多个文件—确定
15. 问:怎么将PDF 文件的其中几页保存为另一个文件 打印了之后,文件
"在经济学的边缘上" 网站欢迎你!
/web/fanyq3
打不开!怎么回事呢 答:可以试试选中要的几页,点击右键,选"选取文件"项,然后另存为另外一个文件即可
16. 问:怎么选中几页呢 就算只要一页,我点击右键也没有找到选取文件项,对啦,我在PDF 文件上加了一些阅读过的符号,如画线,加亮之类的,这个有影响吗
答:不知道你用的是哪个版本的acrobat,根据我用7.0 版的看来,在PDF 上作改动不会影响选页保存.我的是英文版,选页保存操作如下:先打开左侧的pages
栏,选择你要取出来的那些页,后右键选extract pages(我这边看来是第二项),之后会自动弹出来由选取的页组成的pdf文件,保存它就可以了.如果你要每一页分开保存,钩选那个extract pages as seperate files 即可.或者安装软件PDFFACTORY,打开你的PDF 文档,点击打印,选择PDFFACTORY,打印机选择打印的起始终止页码,确定打印,出来的就是原文中的你选择的某几页
17. 问:为什么我的PDF 不能用打印机打印 PDF 文件设置密码加密后不可复制打印怎么办
答:PDF 文档在创建的时候可以设置密码保护和权限,这一点可以在File—>Document Properties(文件-)文件属性)的安全选项里面找到.同时,如果文档
设置了权限限制,在Acrobat(Reader)窗口的下方会出现一个金黄色的钥匙图标(6.0
版本是左下角的一把锁).在安全选项里面包括打印,对文章修改的各种权限的设置,如果你使用的是Acrobat,可以在这里自行设置密码保护.解决办法:使用PDF 文档解密软件可以解决这个问题.推荐:Advanced pdf Password Recovery;pdf
Password Remover;Advanced Password Recovery5.3.后者是一个各种破解的集成,里面的Acrobat 是针对PDF 的.
18. 问:为什么我的Adobe Acrobat Distiller 打印机不能正常打印文档到文件或PDF 是把控制面板打印机里面的Acrobat 或者Distiller 打印机的preference
中"不发送字体到Acrobat(或者Distiller)"的复选框去掉,然后就可以了.
19. 问:金山词霸如何在Acrobat(Reader)上取词 答:要先装acrobat,后装词霸.将词霸目录下的 插件复制到Acrobat(Reader)的Plug_ins 目录下,两个软件都需要重新运行.文件是图形不能取词
20. 问:词霸在acrobat 5 中的取词解决方法答:在acrobat5.0 里的"edit"菜单,选择"Preferences",取消选择"Certified Plug-ins only"选项,再重新启动Acrobar
reader 就可以取词了.中文的是这样的:编辑->首选项->一般->选项->启动->仅认证的增效工具,勾勾去掉.中文5.0 默认就是去掉的,词霸可以识别
21. 问:英文的pdf 文件中如有中文字符该怎么办 投个国际会议,结果反馈的信息是说我的pdf 文件有postscript. error,有人说是中文字符的问题,用一个英文版的acrobat 打开,果然到有些页面要提示下载中文包,否则无法显示那些页面.原来是用word 写的,能想到的就是查找中文的逗号句号什"在经济学的边缘上"
网站欢迎你!
/web/fanyq4
么的,可是搜来搜去改完了还是有这样的毛病,起先想找个英文版的office来,发现这年头这种东东还真是稀有,ft,有没有哪位处理过类似的问题,指点一把,先谢过了...答:你可以用工具-》字数统计统计一下,里面是否有中文字符和朝鲜字.如果有的话,再慢慢的找.一般的来说,如果整篇是英文文本的话,里面混有中文字符的可能有:标点,特殊字符(如α等希腊字符),单位符号如度数(英文里没有这个特殊符号的,一般我是用上标0 和大写的C 组合的).这样再找找看.
22. 问:怎么编辑PDF 文件 就是在PDF 文档中加入一些文字,怎么操作
答:要装pdf adobe acrobat standard 软件,而不是reader 软件,其中中有个高级编辑,有个图标像T+ 的,这个是编辑的工具
23. 问:Google 搜索pdf 文档最佳方法如何 答:可以采用如下方法:●直接用pdf 作关键词●在要搜索的关键词最后空一格,写上filetype:pdf●inurl:pdf关键词.这是因为很多pdf 格式的文件会把其后缀显示在URL 地址里,有些却不会,所以应该是不全的.不知道这两个方法哪个好使,或者结合一下更
PDF转换成Word文档
关键词: PDF转换成Word文档
应该说,PDF文档的规范性使得浏览者在阅读上方便了许多,但倘若要从里面提取些资料,实在是麻烦的可以。回忆起当初做毕业设计时规定的英文翻译,痛苦的要命,竟然傻到用Print Screen截取画面到画图板,再回粘到word中,够白了:(最近连做几份商务标书,从Honeywell本部获取的业绩资料全部是英文版的PDF,为了不再被折磨,花费了一个晚上的时间研究PDF和Word文件的转换,找到下面2种方法,出于无产阶级所谓的同甘共苦之心,共享下:)
1、实现工具:Office 2003中自带的Microsoft Office Document Imaging
应用情景:目前国外很多软件的支持信息都使用PDF方式进行发布,如果没有Adobe Reader,无法查看其内容,如果没有相关的编辑软件又无法编辑PDF文件。转换为DOC格式则可以实现编辑功能。尽管有些软件也可以完成PDF转换为DOC的工作,但很多都不支持中文,我们利用Office 2003中的Microsoft Office
Document Imaging组件来实现这一要求最为方便。
使用方法:
第一步:首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office
Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。
第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
编辑提示:目前,包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作。
2、实现工具:Solid Converter PDF
应用情景:利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转Word文档在一定程度上的确可以实现PDF文档到Word文档的转换,但是对于很多“不规则”的PDF文档来说,利用上面的方法转换出来的Word文档中常常是乱码一片。为了恢复PDF的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式。
使用方法:
1、下载安装文件Solid Converter PDF,点击安装。
编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅。
2、运行软件,按工具栏要求选择需要转换的PDF文档,点击右下的“转换”(Convert)按扭,选择自己需要的版式,根据提示完成转换。
编辑提示:google了很多次,只找到了这个软件的非注册版本,试用期15天,很是郁闷。如有好心人找到注册版或正式版,一定要在小窝里留下地址,感激~。
下载地址:/soft/
如果还有其他比较好的转换方法,请留言。
pdf书籍快速转换为doc格式标准文本
当我试图将pdf文件转为doc格式时,遇到了两个棘手的问题:一是似乎在pdf文件天性保守,只允许选取当前页内的文本,跨页选择无效;二是将选定内容复制粘贴到word程序中后,会出现太多多余的回车,每行都有一个,想要不想要都有,该加不该加的全加。
有没有这样一种方法,不需第三方软件支持,也不必经过复杂的步骤,简单几步,就能轻松实现完美转换?经过反复试验,我真的找到了这种方法。操作步骤如下:
1、复制pdf文本。打开要转换的pdf文件,在菜单栏依次选择“视图”→“连续”,使文件内容可以跨页选取;用鼠标选取所需内容,或按下ctrl+a组合键选中全部文本;按下ctrl+c组合键复制所选内容。
2、粘贴到word文件。打开word程序,按下ctrl+v组合键,将剪贴板中的文本粘贴到新文件中。
3、转换应保留的回车。这时文本中的回车有三种类型,第一种是每行都有的,完全多余,需要删除,其特征是前面一般没有表示语句结束的标点符号;第二种是每段末尾的,应该保留,其特征是每个回车前面一般都有句号、问号、省略号、叹号、右双引号等表示段落终结的标点符号;第三种是章节标题后的,也要保留,有的特征不明显,有的则被设为与正文不同的字体。首先要做的就是根据第二、三种的特征,将这两类回车替换成其他符号,以免执行第4步时被误删。
①按下ctrl+h组合键打开“查找和替换”对话框,在“查找内容”处输入“。^p”,在“替换为”处输入“。^l”,其中“^p”代表回车,“^l”代表人工换行符,然后单击“全部替换”按钮,即可将全部以“。”结尾的回车符换成人工换行符。再用同样的方法,替换掉分别以问号、省略号、叹号、右双引号结尾的回车。
②打开“查找和替换”对话框,在“查找内容”处输入“^p”,依次单击“高级”→“格式”→“字体”,打开字体选择对话框,选取文本标题所用的字体,单击“确定”; 在“替换为”处输入“^l”;单击“全部替换”。这样即可将所有以指定字体显示的标题后面的回车替换为人工换行符。如果标题字体与正文相同,则可根据其他独特标志以类似方法替换,此不赘述。
4、删除所有回车。打开“查找和替换”对话框,在“查找内容”处输入“^p”,“替换为”处不输入任何内容,直接单击“全部替换”,则全部回车都被替换为“空”,即全部删除。
5、还原要保留的回车。打开“查找和替换”对话框,在“查找内容”处输入“^l”,“替换为”处输入“^p”,单击“全部替换”,则全部拟保留的回车都被恢复。
如果还嫌麻烦,我们也可以使用word提供的“宏”操作功能,将一系列的操
作录制成可以一次按键、自动执行的“宏”命令,以减少重复工作。操作步骤是:
①单击word菜单栏“工具”→“宏” →“录制新宏”,弹出“录制宏”的对话框;
②单击“键盘”工具图标,按下你将指定给这个宏的快捷键,依次单击“指定”和“关闭”按钮;
③执行从2至5的全部操作;
④单击页面左上方“停止”小窗口中的正方形按钮(停止录制),新宏录制完毕。
这样,下次需要在word中转换粘贴来的pdf文本时,只需要打开空白文件,按下刚才指定的快捷键,一切就全OK了。这样整个操作就简化成了两个步骤:一是复制pdf文档内容,二是在word程序中执行宏操作。
打破超星封锁——PDG转PDF新方法
用超星阅览器阅读PDG格式图书,需要一页一页地翻,很不爽,很想转为PDF格式以便于保存、阅读和打印。在网上搜索一下,基本上都是利用PDF虚拟打印机的方法。由于新版本的ssreader对虚拟打印进行了控制,直接使用adobe
acrobat以及office 2003的虚拟打印机需要改名,操作繁琐,简单试了几次没有成功;又不想下载安装其他的虚拟打印机,只好暂时放弃。
偶然翻看Acrobat Distiller的帮助,发现其可以将PS格式的打印文件转为PDF文件,于是产生新的思路,经试验完全可行。现将具体方法与大家共享。
1、找到任意一款打印机的PS驱动程序,并安装。
注意:是真实打印机(非虚拟打印机)的驱动,没有打印机没关系,我们只是利用他打印到文件中,而不是纸上。另外,打印机驱动一般分两种:PCL和PS,我们需要PS驱动。PS驱动程序可到打印机生产厂商的网站上下载,比如爱吃屁(HP)。
2、打开PDG文件。
3、计算书的总页数(封面+版权+...+前言+目录+正文)。
正文的页数可以在阅览器中直接看到,其他页数的自动计算方法没来得及研究,我用笨方法:数。
4、显示封面页,选择打印,起始页为当前页,页数为刚才计算的总页数;
选择安装的PS打印机,选择打印到文件。此时会弹出对话框,输入文件名,文件的扩展名最好为.prn(其他也可以,但prn文件Acrobat Distiller可自动识别),文件名中最好带路径,以便于查找。
5、用Acrobat Distiller打开prn文件,按提示即可转为pdf文件。
我用这种方法试验,转一本近500页的书只要1,2分钟的时间(当然不包括数页数的时间),并且从封面到正文都在一个pdf文件中。
词法优点:
超星为封锁虚拟打印机下了一番功夫,我相信在ssreader的以后版本中还会封锁更多的虚拟打印机。本文的方法使用真实打印机的驱动,除非超星不允许pdg文件打印到纸上,否则他永远也阻止不了我们将pdg转为pdf。
几句题外话:
网络给大家提供了信息交流的平台,给我们的工作和生活带来了很大的便利。本人很少泡论坛,只是在遇到困难时搜索一下,寻求帮助。但很多论坛(包括本坛)对一些帖子加了诸如威望值、经验值等等限制,认为将网络划成一片片自留地,从拉拢人气的角度可以理解,但此种做法不利于大家的交流,未免太小气,且造成坛内水贴乱飞,真是浪费资源,对此种现象提出批评。
这是本人在本坛的第一贴,也可能是最后一贴。希望本文对大家有帮助。BYEBYE。
——————————————————————————
以上是转贴全部内容,以下是个人实践的经验
——————————————————————————
经过试用,其实这种方法还是非常好的,下面是我使用的经验:
1:PS驱动根本不用下载,直接添加打印机,然后选择一款后面带有PS的打印机,最好选择彩色打印机,比如:HP Color LaserJet 8550-PS,这样就可以打印彩色书籍了,端口只要选择不冲突就行,一路下一步安装结束,就可以使用了
2:打印时选择打印到文件,这时需要输入文件名,自己连路径一起输入,扩展名直接用ps就行,如果没有路径打印出来的文件就在超星的history文件中。
3:然后就可以使用Acrobat Distiller转换成PDF文件,速度比Acrobat虚拟打印机快很多。(机器配置:CPU 2.8G,256MB内存,XP-SP2)
4:页数是不用数的,选中所有的PDG文件,有多少就有多少页。
这种方法不错,比PDF的打印速度快很多。
- 作者: 如意吉
版权声明:本文标题:PDF文件和图片如何转换成可以编辑word 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1706057347h500035.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论