admin 管理员组文章数量: 887021
2023年12月23日发(作者:海容模块建房多少钱一平方)
PDF 压缩器(企业版)— 手册
PDF 压缩器(企业版)
手册
PDF 压缩器(企业版)— 手册
目录
1.
简介 .................................................................................................. 4
2.
安装 .................................................................................................. 5
系统要求 ...................................................................................................................................5
原生数字转换选项的要求 ........................................................................................................5
网络要求 ...................................................................................................................................6
OCR 的服务要求 ......................................................................................................................6
临时文件的位置 .......................................................................................................................6
3.
PDF 压缩器的概念 ............................................................................ 7
图形用户界面 ...........................................................................................................................7
PDF 压缩服务 ...........................................................................................................................8
原生数字转换 ...........................................................................................................................8
4.
入门 .................................................................................................. 9
启动GUI ....................................................................................................................................9
向列表中添加条目 ....................................................................................................................9
运行作业 ................................................................................................................................ 10
删除列表条目 ........................................................................................................................ 10
5.
设立作业条目 ................................................................................. 11
设置常规作业属性 ................................................................................................................. 11
配置输入数据 ........................................................................................................................ 14
配置数据输出 ........................................................................................................................ 24
配置预处理 ............................................................................................................................ 35
配置OCR 和条码识别 ............................................................................................................ 40
配置文件和数据嵌入 ............................................................................................................. 45
配置文档压缩 ........................................................................................................................ 53
设置默认属性 ........................................................................................................................ 56
模板字符串语法说明 ............................................................................................................. 57
6.
管理作业列表 ................................................................................. 64
添加、删除和复制条目 ......................................................................................................... 64
改变作业条目的次序 ............................................................................................................. 65
开始和停止作业条目 ............................................................................................................. 65
监控作业 ................................................................................................................................ 65
导入和导出作业设置 ............................................................................................................. 66
7.
自动作业列表处理 .......................................................................... 67
找到并处理作业列表 ............................................................................................................. 67
作业列表文件优先级 ............................................................................................................. 68
PDF 压缩器(企业版)— 手册
作业列表文件语法 ................................................................................................................. 68
8.
通过 PDF 压缩器API 提交作业 ........................................................ 71
API 作业生命周期 ................................................................................................................. 72
C/C++ API .............................................................................................................................. 72
.NET API ................................................................................................................................ 72
API 演示应用程序 ................................................................................................................. 73
9.
管理和许可 ..................................................................................... 74
配置设置 ................................................................................................................................ 74
管理许可证 ............................................................................................................................ 76
管理 PDF 压缩器服务 ........................................................................................................... 79
原生数字选项 ........................................................................................................................ 81
10.
提示和技巧 ..................................................................................... 83
11.
故障解决......................................................................................... 84
12.
许可协议......................................................................................... 86
13.
支持和联系方式 .............................................................................. 90
PDF 压缩器(企业版)— 手册
1. 简介
福昕PDF压缩器是一个业内领先的,有关文档自动转换和压缩的解决方案。它具有良好的可扩展性,既适合于处理少量的数据,也适合于处理大量的输入。
PDF 压缩器将扫描文档进行压缩,并转换成 PDF 或 PDF/A。通过使用原生数字模块,更多的数字输入格式(比如 MS Office™ 文档、PDF 以及 MSG 或带有附件的 EML 格式的电邮都可以被转换成PDF/A。
由 PDF 压缩器(企业版)提供的出色的文档压缩大大减小了文件大小,同时以一种与 ISO
标准兼容的格式确保一流的文档质量,适于长期归档。
完整集成的 OCR 引擎提供可全文搜索的 PDF 压缩结果。生成的文档可以自动传给下游系统,进入下一步的业务流程进行处理。
福昕 PDF 压缩器可以根据不同的要求生成相应的 PDF 文件,比如不使用 PDF 新功能, 以便与 Adobe™ Reader™ 5.0 (或其他更早的文件阅读器)兼容,或符合 PDF/A 标准
(PDF/A-1、PDF/A-2、PDF/A-3)的可归档文档。
福昕PDF压缩器(企业版)具有下列功能:
彩色文档图像的可缩放高质量压缩
应用 OCR 从扫描页面创建可全文搜索的PDF
将PDF 转换成PDF/A
对现有PDF 文档中的图像或扫描页面进行优化
文档的合并、分割以及重命名
1D 和 2D 条码识别以及通过条码进行分割、重命名和创建PDF 书签
将数字文档与扫描页面结合,比如将证明和证书附到某个在线应用中
将以数字形式创建的以及扫描的文档统一转换成PDF/A 格式,用于长期归档
从监视的输入文件夹自动输入
根据时间触发作业的开始与停止
作业列表处理
模式下的全自动处理
简介: 4
PDF 压缩器(企业版)— 手册
2. 安装
运行自解压的安装程序,按照安装程序的说明进行操作。安装程序应命名为LT_PDFCE_Setup_
注:安装 福昕PDF压缩器需要管理员权限。
系统要求
Windows™ 32 位或 64 位、Vista / Windows 7 / Windows 8 / Server 2008 / Server 2012
CPU:Intel/AMD 或兼容的 x86 或x64 处理器,支持单核和多核处理器
CPU 速度:最低 1 GHz, 建议 2 GHz 或以上
RAM:每个被许可的处理器核最低 1 GB,建议每个核 2 GB,在 64 位系统上转换大文档时
需要高过 2 GB
安装对硬盘空间的要求:1 GB
Microsoft™ .NET Framework 4.0
注:这些是最低的安装要求。生产环境所要求的资源应咨询福昕。
原生数字转换选项的要求
除了普通的系统要求之外,对于 PDF 压缩器(企业版)标准版的原生数字
文档转换,还必须满足下列条件。
将PDF 转换成PDF/A 无需任何准备工作。
若想成功转换其他的原生数字文件格式,则必须满则下列条件:
1. Windows™ 64 位、Windows 7 / Windows 8 / Server 2008 R2 / Server 2012
2. 应安装必需的办公软件。
若要转换 Microsoft Office™ 文档,则必须安装 Office 2007 或更高版本的适当组件,以便能够打开需要转换的所有 Office 文档类型。确保 Microsoft Office 应用能够另存为PDF (对于 SP2 之前的 Office 2007,必须安装“Microsoft Save
as PDF or XPS”插件)。
若要转换 ODF(打开文档格式)文档,则必须安装适当的 3.2
组件。
3. “福昕PDF压缩器企业版”服务必须在专门的用户账号下运行。
使用Windows 服务管理器 () 在服务属性中更改登录设置。
账号可以是本地的,也可以是域内的,但该用户账号必须具有电脑的管理员权限。
该账号必须有足够的权限来访问实际需要转换的文件,并有足够的权限通过
(D)COM 界面访问 Office 应用。
安装: 5
PDF 压缩器(企业版)— 手册
4. 首次自动转换之前的人工准备工作:
用专为该服务创建的专用用户账号登录,并打开用来转换的每个 Office 应用。
确认所有的输入文件类型都可以在 Microsoft Office™ 和/或 中正常打开。该步骤要求完成 Office 安装并确保其完整性。
针对Microsoft Office™ 测试“另存为 PDF”功能。
应将所有需要用户进行输入的启动对话框禁用。
网络要求
福昕PDF压缩器能以单机方式运行,但在读写文件时可能需要访问网络。系统管理员必须确保用于运行 福昕 PDF 压缩器服务的账号拥有相应的读写权限。请参见第 80 页的管理
压缩器服务
了解更多详情。
OCR 的服务要求
OCR 功能通过使用 ABBYY™ FineReader™ Engine SDK 来实现。要使用 OCR 功能,则必须运行
ABBYY SDK 11
许可服务。该服务在安装过程中会被设立,请勿将其禁用。
临时文件的位置
PDF 压缩器在处理过程中可能需要保存临时文件。这些文件将保存在服务账号的临时文件夹下的“LT_PDF_Compressor”子文件夹中。临时文件夹的路径由下列环境变量指定:TMP、TEMP 或 USERPROFILE。如果没有为用户或系统指定上述任何一个变量,则将使用Windows
目录。或者,也可使用环境变量 LT_PDFCOMP_TMP 为 PDF 压缩器指定一个临时 文件夹。
安装: 6
PDF 压缩器(企业版)— 手册
3. PDF 压缩器的概念
福昕PDF压缩器的设计初衷是可以自动转换文件,无需任何用户干预。福昕PDF压缩器在配置完成后,将在后台运行。您无需再在系统上登录。即便在您关闭并重启您的系统,PDF 压缩器也会继续处理它的作业。
这种功能缘于PDF 压缩器的两个基本组件:
图形用户界面(GUI),您可以通过它来配置和监控系统。
底层的Windows™ 服务,它执行转换作业。
但是,任何常规的、基于 Windows 的应用都可以使用 GUI,无需关注其底层的 Windows™
服务。
图形用户界面
作业列表
作业列表是GUI 的主要元素。首次启动PDF 压缩器时,您会看到一个空列表。您首先要做的就是往这个列表里增加一个条目。这可以通过创建一个新条目,也可以通过简单地把文
件或文件夹拖放到该列表窗口来实现。(请参见第 64 页的管理作业列表)。
一个条目有许多属性。其中之一是您要处理的输入文件或文件夹,其他属性则包括为了文件转换而设置的所有参数。这个列表可以包含的条目数量不受限制,因此您可以设置不同类型的文件转换,每种类型有其单独的一套参数。
您可以对条目进行配置,以便在网络中访问不同的网络共享,或者通过使用不同的条目从 相同的输入文件创建不同版本的PDF 文件(高分辨率、高质量以及低分辨率、高压缩等)。
完整的作业列表可以保存为文件,也可以从保存的文件恢复完整的作业列表,以启用备份功能或管理完全不同的设置。
PDF 压缩器的概念: 7
PDF 压缩器(企业版)— 手册
作业条目及其属性
在每个条目中您可以定义它的属性:
访问的输入类型(某个文件、某个文件夹中的所有文件、某种类型的文件等等),
如何访问(读取一次,或从热文件夹
频繁读取),
输出的存放位置,
发生错误时怎么处理,
要增加哪些附加数据(元数据),
如何压缩数据(质量、分辨率、PDF 兼容性等等)。
每个条目都可以单独启动和停止,让您可以根据自己的需要运行单个文件压缩。
默认属性
因为大多数情况下您并不需要创建完全不同设置的作业条目,您可以为新条目配置默认属性。创建新条目时,默认条目
的设置会被用作模板。
合理选择一套默认属性之后,当您需要将文件转换成PDF 时,只要简单地将文件拖放到列表里,然后按下开始按钮,便能轻松实现文件转换了。
PDF 压缩服务
通常您不会注意到底层的Windows™ 服务。它会处理您在 GUI 中设置的文件。因为 GUI 独立于服务,因此您可以配置并启动一个或多个作业条目,之后您可以关闭 GUI 并退出。当您再次打开GUI 时,系统会告知您正在运行的作业的进度。
原生数字转换
PDF 压缩器(企业版)的标准版本包含一个用于转换原生数字文件(比如 Microsoft
Office™ 和 OpenOffice™ 文档和电子邮件信息)的可选组件。您可以选择是否安装该组件, 使用该组件需要额外的许可。
安装完成的、带许可的原生数字组件提供下列类型的转换:
1. 将 Microsoft Office™、OpenOffice™、HTML 以及纯文本文档转换成 PDF or
PDF/A。
这些输出格式之间的区别通过属性
对话框的输出
选项卡上的选项进行指定(请参见第 24 页的配置数据输出)。
具体的格式类型列表取决于您如何安装并设置 MS Office 和 OpenOffice 应用。通常支持的应用和格式包括Microsoft Word、Excel、PowerPoint 和 Outlook
以及OpenOffice Writer、Calc 和Impress。
2. PDF 压缩器还可以转换以 EML 和MSG 格式保存的电子邮件消息。对于所支持的输入文件类型,其附件也会被提取和转换。
3. PDF 文档可以被转换成 PDF 或 PDF/A 格式。同样,这些输出格式之间的区别通过属性
对话框的输出
选项卡上的选项进行指定(请参见第 24 页的配置数据输出)。请注意,PDF 的转换不会涉及到MS Office 或 OpenOffice 应用。
一些选项可用于改善原生数字转换的稳定性,比如通过自动重新启动。如需了解详细信息,
请参见第 81 页的原生数字选项。
PDF 压缩器的概念: 8
PDF 压缩器(企业版)— 手册
4. 入门
本部分描述了将扫描的文档文件转换成 PDF 文件的基本步骤。更多详情,请参见第 11 页的设立作业条目。
启动GUI
要启动GUI,请双击PDF 压缩器任务栏图标 或使用Windows™ 开始菜单项
LuraTech → PDF Compressor Enterprise → PDF Compressor。
首次启动GUI 时,您会看到一个空的列表:
向列表中添加条目
有几种方法可以增加新条目。最直接的方法是打开 Windows™ Explorer 并将某个文件或文件夹拖放到列表窗口。将设置新条目,以便将给定的(或给定文件夹中的所有文件)转换成PDF。输出文件会被放置在其对应的输入文件的旁边。1
1
更改默认属性能够更改这种行为。这里给出的说明与出厂默认设置有关。
入门: 9
PDF 压缩器(企业版)— 手册
运行作业
有几种方法可以启动列表条目所代表的作业。此处仅描述其中的一种:
选择您要启动的条目,然后点击工具栏中的启动按钮 。该条目的状态将从已停止(继而启动)变成运行,一旦作业完成,状态变回已停止。
在作业运行期间,您可以通过点击工具栏中的停止按钮
钟时间。任何不完整的PDF 输出文件将被删除。
来中止它。中止操作需要几秒删除列表条目
您可以在不保存当前作业列表的情况下关闭 GUI。当您再次打开 GUI 时,列表会重新出现,
与您关闭 GUI 时看到的完全一样2。如要将某个条目从列表中移除,选择该条目并点击工具栏中的删除按钮 。
2
当前列表会立即保存在系统中,供底层的 PDF 压缩器服务使用。
入门: 10
PDF 压缩器(企业版)— 手册
5. 设立作业条目
一旦某个作业条目被添加到列表中,您就可以编辑它的属性 (请参见第 9 页的向列表中添加条目)。可用以下任一操作打开属性会话框:
双击列表中相应的条目。
使用与该列表条目关联的上下文菜单。
选择该条目,然后使用工具栏的属性按钮 。
选择该条目,然后使用菜单
条目
→
属性。
您可以在属性对话框中更改条目的名称,以便您更容易地识别相关的作业。条目名称也在日志文件(请参见第 74 页的日志文件)中使用,以识别信息、警告以及错误。
设置常规作业属性
在常规
选项卡里,您可以配置选定作业的常规属性。您可以在这里定义作业的优先级别,
您也可以将作业配置成延迟启动以及定期停止和重新启动。
设立作业条目: 11
PDF 压缩器(企业版)— 手册
作业列表处理顺序
作业优先级
可以设为 1(最高)到 10(最低)。数字越小优先级越高。该设置仅当菜单文件
→
优先级处理次序
被启用时才可用。工具栏按钮 也可以用于开启和关闭优先级处理
模式3。
优先级处理次序和处理超时
如果启用了优先级处理次序,则会优先处理优先级较高的作业。
按交叉次序处理作业单位时,会对优先级相同的作业并行处理:一旦某个单位
被处理完,
便开始处理拥有相同优先级的下一项作业的下一个单位。如果有多个 CPU 核被许可启用,
就可以同时处理多个作业单位。位于主窗口下部的进度条列表显示关于每个 CPU 核的信息,包括当前正在处理的作业单位。
一个作业单位
包含用于生成一个 PDF 输出文档的所有输入文件4。如果启用了输入合并
(请参照第 14 页的配置输入数据),则一个作业单位包括要合并到一个文档中的所有文件,除非它只是单个输入文件。
3
若要更改优先级处理
模式,应将作业列表中的所有条目停止。
4
注意,如果启用了输出分割,则一个 PDF 输出文件可以被分成多个 PDF 文件。请参见第 24 页的配
置数据输出。
设立作业条目: 12
PDF 压缩器(企业版)— 手册
当热文件夹作业(请参见第 14 页的配置输入数据)的输入文件夹为空时,热文件夹作业
视为已完成。一旦检测到新的输入文件,则重新启动一个热文件夹作业并按照其优先级设
置进行处理。
优先级处理次序
允许设立复杂的作业依赖关系。优先级高的热文件夹作业可以用来动态地中止优先级低的其他作业。作业的优先级可以随时更改,即便该作业正在运行中。由此您可以在不停止当前正在运行的作业的情况下启动一个应立即处理的临时作业。
关于优先级处理选项的更多信息,请参见第 76 页的优先级处理。
有了处理超时,您就可以为某个作业单位的处理设定一个最长持续时间。(作业单位
的定义请参见第 76 页的优先级处理。)如果处理某个作业单位花费的时间超过规定的持续时间,则该单位的处理将被中止。这种中止被视为一个错误,被记录在日志文件中。就可选设置的后处理步骤而言,中止也被视为错误。
列表处理次序
优先级处理次序
是用于控制作业处理次序的首选方式。为了向后兼容之目的,列表处理次序
仍然可用。若要启用列表处理次序,必须从文件菜单禁用优先级处理次序。
在列表处理次序
模式中,所有作业按照它们在作业列表中出现的次序进行处理。优先级次被忽视,并且作业按照它们在作业列表中出现的次序被相继处理。无法动态地暂停正在运行的作业。
作业列表处理
在作业列表处理
模式下(请参见第 67 页的自动作业列表处理),PDF 压缩器动态地从作业列表文件夹读取作业列表。在
API
模式
下,作业可以通过程序设计界面(请参见第 71 页的通过
压缩器
API
提交作业)传送。这些模式都允许在工作流设置中从外部控制
PDF 压缩器。
对于作业列表处理,可以使用列表处理次序
模式来执行作业列表及列表中所包含作业的处理顺序。在正常的优先级处理次序
模式下,作业是被并行处理的,只要有处理器核空闲下来并且没有更多的作业等待处理,就会有新的作业列表添加进来。
时间处理计划
通过勾选其对应的复选框可以启用时间处理计划这一设置。之后可以为某个预定的作业设 定下列参数:
1. 在启动作业
字段中输入您需要的开始时间。您可以输入某个日期和时间,也可以从日历小部件中选择时间和日期,当您点击条目右侧的箭头时,该日历小部件就会出现。在选定的时间作业就会按时开始。
2.
持续时间
规定了作业运行的时间跨度。您可以选择天数、小时数或分钟数以规定持续时间。规定的时间一结束,作业便会停止。
3.
重启间隔
指第二个时间跨度,在该时间跨度之后已停止的作业会被再次启动并持续特定的时间。这个值只能是天数。一旦作业已被启动,此类再启动会定期发生,除非重新更改设置。
设立作业条目: 13
PDF 压缩器(企业版)— 手册
注:持续时间
与重启间隔
设置可以各自单独启用。这意味着作业可以在给定的时间间隔内仅运行一次,不会再启动。另一方面,一项作业可以定期重新启动,没有固定的持续时间,一旦该作业的所有当前输入处理完成,该作业便结束。
配置高级作业选项
在高级作业选项
对话框中,您可以配置更多的错误处理和LuraTech 维护设置。
1. 如果严重错误后继续作业
选项已被启用,则发生严重错误时(比如“输入文件夹不存在” 或“无法创建输出文件夹”)PDF 压缩器不会停止热文件夹作业,而会进入空闲状态并且在稍后再次尝试。
2.
LuraTech
维护
条目不得使用,除非支持团队这样建议。对于正常处理,该密钥
必须保留为空。
配置输入数据
在输入
选项卡中,您可以配置哪些输入文档应转换成 PDF 格式。目前,可接受的输入文件格式有 TIFF、JPEG、JP2 (JPEG 2000)、BMP、PNM、GIF、PNG、PDF 以及 JPM (JPEG
2000 part 6)。借助可选的原生数字模块,更多的输入格式,比如 Microsoft Office 和保存的电子邮件信息,也可以转换。
多页 TIFF 和 PDF 文件可被识别并转换成多页的 PDF 文档。此外,您可以设置输入重采样以调整您的数据分辨率。
设立作业条目: 14
PDF 压缩器(企业版)— 手册
1. 若要转换单个文件,请选择文件,或者如果需要转换特定文件夹中的所有文件,请选择目录5。使用浏览按钮 ,您可以选择文件或目录6。您无法使用映射的网络驱动器来指定输入文件或目录。底层的 PDF 压缩器并不清楚哪些是映射的网络驱动器。您可以通过使用语法 hostsharedir 来指定网络共享。请参见第 80页的选择服务账号
部分,了解在这种情况下应如何设置访问权限。
2. 选好目录
后,您有下列选择:
a. 如果整个目录子树都需要转换,则请启用包含子文件夹。否则仅转换直接位于指定文件夹下的文件。
b. 如果您选择了包含子文件夹
并且转换完成后要清理这些子树,则启用删除空文
件夹。如果您所配置的设置是移动或删除所有已处理的输入文件,则应启用该设置(另请参见第 35 页的配置预处理)。一旦给定作业的所有文件都处理完毕,会对输出文件夹进行检查,所有空的子文件夹将被删除。如果输入文件夹
是一个热文件夹(参阅下一条),则一旦该热文件夹进入空闲状态(即当时没有文件需要处理),便会执行清理程序。
5
当您使用浏览按钮时,您可以手工输入路径,也可以通过拖放来更改路径,PDF 压缩器会自动核实输
入的路径是文件还是目录。注意,如果元素位于某个网络共享上,则核实操作可能要花一点时间。
6
输入路径的文本编辑窗口支持文件拖放:只需要将某个文件或文件夹从 Windows™ Explorer 拖放到
这个窗口即可。
设立作业条目: 15
PDF 压缩器(企业版)— 手册
c. 启用检查频次每
秒
可将给定的文件夹转换成热文件夹,也就是说作业会频繁检查该文件夹是否有新生成的文件(比如通过外部扫描仪或截屏软件)。启用了这种选项的作业永远不会自动停止,因为它一直监测着给定的文件夹。您必须手动停止它。
该选项只有在以下情况才有意义:您已删除转换成功的输入文件,或将它们移到另一个文件夹。另请参见第 35 页的配置预处理。
d. 如果来自某个文件夹的所有已处理文件的所有页应转换成一个 PDF 输出文档,
则请启用合并所有页。输出文件将被命名为
如果扫描仪把已编号的单页文件(比如 、 等)放入一个文件夹,则前述选项可用来合并来自该扫描仪的页面。
e. 可以从给定的列表中选择输入文件格式。文件格式源于文件的扩展名。
TIFF
格式支持 *.tif 和 *.tiff 文件的转换。目前,PDF 压缩器支持双极、灰度以及RGB 图像。目前尚不支持 CMYK 和 CIELab 颜色以及托盘化图像。
JPEG
格式支持 *.jpg 文件的转换。
JPEG 2000
格式支持 JPEG 2000 文件的转换。扩展名 *.jp2、*.jpf、
*.jpx*.j2k、*.jpc 以及 *.j2c 可以被识别。
格式支持PDF 文件的转换。如果在光栅化
输入
下选择了总是,
则在应用 MRC压缩技术之前,将会按照高级输入选项
对话框的高级
选项卡中指定的分辨率将 PDF 光栅化(请参见第 18 页的高级输入选项)。如果在光栅化
输入
下选择了自动,则 PDF 文件可能会被光栅化,比如不光栅化就无法转换成PDF/A 这种情况。
BMP
格式支持 *.bmp 文件的转换。目前尚不支持托盘化图像以及一些奇特的变体。
PNM
格式支持 *.ppm 和*.pgm 文件的转换。
GIF
格式支持 *.gif 文件的转换。对于动画 GIF 文件,仅第一帧会被转换,
并且在日志中记入一条警告。
PNG
格式支持 *.png 文件的转换。
只有安装了原生数字转换
选项之后,MS Word、MS Excel、
MS PowerPoint、电子邮件、OpenOffice Writer、OpenOffice Calc、
OpenOffice Impress
等格式才可用。上述任何文档输入类型的组合都可以被转换成PDF 或PDF/A。请参见第 8 页的原生数字转换
和第 5 页的原生数字转换选项的要求,了解关于原生数字转换的详细信息。
额外的扩展列表
用于提供可处理的其他文件扩展名一览表。只有安装了原生数字转换
之后,该条目才能启用。所输入的每个扩展名之间必须用空格隔开。
设立作业条目: 16
PDF 压缩器(企业版)— 手册
3.
高级输入选项
按钮会打开一个对话框,用于配置更多的输入选项。请参见第 18 页的配置高级
输入选项
部分,以了解详情。
4. 如果您配置了多个 PDF 压缩器企业版一起处理同一个输入目录(通常是网络共享),
您需要启用使用锁定的文件同步到
压缩器。这确保正在由某个 PDF 压缩器处理的输入文件不会被另一个 PDF 压缩器读取。这是通过使用锁定文件
*.lock
和
*.dlock
来实现的,PDF 压缩器用户通过锁定文件来锁定某些输入文件或某个目录的所有文件(当启用了合并所有页时)。
注:使用锁定文件时,PDF 压缩器服务必须对输入目录拥有写入权限。
重要提示:当使用锁定文件时,*.lock
和
*.dlock
文件会在不提示的情况下被覆写。请不要对您自己的文件使用这些扩展名。
注:文件
PDF_
可用作用户自定义的、适用于某个目录的所有文件的锁。相比于锁定文件
*.lock
和
*.dlock,DF_
可以由用户管理。
如果启用了使用锁定的文件同步到
压缩器,则如果 PDF 压缩器发现在某个目录中含有
PDF_
文件,它就不会处理该目录中的任何文件。这可用于配置启用了合并所有页
的热文件夹:外部程序会在含有
PDF_
文件的 PDF
压缩器热文件夹下创建一个新的目录,并将随后需要被合并的所有文件拷贝到此处。当最后一个文件拷贝完成时,该外部程序会删除
PDF_。当 PDF 压缩器下次检查该热文件夹时,便会开始处理给定的文件。
5.
光栅化
输入设置提供了处理PDF 输入文档的不同模式:
a. 默认的设置为自动。在这种模式中,PDF 压缩器将自动决定在什么情况下将PDF 输入文件的排版或向量内容转化成光栅图形。它会尽量避免此类转换,但对于无法用其他方式转换的文档,它会将这种方式作为备用选项。
b.
总是
— 这种模式将在压缩或转换PDF 输入文档之前将所有页面都转换成光栅图形。对PDF 输入来说,这种模式等同于之前的MRC 压缩模式。
c. 在从不
设置下,PDF 压缩器不会试图光栅化任何非光栅输入。这样您就可以避免排版或向量内容被无意转换成光栅图形。另一方面,这可能导致某些类型的PDF 输入文件无法转化成PDF/A。
请注意,如果选择了自动
或从不
设置,并且如果在压缩选项中选择了彩色图像优化
或双调图像优化,则输入文档中原有的光栅图形仍可能被重采样或压缩。(此类图形可能是,
PDF 文档中的扫描页面或大尺寸图像。)
设立作业条目: 17
PDF 压缩器(企业版)— 手册
配置高级
输入选项
点击高级输入选项
按钮会跳出一个对话框,里面有关于输入选项的更多设置。
高级输入选项
1. 启用只读取了
个页面(从每个输入文件中)
以将从每个输入文件读取的页数限定在给定的限值。如果您将来自某个输入目录的所有文件(请参见第 14 页的配置输入数据)合并成单个 PDF 输出文件,如果您将输入页数的最大值设成 1,可创建只
包含这些文件的封面页的文档。
2. 如果您需要对输入文件按照区分大小写的字母数字顺序进行处理,则可以选择不区分大小写,对输入文件和文件夹进行排序。否则,文件的处理顺序会区分大小写(大写
字母按字母表顺序小于小写字母,因此“Ac”排在“ab”前面)。
3. 启用读取每个输入文件的本地副本,可以解决共享网络中与输入文件的位置有关的问
题。文件被临时拷贝到本机的临时文件夹,在该临时文件夹中打开和读取。在网络上传输小部分数据很慢时,这个功能特别有用。
4.
默认分辨率:如果输入图像文件不包含任何分辨率信息,则使用默认设置中给定的值
(以 dpi 为单位)。此外,当输入 PDF 文件被光栅化时(通常情况下 PDF 文件没有特定的分辨率信息)也使用这个值。
a. 启用为
输入优化
dpi,可以自动选择一个最优 dpi 值用于渲染每个PDF 输入页面。最优值是从嵌入在 PDF 输入页面中的所有图像的分辨率计算得到的。如果页面上没有图像,则使用默认分辨率
的设置。否则,将计算所检测到的图像的最高分辨率,并将该值剪切到输入
选项卡的重新采样
选项中的分辨率范围。我们建议仅当输入PDF 文档源于扫描程序时才启用该选项。
设立作业条目: 18
PDF 压缩器(企业版)— 手册
b. 原生数字 PDF 文档包含的图像可能实际尺寸小(比如长或宽小于一英寸),但像素多(比如 1000*1000 像素),这种图像被计算之后会得出不实际的分辨率
(在本例中大于 1000 dpi)。对于原生数字文件,您应该使用一个固定的默认分辨率
值并且不启用为
输入优化
dpi,或者在重新采样
设置中设定一个比较窄的分辨率范围。
5. 通过重新采样,您可以更改输入的分辨率。为什么需要更改输入的分辨率呢?原因有二:
a. 如果输入分辨率太低(低于 150 dpi),则 PDF 压缩器输出的质量可能太低以至于不符合您的需要(尽管文件大小非常小)。更改分辨率(比如改为 300 dpi)
将产生更好的结果。
b. 如果您最初的扫描图是高分辨率(比如大于 600 dpi),您可能想生成分辨率较低的PDF 输出。
最小
和最大
dpi
设置能够满足这些要求。如果输入文件的分辨率不在给定的 [最小,最大] 范围内,则通过重采样至最小值或最大值,分辨率将得以更改。
注:请记住,重采样设置只影响灰度和彩色图像。双级或 B/W 图像的分辨率不会更改。如果是 JPEG 2000 输入,将使用文件解码功能将 JPEG 2000 降到较低的分辨率。当所需的分辨率较低时,这种功能可以实现快速读取巨大的JPEG 2000 图像。
6. 当直接从
JPEG
图像输入创建
页面不重新编码
被启用时,JPEG 输入图像不会被提交给 MRC 或 JPEG 2000 压缩,而是直接作为页嵌入到 PDF 输出文档中。这样就可以避免重复压缩此类输入文档。另一方面,这些页的尺寸也不会被缩小。
7. 对于将直接嵌入 PDF 页中的 JPEG 图像,当添加未重新编码的图像时跳过
JPEG
验证
将省略所有的完整性检查。这存在风险,因为加入不完整的 JPEG 输入图像会导致生成不完整的PDF 输出。
8. 启用了使用存储在
TIFF
输入文件中的角度
之后,以可选方式包含在 TIFF 输入文件中的方向信息将决定PDF 输出文档中相应页的方向。
设立作业条目: 19
PDF 压缩器(企业版)— 手册
输入选项
在高级输入选项
对话框的
输入
选项卡中,您可以配置与打开 PDF 输入文件相关的选项。
1.
文档打开密码
用于打开带有密码保护的 PDF 文件。给定的密码以加密方式保存在 PDF
压缩器中。注意,这种加密方式并不能满足最高的安全要求。当输入 PDF 文件不受密码保护时,预设的密码将被忽略。
2. 除了用打开密码来保护 PDF 文档之外,还可以用修改权限密码
来保护它。当需要修改
PDF 的访问权限时,必须输入该密码。
3. 除非光栅化
输入
已被设成从不,否则
输入光栅化
选项总是可用的。
a.
内插图像
开关影响 PDF 输入文件的光栅化。PDF 输入文件可能含有需要缩放以进行光栅化的嵌入式图像。内插图像
应该打开以获得最佳的图像质量。但是,
如果输入 PDF 文件只含有双色调图像内容,并且该 PDF 被光栅化成与嵌入式图像的分辨率相同的分辨率,则内插图像可以关闭以加快 OCR 进程。
b.
默认
页面大小
中您可以为下述输入文件选择页面尺寸:该输入文件是 PDF
文件但却丢失了页面尺寸信息,但却必须被光栅化。通常,PDF 文件的所有页面都带有页面尺寸信息。但是,有些应用会创建没有页面尺寸信息的不规范PDF 文件。增加该选项就是为了处理此类不规范的PDF 文件。
选择列表末尾的用户自定义...输入用户定义的页面尺寸,对页面的宽度和高度进行定义。
c. 当输入 PDF 文件包含非常大的页面从而导致内存不足错误时,选择备选的光栅化方法
会很有用。备选的光栅化方法占用的内存要少得多,但也比较慢。
设立作业条目: 20
PDF 压缩器(企业版)— 手册
4.
限制
转换
—
仅对转换中的
输入文件使用
优化
选项仅当安装了原生数字模块时才启用。如果选择了该选项,则它会阻止在转换 PDF 输入文件时尝试使用原生数字转换
功能。相反,此类文件仅使用
优化
功能进行处理。
注:该选项主要用于确保与使用 PDF 压缩器 7.0 之前的版本设置的作业之间的向后兼容性,7.0 版之前的版本用
优化
模式来转换 PDF 输入。总的来说,建议使用原生数字模块提供的转换。
输入过滤器选项
您可以在高级输入选项
对话框的输入过滤器
选项卡中配置这些选项,使 PDF 压缩器将某些输入文件排除在外。
1.
不处理
输入文件若其小于...kB
选项用于跳过小于给定文件大小的输入文件。这可以(比如)用于阻止处理已被压缩的PDF 文件。
2. 使用元数据过滤器
选项,您可以根据 PDF 元数据来跳过 PDF 输入文件的处理。被跳过
的文件不会被处理成输出文件。相反,它们会被直接转到输入文件的后处理流程(请参见第 35 页的
配置预处理)
a. 跳过符合过滤标准的 PDF 文件或跳过不符合过滤标准的 PDF 输入文件取决于您的选择。
b. 如果在 PDF 元数据中找到了要核对的元数据键,并且它的值与下方的搜索文本相匹配,则符合过滤标准。
c. 搜索文本或者与完整的值比较,或者作为元数据值的一部分被搜索,这取决于
全值匹配
选项。
d. 通过启用复制跳过的文件到目录,被跳过的输入文件会被拷贝到某个目录。
设立作业条目: 21
PDF 压缩器(企业版)— 手册
Office
输入选项
在
Office
输入
选项卡中,您可以为Microsoft Office 输入文件的原生数字转换配置选项。
1. 如果选择了使用
Excel
页面布局
选项,则将该文件转换成PDF 时,将使用 Excel 输入文件中规定的打印页面布局。该选项默认为禁用,以使 Excel 输入文件中的每个非空工作表转换成一个PDF 输出页。
2. 如果选择了使用
OpenOffice
处理
MS Office
文档,则所有 office 输入文件均使用OpenOffice 转换。很显然,这种情况必须已经安装了 OpenOffice。在默认情况下该选项处于关闭状态,每个输入文档均使用其本机应用程序处理。
3.
删除标记信息
选项可在 PDF 输出过程中将 office 应用程序生成的结构信息处理掉。对于可访问文档,结构信息很重要,通常应当保留。但是,如果文件大小非常重要,使用该选项有助于创建比较小的PDF 输出。
设立作业条目: 22
PDF 压缩器(企业版)— 手册
空白页检测选项
在空白页检测
选项卡中,您可以为输入文件的空白页检测配置选项。检测到的空白页不会进行文本识别(OCR)。
1.
检测空白页
选项用于启用或禁用空白页检测。
2. 在排除的边距
框中,您可以选择在进行空白页检测时应排除的页面边距。这样,可以排除固定的页眉或页脚或穿孔。您也可以在毫米(mm)和百分之一英寸(1/100 英寸)
两个单位之间进行选择。
3. 空白页检测将需要处理的页面区域分成可配置大小的图块。之后逐个图块进行检测。如果所有图块都被识别为空白,则整页被视为空白。平铺尺寸
值的单位为 ‘pt’,等于1/72 英寸。
4. 对每个图块的内容的分析以块为基础。一个块的大小应设成最小的有意义符号的大小,
比如一个标点符号的大小。一个块的长度可以是多个像素,这取决于页面图像的分辨
率。块尺寸
的单位为‘pt’,等于 1/72 英寸。
5. 对每个块均计算一个值,该值代表该块的颜色密度与同一个图块中其他块的颜色密度之间相差有多大。相差值超过某个特定值的块被视为非空。这个值受敏感度
属性的影响。敏感度是介于 1 - 100 之间的一个值。如果敏感度低,则只有色彩强烈的结构才会算作非空白。相反,敏感度高也会导致灰白的纹理被计入。
设立作业条目: 23
PDF 压缩器(企业版)— 手册
6. 如果非空白块的数量超过某个阈值,则该图块被视为非空白。该阈值
以千分之(百分之零点一)几的形式给出,它规定了一个非空白块相对于空白块的最大比值,低于这个值,一个全尺寸图块会被归类为空白。
7.
从输出中排除空白页
选项规定是否将检测到的空白页包含在输出中。勾选该选项后,
检测到的空白页将被排除。
配置数据输出
在输出
选项卡中,您可以配置 PDF 输出选项,包括要生成的 PDF 的确切版本以及所生成的PDF 文件的存放位置。
1. 如果选择输出放置到输入文件的同级目录,则所生成的 PDF 文件将与输入文件放在同一个目录下。
如果选择目录输出
并使用浏览按钮选择了一个文件夹, 则会另外将输出放在所选的文件夹下7。请参见第 80 页的选择服务账号,了解如何使用网络共享。
7
输出文件夹所用的文本编辑窗口接受文件拖放:只需要将某个文件夹从 Windows™ Explorer 拖放到
这个窗口即可。
设立作业条目: 24
PDF 压缩器(企业版)— 手册
2.
重写已存在的文件
让您选择当某个位置已存在某个输出文件时,PDF 压缩器是否覆盖该输出文件。取决于您的选择,或者输出文件不会被写入(您会在日志文件中看到一
条错误信息,请参见第 74 页的日志文件
部分),或者现有文件被覆盖。
3. 如果您想清理输出目录子树,请选择删除空文件夹。只有当您为输入处理选择了包含
子文件夹 时,该选项才可用(请参见第 14 页的配置输入数据)。PDF 压缩器总是预先
(也就是说在任何文件被处理之前)创建必须的输出文件夹,被处理文件的输出必须放在该文件夹中。在错误的情况下,某些输出文件可能会被删除,造成空文件夹。删除空文件夹
有助于在作业完成之后(或在热文件夹进入空闲状态之后)删除不需要的文件夹。
4.
输出格式
选项中,您可以选择将要创建的PDF 的具体版本。
福昕PDF压缩器可以创建符合不同版本的 PDF 标准(或所谓的不同 PDF/A 符合性级别)的PDF 文件。下文对这些格式及其差异做了简要说明。
一般情况下,建议的默认标准为PDF/A-2u。
a.
Adobe® Reader® 5.0 (PDF 1.4)
Adobe® Reader® 5.0 (PDF 1.4) 及以上版本支持将图像以可用的方式分解成不同的图层和遮罩。要正常显示,PDF 压缩器生成的 PDF 文档要求文件阅读器至少能支持PDF 1.4。
b.
Adobe® Reader® 6.0 (PDF 1.5)
Adobe® Reader® 6.0 (PDF 1.5) 能够处理 JPEG 2000 图像压缩。如果您选择这种格式,则 MRC 压缩后页面的前景和文本颜色图像将以 JPEG 2000/Part1 格式存储。这使得图像质量更高并且文件更小。但以这种格式创建的文件要求文件阅读器 至少能支持PDF 1.5 才可以正确显示。
c.
Adobe®Reader®7.0 (PDF 1.6)
Adobe® Reader® 7.0 兼容模式与 Adobe® Reader® 6.0 使用相同的PDF 功能,唯一的区别在于Adobe® Reader® 7.0 支持更大的页面尺寸。
对于Adobe® Reader® 6.0 兼容模式,页面尺寸不得超过 200 * 200 英寸。
Adobe® Reader® 7.0 兼容模式则不存在这个限制。
d.
PDF/A-1a (ISO 19005-1)
与 PDF/A-1b 相同,但带有自动插入的基本标记信息,以符合 PDF/A-1a 的基本要求。
e.
PDF/A-1b (ISO 19005-1)
这是原 PDF/A 文件标准的基本符合性级别,它的目的是为了实现长期保存。它基于PDF 1.5,但对元数据、加密以及透明性等有更多限制。
f.
PDF/A-2b (ISO 19005-2)
PDF/A-2 是原 PDF/A-1 标准的一种修订格式,它允许一些其他类型的内容,比如经JPEG2000 压缩的图像和其他作为附件嵌入的PDF/A 文件。
g.
PDF/A-2u (ISO 19005-2)
设立作业条目: 25
PDF 压缩器(企业版)— 手册
这是一般情况下推荐的默认格式。这种格式与PDF/A-2b 相同,但具有更多的优势,那就是PDF 中的所有文本都必须有一致的Unicode 映射。
h.
PDF/A-3b (ISO 19005-1)
PDF/A-3 标准等同于 PDF/A-2,唯一的差别是 PDF/A-3 允许任意类型的文件作为附件嵌入PDF/A-3 文档。
i.
PDF/A-3u (ISO 19005-1)
与 PDF/A-3b 相似,不同之处在于它要求 PDF 中的文本必须有一致的 Unicode
映射。
5. 启用输出拆分
有两种方式:
a.
将输出
拆分为大块
页,使用此功能您可以限制单个 PDF 输出文档的页数.这将按照规定的页数创建一系列输出文件,而不是创建一个页数非常多的巨大的 PDF 文档。(输出的最后一个文件可能包含的页数较少,这取决于输入文件的总页数。)
这种模式通常通过使用带有转义序列 %P、%L 或 %C 的模板字符串与输出文件重命名
一起使用(参阅下文第 6 项)。
b.
仅当在 OCR 选项卡中开启了条码检测之后,无论何时检测到新的条形码都将拆分输出的
文件
才可用(另请参见第 35 页的配置预处理)。如果启用了该功能,则当在页面上检测到新条码时,会把输出文件拆分成多个文档。(下一
个文档开始于第一个含有新条码的页面。)
这种模式通常通过使用带有转义序列 %V(该转义序列代表所检测到的条码的值)的模板字符串与输出文件重命名
一起使用(参阅下文第 6 项)。
两种输出拆分
模式都需要开启输出文件重命名。
6.
输出文件重命名
可用于自定义 PDF 输出文件的命名。可以使用文件名称模板为输出文件命名。它使用第 57 页的模板字符串语法说明
中规定的转义序列。如果启用了输出分
割,则您需要输入不同的转义序列以区分不同文件块的输出名称。基于页码的分割的一个典型例子是 %F_%P-%L, 其中 %F 会被输入文件名替换,%P 会被文件块中的第一个页码替换,而 %L 则会被最后一个页码替换。请参见第 57 页的模板字符串语法说明,以了解详情和更多示例,或按条目旁边的帮助按钮 。
配置电子邮件转换选项
点击电子邮件转换选项
按钮会跳出一个对话框,其中有关于电子邮件附件转换的更多选项。
注:该选项仅当原生数字转换选项
已安装时才可用,否则电子邮件将无法被转换。
注:电子邮件信息格式(比如 MSG 和 EML )和 PDF 格式均支持附件,理解这一点很重要。这些附件是嵌入在整个文件中的任意格式文件,整个文件起着容器的作用。
设立作业条目: 26
PDF 压缩器(企业版)— 手册
1. 对于电子邮件中的文件附件的转换,PDF 压缩器提供下列选项。
a.
默认转换
选项会根据所选择的 PDF 输出格式,来选择可用的最佳转换(请参见第
24 页的配置数据输出)
转换成 PDF/A-1 时, 电子邮件的附件( 文件类型受支持的) 被转换成PDF/A-1 并作为页面添加到 PDF 输出文档上,PDF/A-1 是不支持 PDF 附件的。在 PDF 输出文档中,会生成一个名为电子邮件附件文件名的书签,其位置指向相应内容的起始处。
PDF/A-2 允许 PDF/A 格式的附件。因此,这种情况下默认的是将每个电子邮件附件转换成PDF/A-2 文档,之后将其作为PDF 附件添加到输出文档上。
由于PDF/A-3 允许任意文件格式的附件,因此,这种情况下的默认做法是将电子邮件附件转换成 PDF/A 并将其作为页面添加到 PDF 输出文档上。此外,
电子邮件附件还以它原来的格式作为PDF 附件嵌入。
对于所有其他情况— 也就是说,当生成 Reader™ 5.0、6.0 或 7.0 兼容的PDF 时 — 每个电子邮件附件都被转换成 PDF 文档,之后作为 PDF 输出文档的一个附件嵌入。
b.
忽略附件直接丢弃所有电子邮件附件,只转换邮件信息主文。
设立作业条目: 27
PDF 压缩器(企业版)— 手册
c. 通过特定转换
设置,您可以详细规定附件的处理方式。符合选定的
输出格式,
您可以选择以下三种方式的随意组合:或者将电子邮件附件作为页面添加,或者以 原来的格式作为 PDF 附件嵌入,或者转换成 PDF(/A)。下文描述的选项用于配置这种特定转换。
d. 如果选择了选项
将附件处理过程中的错误视为警告,则 PDF 压缩器即便未能处理一个或多个电子邮件附件,仍然会继续处理其他附件。否则这将被视为一个错误,
相关作业停止。
2.
通过文件类型过滤附件
如果在电子邮件附件转换选项
下的设置中选择了将电子邮件附件转换成 PDF(/A),则PDF 压缩器将转换所有支持的输入文件类型的附件。将电子邮件附件以原来的格式作为PDF 附件嵌入适用于任何文件类型。
通过文件类型过滤附件
选项用于通过规定一个文件扩展名列表来区别对待不同类型的电子邮件附件。如果选择关闭,则PDF 压缩器将如前文中所述处理附件。
如果选择了仅处理匹配,则仅带有规定的文件扩展名的电子邮件附件才会被处理,所有其他电子邮件附件将被忽略。
如果选择了处理所有不匹配,则所有带有规定的文件扩展名的电子邮件附件都将被忽略,所有其他电邮附件将被处理。
文件扩展名之间必须用空格隔开,有没有点号开头都可以,也就是说“mpeg mpg jpeg
jpg”和“.mpeg .mpg .jpeg .jpg”都是有效的。
3.
过滤附件以转换成
这一组选项进一步限制了由通过文件类型过滤附件
选项所规定的要转换成 PDF(/A) 的电子邮件附件的文件类型。如果选择了关闭
,则 PDF 压缩器将转换那些文件类型受支持的、已通过之前过滤条件的附件。
如果选择了仅处理匹配
,则仅带有规定的文件扩展名的电子邮件附件才会被转换成
PDF(/A);所有其他电子邮件附件都不会被转换。
如果选择了处理所有不匹配
,则所有带有规定的文件扩展名的电子邮件附件都将被排除,所有其他电邮附件将被转换成PDF(/A)。
配置高级输出选项
点击高级输出选项
按钮会跳出一个对话框,里面有关于输出生成的更多设置。
安全
在
安全
选项卡中,您可以配置PDF 输出文件的安全属性。目前仅支持
Adobe™ Reader™ 3.0 及更高版本,以及Adobe™ Reader™ 5.0 及更高版本的安全兼容模式。请注意,PDF/A 兼容模式不支持PDF 安全。
设立作业条目: 28
PDF 压缩器(企业版)— 手册
1. 您可以指定在 PDF 输出文档上不使用任何安全设置(无安全设置)、从输入文件复制设置(复制安全设置),或使用本对话框中的设置(使用如下的安全设置)。在
优化模式中,从输入文件复制安全设置是唯一的选择。
2.
兼容性
模式下,您可以选择 Reader™ 3.0 或 Reader™ 5.0 安全兼容。取决于此处的设置, 下列访问权限选项可能会略有差别。请参阅Adobe 的PDF 参考文件以了解详细内容。
3. 可以设置打开
文档
所需的密码。如果选择了该选项,则从
输入文件复制安全设置
时,输入文件的密码(无论是否需要)将被该选项中设置的密码替换。
给定的密码以加密方式保存在 PDF 压缩器中。注意,这种加密方式并不能满足最高的安全要求。
4. 可以设置修改 PDF 文档所需的修改权限
密码。如果选择了该选项,则从
输入文件复制安全设置
时,输入文件的密码(无论是否需要)将被该选项中设置的密码替换。请注意,不完全支持和遵守访问权限设置的第三方产品可以绕过修改权限密码。
给定的密码以加密方式保存在 PDF 压缩器中。注意,这种加密方式并不能满足最高的安全要求。
如果设置了修改权限
密码,并且选择了使用如下的安全设置,则可以通过下述选项设定访问权限。
5.
允许打印
可以设成无,低分辨率(Reader™ 5.0
安全兼容模式),和全分辨率。
6.
允许修改
可以设成各种限制(取决于 PDF 安全兼容模式)。请参阅来自 Adobe 的 PDF
参考文件以了解详细内容。
7.
启用文本,图像和其它内容的复制
允许对受保护的 PDF 文档进行此类操作。如果安全兼容模式是Reader™ 3.0,则允许其被视障碍人士访问。
设立作业条目: 29
PDF 压缩器(企业版)— 手册
8. 如果安全兼容模式是 Reader™ 5.0,则可以单独选择为视障人士启用屏幕阅读设备的文本辅助工具, 不受 7 中所设定的访问设置的影响。
初始视图
在
初始视图
选项卡中,您可以配置用Adobe™ Reader™ 打开PDF 文档时的初始视图。此外,Adobe™ Reader™ 本身的外观也可能受影响。
1.
布局和缩放
用于设置要打开的PDF 文档的外观。
a.
导航页签
使您可以选择在 Adobe™ Reader™ 窗口左边打开的面板。它可以是书签、页面或布局面板,或者根本没有面板(只有页面)。
b.
页面布局
用来设置出现在 Adobe™ Reader™ 页面窗口中的页面的外观(和页数)。可以对单独的页面、连续的页面进行设置,也可以设置两个页面的布局方式。
c.
缩放
用来设置文档的初始放大率。它可以是一个特定的缩放比例,也可以是定义整个页面、页面宽度或高度如何适应 Adobe™ Reader™ 窗口的选项。实际大小
等同于 100% 的缩放比例。
d. 可以用打开页面
来设置文档最先被打开的页面。如果给定的页码大于该文档的页数,则最先打开文档的最后一页。
设立作业条目: 30
PDF 压缩器(企业版)— 手册
2.
窗口选项
影响Adobe™ Reader™ 打开文档时窗口的外观。
a. Adobe™ Reader™ 窗口的大小可以重置,从而使其成为初始页面。
b. Adobe™ Reader™ 窗口可以放在屏幕上居中。
c. 打开PDF 文档时,Adobe™ Reader™ 可以进入全屏模式。
d. 您可以选择 PDF
文件名
或它的文档标题
是否在 Adobe™ Reader™ 的标题栏显示。
3.
用户界面选项
可用于隐藏 Adobe™ Reader™ 窗口的各种元素。您可以隐藏菜单栏、工具栏
以及窗口控件。
元数据
输入到
元数据
栏中的数据将被嵌入到PDF 输出文档中。您可以在Adobe™ Reader™ 中的文件
→
文档属性
→
说明
菜单下找到该信息。在将被诸如文件名、页数、日期、时间等
信息替换的
元数据
栏中可以放入一些转义序列。帮助按钮 列出了所有可能的置换列表。另请参见第 57 页的模板字符串语法说明。
设立作业条目: 31
PDF 压缩器(企业版)— 手册
缩略图
在缩略图
选项卡中,可以启用和配置含有输入文档的页面视图的其他缩略图的输出。缩略图被输出为JPEG 文件,和PDF 输出文件放在一起。
1. 启用创建缩略图图像文件(JPEG
格式)可以打开缩略图输出。
2.
最大尺寸
包含以像素为单位的输出缩略图的最大尺寸。第一个数字是水平尺寸,第二个数字是垂直尺寸。页面的长宽比不会被改变。
示例:假设最大尺寸
被设成 150 x 150。
a. 一个 20*30 厘米的页面将被缩放至 100*150 像素。
b. 一个 30*20 厘米的页面将被缩放至 150*100 像素。
3. 将质量
设成 1-100 之间的任何值。这用于规定输出 JPEG 文件的图像质量。质量越高文件就越大。
4.
命名模板
用于定义缩略图文件的命名惯例。它使用第 57 页的模板字符串语法说明
中
规定的转义序列。一个典型的序列含有 %F(将用输入文件名替换)和 %P(将用当前页码替换)。请参见第 57 页的模板字符串语法说明
以了解关于输出文件命名的详情和示例,或点击PDF 压缩器应用程序中的帮助按钮 。
5. 如果您只需要文档的第一页输出一个缩略图,启用仅首页。否则该文档所有页面的缩略图都会被输出。
设立作业条目: 32
PDF 压缩器(企业版)— 手册
6. 如果开启了为页面预览嵌入缩略图图像,则每个页面的缩略图都将被嵌入到 PDF 输出文件中。这会导致 PDF 输出文件更大,但却能加快页面图像在 Adobe™ Reader™ 的“页面”面板中的显示。注意,这些缩略图不包括任何印记(请参见第 50 页的设置页眉和页脚)或水印图像(请参见第 51 页的嵌入水印)。
高级
1. 启动快速
Web
视图
将优化PDF 输出文档在网络浏览器中的显示。标准的PDF 文档需要全部下载完之后才能在网络浏览器中显示第一页。如果网络连接慢或者文档包含的页数很多,这可能要花很多时间。而进行了网页优化的 PDF 文档,一旦第一页的数据下载完成就可以立即显示第一页。此外,您可以快速跳转到别的页。Adobe™ Reader™
插件只下载您选定的页。其他页将在后台下载,这取决于您的Adobe™ Reader™ 设置。
2.
启动
层转换
后,您可以启用或禁用在 PDF 输出文档中嵌入 PDF 层开关。当该功能被启用时,Adobe™ Reader™ 将在它的层选项栏中显示开关,您可以通过这些开关控制内部层的渲染:
a. 如果
输出格式
(请参见第 24 页的配置数据输出)被设为最小的
Reader™
6.0:
使用背景
开关,您可以打开或关闭背景图像的显示。
在某些情况下,关闭背景可以提高模糊文档扫描件的可读性。
文本颜色
开关可让您打开或关闭文本层的颜色。如果该开关关闭,则所有文本都将被渲染成黑色。当原文本的对比度非常低时,这样可以提高文本的可读性。
设立作业条目: 33
PDF 压缩器(企业版)— 手册
b. 如果
输出格式
(请参见第 24 页的配置数据输出)被设为最小的
Reader™
5.0:
则只会出现背景
开关。
对于PDF/A-1 输出兼容模式,PDF
层
开关不可用。PDF/A-1 不允许使用可选内容。
在默认情况下,当 PDF 文件在 Adobe™ Reader™ 中打开时,所有层开关都打开。如果文件在 Adobe™ Reader™ 打开时您只想显示文本层,则请启用仅当文件被打开时显示文本层。
3. 可以启用在本地写入输出文件并移动到输出文件 以解决输出文件位于网络上这个问题。特别是当在网络上传输小部分数据很慢时,这会特别有用。
4. 您可以选择从 PDF 输入复制书签和其他元数据。如果在光栅化
输入下进行了相应的配置,则 PDF 输入文件可以被光栅化。在这种情况下,除非选择了复制书签和其他元数据选项,否则PDF 输入文件中所含的所有元信息都会丢失。
选择该选项后,来自输入文件的所有书签、XMP 元数据以及 PDF 信息字典的数据都会被复制到相应的 PDF 输出文件中。在高级输出选项
对话框中的 PDF 元数据集(即非空字符串)将覆写从输入文件拷贝的任何值。
对于兼容 PDF/A 的输出,将仅复制那些包含 PDF/A 兼容操作的书签(比如,转到页面是允许的,而执行 JavaScript 则不允许)。此外,仅会复制 XMP 规范中所定义的模式中的 XMP 数据。PDF 压缩器不执行任何模式验证。选择该选项时,用户应确保输入文件包含正确格式的XMP。
5. 启用取消损坏的元数据
后,错误的元数据会被阻止。对输入文档的处理不会被停止,
而是继续进行,就像该文档根本不包含有问题的元数据一样。
6. 如果启用了“导出双调分段掩码为传真组 4 的 TIFF”,则 MRC 压缩的遮罩层(有时被称为文本层)会被输出为一个单独的双色调 TIFF 文件。这些 TIFF 文件将放在 PDF 输出文件夹中并按照PDF 文件进行命名。多页的PDF 输出文件将生成多页的 TIFF 图像。
7. 为了支持 PDF 软件对文本基于标记进行解译,您可以启用添加结构标记。如果使用Adobe™ 软件的“大声读出”功能,则标签对于成功读取 PDF 结果是必不可少的。当创建PDF/A-1a 输出时,则无需启用该功能。如果是 PDF/A 符合级别为“a”的输出,则总会创建结构标记,即便该选项被禁用也是如此。
设立作业条目: 34
PDF 压缩器(企业版)— 手册
配置预处理
在预处理
选项卡中,您可以配置在处理完输入文件后,要对它们执行的附加操作。
成功
和失败
两个部分分别规定了输入文件处理成功(PDF 文档被创建)和失败(没有 PDF
输出)时应执行的操作。如果一个作业在处理完输入文件之前被用户放弃,则输入文件不会被移动或者删除(用户放弃既不被视为成功也不被视为失败)。
无法创建 PDF 文件的可能原因非常多。日志文件里的错误消息(请参见第 74 页的日志文件)会给出详细解释。常见的原因有:输入文件不存在,或没有必需的访问权限;输出文
件已经存在,但不允许覆写;输出文件夹不允许创建新文件;输入文件已损坏,或其格式不被支持。
成功处理时的操作
1.
重命名输入文件
将按照给定的文件名模板
更改输入文件的文件名。请参见第 57 页的模板字符串语法说明,查看可用的转义序列列表。帮助按钮
显示该列表。
将在 PDF 压缩器应用中
设立作业条目: 35
PDF 压缩器(企业版)— 手册
2. 输入文件处理:
a.
保留输入文件:文件还保留在原来的位置,但可能按照重命名输入文件
的设置被重新命名。
注:使用该选项时应小心。如果您使用检查频次每
秒
并重写
现有输出,
会导致相同的文档被反复转换。每一次转换都会减少您的许可中剩余页的数量(请
参见第 76 页的管理许可证)。
b.
删除输入文件:在 PDF 文件生成后,输入文件会被删除。如果使用了常用输入目录选项和名称修饰符(%F),则用作嵌入输入的文件(如文件、书签、元数据或隐 藏的文本)也会被删除。使用该选项要小心!如果您事后才知道输出的 PDF 不符合您的需要(比如,您需要其他质量的输出),您已经丢失了可用的原始数据了。
c. 将输入的文件移动到某个文件夹:使用浏览按钮 选择一个目标目录,将成功处
理的输入文件放置到该处8。如果扫描到的输入目录是层级目录,则也会创建一个 相应的目录子树来存放被移动的输入文件。如果使用了常用输入目录
选项和名称修饰符(%F),则用作嵌入输入的文件(如文件、书签、元数据或隐藏的文本) 也会被移动。请参见第 80页的选择服务账号
部分,了解关于使用网络共享的提示。如果目标目录中已经包含与输入文件同名的文件,您可以用该选项来选择应用程 序的行为。或者不移动输入文件,或者重写
目标目录中的文件。
删除空文件夹:只有当您为输入处理选择了移动输入文件和包含子文件夹时, 该选项才可用(请参照第 14 页的配置输入数据)。一旦一项作业完成(或热
文件夹进入空闲状态),它会清理被移动的输入文件的目录子树。PDF 压缩器总是预先(也就是说在任何文件被处理之前)创建必须的输出文件夹,文件一旦处理成功便会移入到该文件夹中。如果发生错误,则该文件夹将保持为空。删除空文件夹
用于删除不需要的文件夹,让文件结构更加紧凑。
3.
执行命令:可以指定一个需要执行的自定义命令行。请参见下文预处理命令的执行
部分以了解详情。
处理失败时的操作
1. 输入文件处理:
a.
保留输入的文件:文件留在它原来的位置(对输入文件不进行任何操作)。
b.
将输入的文件移动到某个文件夹:使用浏览按钮 选择所有处理失败的输入文件应前往的目标目录
8。如果输入目录被循环地扫描,则将创建一个相应目录子树以存放被移动的输入文件。如果使用了常用输入目录
选项和名称修饰符(%F),
则用作嵌入输入的文件(如文件、书签、元数据或隐藏的文本)也会被移动。请参见第 80 页的选择服务账号,了解如何使用网络共享。
如果目标目录已经包含与输入文件同名的文件,您可以用该选项来选择应用程序
的行为。或者不移动输入文件,或者重写
目标目录中的文件。
8
移动文件夹所用的文本编辑窗口接受文件拖放:只需要将某个文件夹从 Windows™ Explorer 拖放到
这个窗口即可。
设立作业条目: 36
PDF 压缩器(企业版)— 手册
删除空文件夹:只有当您为输入处理选择了移动输入文件和包含子文件夹时,
该选项才可用(请参照第 14 页的配置输入数据
以及第 35 页的配置预处理)。一旦一项作业完成(或热文件夹进入空闲状态),它会清理被移动的输入文件
的目录子树。PDF 压缩器总是预先(也就是说在任何文件被处理之前)创建必须的输出文件夹,一旦发生错误时被处理文件即被移入该文件夹中。如果未发生错误,则该文件夹保持为空。删除空文件夹
用于删除不需要的文件夹,在错误文件夹中定位文件变得更容易。
2.
执行命令:可以指定一个需要执行的自定义命令行。请参见下文预处理命令的执行
部分以了解详情。
预处理命令的执行
PDF 压缩器能够在一个输入文件(或者合并的多个文件)处理成功或失败之后运行一个自定义命令。这是一个强大的功能,用以自定义PDF 压缩器作业,它可以执行内建的后处理功能范围之外的其他要求。一些常用的使用实例有:
将输入文件夹中的其他文件复制到输出文件夹。
对处理错误采取自定义操作,比如发送电子邮件。
访问识别的条码值。
自定义验证或校验任务。
PDF 压缩器将为自定义命令创建一个新进程。该进程运行时所用的证书和权限与 PDF 压缩器服务相同,所在的环境也与之相同,也就是在 Windows 操作系统的第 0 个会话。因此对PDF 压缩器本身适用的限制也适用于该进程。
该命令的进程承继了PDF 压缩器进程的环境。此外,该环境可以用一套特别变量来扩展,
此类变量提供对输入和输出文件以及其他信息的访问(请参见下文环境变量
部分)。
PDF 压缩器改变该进程的标准输出流和标准错误流的方向。由该命令写入的任何主控台输出都将添加到PDF 压缩器日志文件内。
用法
该命令必须指定一个指向有效可执行文件的有效路径,是否带参数可选。如果该路径包含空格,则需要用引号把该路径括起来。
可以在命令行中直接使用特殊环境变量(请参见环境变量)。确保用引号正确地括起来,
因为这些值可能包含空格。在执行之前,PDF 压缩器会扩展与格式 %Name% 相匹配的任何符号。如果变量名未知,则将被一个空字符串代替。为了在命令行中使用百分比符号
(%),应使用另一个百分比符号(%%)来转义。
PDF 压缩器将评估该进程的结束代码。任何非 0 的值都被视为错误并记录在日志文件中。请注意:由于该命令是在处理彻底完成之后执行的,因此后处理命令中的错误并不会使处理状态变成“失败”。换句话说,即便后处理命令失败,成功的处理仍会被视为成功。
设立作业条目: 37
PDF 压缩器(企业版)— 手册
示例
下列示例有助于初步理解自定义后处理命令。
/c "C:"
这个行将一个批处理脚本作为一个自定义命令执行。
"C:1"
这个行将一个Windows PowerShell 脚本作为一个自定义命令执行。
C: "%LT_OutputFilePath0%"
这个行将 作为自定义命令运行,并将输出文件作为第一个参数传递。
/c set
这个行将一整套环境变量打印到日志文件。如果想知道环境变量是什么,可以使用这个命令行。
/c "echo %LT_BarcodeValue0% > %%LT_OutputFilePath0:~0, -4%%.txt"
对于常规输出文件旁边的文本文件中包含的条码,这可能是最贱的保存方法。注意,使用双百分比符号是为了确保 LT_OutputFilePath 变量不被 PDF 压缩器扩展,而是之后被命令解译器() 扩展,从而能够使用子串语法 (:~0,-4)。
为了能顺利执行,最好是增加一些错误校验(比如,是否真的检测到了条码)并将所有命令放入一个可复用的批处理脚本。
环境变量
下表列出了由PDF 压缩器提供给自定义命令的环境变量。
变量名
%LT_ProcessingStatus%
说明
成功|失败
如果输入文件处理成功,该值设为 Success;如果发生了错误,则设为 Failure。
%LT_ErrorMessage%
%LT_JobName%
%LT_InputFileCount%
该变量仅当处理失败时才可用。它包含已发生错误的说明。
正在处理的作业名称。
已处理的输入文件的数目。通常情况下,该值为 1,除非该作业的“将文件夹的所有页合并成单个 PDF 文档”标记已被设定或者在“嵌入”选项栏中指定了另外的输入文件。
指向已处理的输入文件的完整有效路径。
将会有 %LT_InputFileCount% 个条目,从 0 开始计数直至(%LT_InputFileCount% - 1)。该列表中的次序就是文件的处理次序。额外的输入文件(比如用于嵌入)直接列在其所属主输入文件的后面。
该命令在全部处理(包括内建后处理)完成之后执行。因此,当执行了移动或重命名之后,所提供的路径可能与原始的输入路径不同。如果作业被设置成在成功处理之后删除输入文件,则自定义命令中会包含原始的输入文件路径,但当自定义命令执行时这些文件已被删除。
%LT_InputFilePath0%
%LT_InputFilePath1%
…
设立作业条目: 38
PDF 压缩器(企业版)— 手册
注:对于标准作业来说,只有一个输入文件,并且变量%LT_InputFilePath0% 包含完整有效路径(另请参见%LT_InputFileCount% 的说明)。
%LT_OutputFileCount%
生成的输出文件的数目。通常情况下,该值为 1,除非作业生成了额外的输出文件(比如 XML 或 TXT 形式的 OCR 结果、缩略图)或者启用了输出分割选项。
如果处理失败,则输出文件的数目总是为 0,因为PDF 压缩器会删除不完整的输出。
指向生成的输出文件的完整有效路径。
将会有 %LT_OutputFileCount% 个条目,从 0 开始计数直至(%LT_OutputFileCount% - 1)。该列表中的次序就是生成的次序。额外的输出文件(比如 OCR 结果)直接列在其所属主输出文件的后面。
如果处理失败,则根本没有输出文件,因为 PDF 压缩器会删除不完整的输出。
注:对于标准作业来说,只有一个输出文件,并且变量%LT_OutputFilePath0% 包含完整有效路径(另请参见%LT_OutputFilePath0% 的说明)。
%LT_BarcodeCount%
%LT_BarcodeValue0%
%LT_BarcodeValue1%
…
已识别的条码值的数目。
该变量只在启用了条码识别的情况下才被设定。
已识别的条码值的列表。
将会有%LT_ BarcodeCount% 个条目,从 0 开始计数直至
(%LT_ BarcodeCount% - 1)。该列表中的次序就是检测的次序。
%LT_OutputFilePath0%
%LT_OutputFilePath1%
…
设立作业条目: 39
PDF 压缩器(企业版)— 手册
配置OCR 和条码识别
OCR
选项卡包含配置可选的 OCR 的选项,即识别来自光栅输入文档的文本,以及条码识别。
1.
模式
部分中,你可以控制 OCR 准确度与速度之间的平衡。
a.
最准确
模式提供字符识别的最高准确度。该模式应在输入图像质量或分辨率低并且识别时间不那么重要的时候使用。
b.
平衡
模式是介于最准确与快速模式之间的中间模式。
c.
最快
模式提供快达 2 - 2.5 倍的识别速度,但代价是错误率略有增加(错误多
1.5 - 2 倍)。在质量良好的打印文本上,OCR 引擎每页平均出 1 - 2 个错误,在绝大多数情况下,这个错误率还算适度,是可以容忍的。
2. 从列表中选择
OCR
识别语言。如果您选择的语言与文档中的语言完全一样,则文本识别会更准确。
注:有专用于中文、日文以及韩文(DJK) 的 OCR,但需要专门的许可。
3. 如果您想以(除了 PDF 输出以外的)多种格式输出 OCR 结果,您可以选择其他输出格式。
注:一旦您选择了其他的 OCR 输出,则重写保护(请参见第 25 页配置数据输出
部分
的输出选项卡中的重写已存在的文件)会扩展到其他的文件格式。示例:输出文件名
为 ,您选择另外的纯文本
OCR 输出,并且重写已存在的文件
被禁用。如果
设立作业条目: 40
PDF 压缩器(企业版)— 手册
或 文件已经存在,则 PDF 压缩器不会处理相应的输入文件。如果您想重写现有文件,您需要启用重写已存在的文件。
重要提示:某些另外的 OCR 输出格式可能会创建辅助文件(比如在 HTML 输出文件中使用的 JPEG 图像)。这些辅助文件不受覆写保护的限制。因此,与某个辅助文件同名的现有文件将会被覆写,无论重写已存在的文件
的设置如何。参阅下表以了解何种格式将创建何种辅助文件。
a.
纯文本
以未格式化文本(ANSI 代码页)输出 OCR 结果。扩展名是 *.txt。无辅助文件。
b.
CSV
以纯文本(ANSI 代码页)形式将 OCR 结果输出成以逗号分隔的值。基本上, 当输入文档含有应导入到某些其他应用程序的表格时,这才有意义。扩展名为*.csv。无辅助文件。
c.
RTF
格式
以 Microsoft RTF 格式(应使用 Microsoft Word 打开)输出 OCR 结果。扩展名为 *.rtf。无辅助文件。
d.
HTML
以 HTML 格式输出 OCR 结果。扩展名为 *.htm。嵌入的图片作为辅助文件保存,辅助文件的命名惯例为
e.
MS Excel
以Microsoft Excel 格式输出 OCR 结果。扩展名为 *.xls。无辅助文件。
f.
MS PowerPoint
以 Microsoft PowerPoint 格式输出 OCR 结果。扩展名为
*.ppt。创建一个辅助目录
g.
ALTO
以开放式XML 标准ALTO (分析布局和文本对象)输出 OCR 结果。
h.
XML
以 XML 格式输出 OCR 结果。扩展名为 *.xml。XML 样式可以从
XML
选项旁边的列表中选择。
i.
全部
— 所有可能的 XML 属性都将被写入(大 XML 文件)
ii.
简化
— 某些可选属性将被阻止(较小的XML 文件)
iii.
字词级别
— 详细的字符相关信息被阻止。识别的文本被设置成格式化元素的直接内容。生成的 XML 文件非常小(比简化
要小得多),这些文件肉眼可读且更容易后处理。
iv.
行级别
— 类似于单词级,但没有任何格式化信息。
v.
ABBYY
— 对应 FineReader Engine 写入的默认 XML 格式。内容以文本行的形式被写入,并由另外的XML 格式标签包围。
vi.
排除
ABBYY
— 对应 ABBYY XML 格式中段、行、字符属性和格式信息的全部范围,但没有单词或字符识别变体。
注:在
ABBYY
或
排除
ABBYY
XML 格式中,如果选择了倾斜校正
选项,则另外的
XML
坐标倾斜校正
选项可以让您选择写入 XML 文件的坐标是针对原始图像还是针对去偏移后的结果。
在全部、简化、字词级别
以及行级别
格式中,XML 文件中给定的坐标总是对应着重采样的、未去偏移的输入图像(请参照第 18 页的高级输入选项)。
设立作业条目: 41
PDF 压缩器(企业版)— 手册
4. 如果您希望 OCR 引擎去偏移(对准)您的页面,则请启用倾斜校正。该选项仅适用于光栅输入文档或已被光栅化的PDF。
5.
自动检测页面旋转角度
以 90 度旋转页面图像以确保文本的正确定向。如果页面是在朝向错误的情况下被扫描的,则这个功能很有用,但它仅适用于光栅输入文档或已被光栅化的PDF。
高级
OCR
选项
高级
OCR
选项
对话框通过
OCR
选项栏的
OCR
选项
按钮打开。
1. 除非您对特定排版字体检测有特别要求,否则
OCR
识别文本类型
列表仅包含一种文本类型选择,即标准。这是文本的常见排版类型。
注:如果您一次选择的条目超过一个,则 OCR 进程可能会慢下来,因为它会在已选定的文本类型中触发文本类型自动检测。在某些情况下,OCR 可能对给定的文本类型要运行好几次。
注:如果您选择的不是标准,则普通文本可能会以不合适的准确度被检测。
如果您的文档只使用列表中给定的某种特别排版字体,则您应从列表中选择且只选择这种字体以获得更好的OCR 结果。
设立作业条目: 42
PDF 压缩器(企业版)— 手册
如果您的文档既有标准排版字体又有特别排版字体,您可以从列表中选择多种字体。在这种情况下,OCR 会运行得比较慢。
a.
标准:该选择对应文本的常见排版类型。
b.
打字机:该选择让
OCR
引擎假定已识别页面上的文本是用打字机打的。
c.
点阵打印机:该选择让
OCR
引擎假定已识别页面上的文本是点阵打印机打的。
d.
OCR A:该选择对应等宽字体,适用于光学字符识别。主要由银行、信用卡公司以及类似企业使用。它是在
ANSI INCITS 17-1981
中规定的。
e.
OCR B:该选择对应一种旨在用于光学字符识别的字体。它接替了
OCR A,在
ISO
1073-2
中被标准化。
f.
MICR E13B:该选择对应一套特别的数字字符,用特别的磁性墨水打印。MICR(磁性墨水字符识别)字符用于各种地方,包括个人支票。
g.
MICR CMC7:该选择对应特别的
MICR
条码字体
(CMC-7).
2. 使用快速二值化方法
可使 OCR 使用适合于图像快速二进制化的算法。在绝大多数情况下这将导致 OCR 处理速度显著(在特别情况下及其显著)地加快,但同时可能导致识别质量降低。
3.
文本
能够实现对文件颜色和背景颜色的检测。这仅当使用能携带文本及背景颜色信息的其他输出格式(富文本格式、HTML、MS Excel、MS PowerPoint 以及XML)时才有意义。检测文本及背景颜色会略微降低识别速度。
4. 启动检测图片
后,在页面分析过程中会忽略被识别为图像的区域,从而加快识别速度。禁用该选项则会识别页面上的所有文本,即便是图片中的文本。
5. 启动亮度均衡
选项可以加快对比度低或背景模糊的的输入页面的识别。
6. 识别效率和文本结构也受表格识别选项
的影响。禁用表格识别可以略微加快识别速度。
每个单元格单独一行
选项和仅通过分隔符进行拆分
选项规定了要识别的表格结构。
7.
不输出
文件
选项禁止输出压缩的PDF 文件。仅当您希望 OCR 结果以上述其他输出格式输出时,该选项才有意义。如果您不从其他其他格式中选择至少一种格式,则您无法禁止PDF 输出。
8. 非常大的页可能会使 OCR 花很长时间甚至失败,尤其是如果页面上基本没有文本内容的话。因此,对此类页不要使用 OCR 是合理的。如果输入既有标准的文本页又有非常大的工作表,则选择跳过
OCR,若页面大于
选项。通过 OCR 运行的页面的最大尺寸可以以毫米或英寸为单位。
9. 当不光栅化就处理PDF 输入时,如果页面已包含文本则跳过
OCR
选项可用。请注意, 对包含任何种类和数量的真实文本(用字体设定)的所有页面,OCR 都将被制止。没有其他办法能确保覆盖任何光栅图像的文本能被OCR 处理。
10. PDF 文档的某些规则要求嵌入所有字体,即便是那些仅用于隐藏文本的字体。PDF 和PDF/A 不要求这点,并且PDF 压缩器的默认行为是不嵌入这些字体。为了符合更加严格的规则,请选择在
OCR
结果中嵌入字体。
11. 为了检测“输入文档中未发现文本”这种情况,可以启用如果未发现任何文本,抛出错误选项。
设立作业条目: 43
PDF 压缩器(企业版)— 手册
12.
将
OCR
错误视为警告
意味着 OCR 过程中的错误仅作为警告报告,不会停止对文档进行处理。
13. 如果您需要另外的 OCR 输出文件,并且需要放置在PDF 输出文件的旁边,而是放在它自己的目录中,请选择将其它的 OCR 输出文件放到一个单独的目录。您可以使用浏览按钮 来选择目录9。如果处理一整个输入目录树(请参见第 14 页的配置输入数据), 则将在指定的 OCR 输出目录下创建一个相应的子目录树。
条形码选项
条形码选项
对话框通过
OCR
选项卡的条形选项
按钮打开。
识别的条码值可以被添加到 PDF 元数据中(请参见第 31 页的
元数据),用于指定一个输出文件名(请参见第 24 页的配置数据输出),并且它可以触发启动一个新输出文档
(通过条形码检测分割输出,见第 24 页的配置数据输出)。
1.
检测条形码类型
可以从下拉列表中选择。自动检测
将识别所有支持的条行码类型。许多 1D 和 2D 的条码都支持。
9
目录路径所使用的文本编辑窗口接受文件拖放:只需要将某个文件夹从 Windows® Explorer 拖放到
这个窗口即可。
设立作业条目: 44
PDF 压缩器(企业版)— 手册
2. 如果您不想检测整个页码区域,而是想指定某个区域(该区域内的条形码将被检测),
则请选择检测限于矩形。
该矩形区域用两个点来界定(比如该矩形的左上角和右下角)。一个点的位置由它离页面左边或右边边缘的距离以及它离页面顶部或底部边缘的距离来确定。使用下拉选择器来为水平距离设定左或右,并为垂直距离设定顶部
或底部。距离可以以厘米
或英寸
为单位。
3. 可以对条形码检测进行限定,使其与给定的正则表达式匹配。启用限制匹配正则表达
式的数值 并在指定的栏中输入相应的表达式。有关正则表达式的定义,请参见第 63 页
的正则表达置换
下所规定语法的
部分。
示例:如果您只想检测以数字 4 开头的条形码(后面跟任何长度数字),则使用正则表达式
4[0-9]*
4. 启用排除检测到的条形码页面,则含有按前述限制条件而被识别的条形码的页面不会
被输出。当多个输入文档被一个含有条形码的、供参考用的普通页隔开时,通常使用这个选项。
5. 启用为每个条形码添加书签
后,可以为与上述限制条件相匹配的每个条形码增加一个书签,该书签指向该条码所在的页面。如果启用了页面排除,则书签将指向下一页。书签的值将被用作标题。
6. 将每个条形码数值视为一个新值
选项将改变与重复出现的条形码值相关的行为。默认的行为是,如果条形码的值等于前一个条形码的值,则忽略该条形码。如果选择了每个条形码数值视为一个新值,则每个条形码(无论重复与否)都被视为第一次出现。
配置文件和数据嵌入
在属性
对话框中的嵌入
选项卡中,您可以配置将多种类型的嵌入文件或补充数据嵌入
PDF 输出文件的选项。
设立作业条目: 45
PDF 压缩器(企业版)— 手册
配置数据嵌入
嵌入
下的三个按钮用于将三种不同的补充数据嵌入PDF 输出文件。
所有三种数据:XMP 元数据、PDF 书签以及 XML OCR 结果,均从含有相应同源语的 XML
的文件中读取。XML 编码必须是UTF-8。
注:如果作业的输入处理被设置成处理之后移动或删除输入文件(请参见第 35 页的配置
预处理),则该输入处理方式仅适用于这些文件:此类文件位于主输入文件(常用输入目
录)的旁边,并具有非静态的文件名(文件名模板中的转义序列)。
设立作业条目: 46
PDF 压缩器(企业版)— 手册
1. 选择嵌入
XMP
元数据
可以将XMP、XML 格式的元数据嵌入PDF 输出文件。
a. 选择替换已有的
XMP
元数据
以替换 PDF 输入文件中已经存在的元数据。否则,
这些已经存在的元数据将被保存并在这个基础上附加更多的元数据。对于非PDF 格式的输入文件,该设置无效。
b. 选择常用输入目录
可以从相同的目录读取 XMP 元数据文件作为压缩操作的输入文件。或者,选择目录并指定一个不同的源目录。
c. 在文件名模板
中,您可以指定一个模板,从相应输入文件的名称获得每个 XMP
元数据输入文件的名称。请参见第 57 页的模板字符串语法说明,了解有关模板语法的更多信息。
d. 启用复制
XMP
页面元数据
可以将嵌入在 TIFF 文件中的 XMP 元数据复制到与相应的PDF 输出页面相关的元数据。
e. 可以选择添加输入文件列表
将每个输入文件的完整路径增加到 XMP 文档元数据中的一个列表中。
1.
每个输入文件嵌入一个书签
选项仅当合并输入文档时启用。在这种情况下,每个输入文件都将被嵌入一个书签,指向其第一页在输出文件中的位置。
2. 选择嵌入
书签
可以将 XMP 格式的现有书签嵌入到PDF 输出文件中。XML 编码必须是utf-8。XML 样本文件和模式的定义请参见安装的示例子文件夹。
a. 选择替换已有的
书签
可以替换 PDF 输入文件中已经存在的书签。否则,这些已经存在的条目将被保存并以此为基础添加更多的元数据。对于非 PDF 格式的输入文件,该设置无效。
b. 选择常用输入目录
可以从相同的目录读取 PDF 书签文件作为输入文件。或者,
选择“目录”并指定一个不同的源目录。
c. 在文件名模板
下,您可以指定一个模板,以便从相应的输入文件的名称获得每个 PDF 书签输入文件的名称。请参见第 57 页的模板字符串语法说明,了解有关模板语法的更多信息。
设立作业条目: 47
PDF 压缩器(企业版)— 手册
1. 选择嵌入
XML OCR
结果
可以将 ABBYY XML 格式的 OCR 结果插入到 PDF 输出文件内。如果您的文档中已存在该 OCR 结果,则该选项可以将它们作为隐藏文本嵌入,无需将文件再次提交给 OCR。XML 文件的编码必须为 UTF-8,并且 ABBYY XML 格式的 XML
模式的位置为/FineReader_xml/。
注:如果 OCR 结果是使用全部
或简化
选项创建的,则由 PDF 压缩器写入到单独的
XML 文件的 OCR 结果只能在以后嵌入。
注:如果 PDF 输入文件已包含隐藏文本并且用
优化
模式进行了处理,则嵌入
XML
OCR
结果
不会删除或替换该文本。相反,PDF 压缩器会为 XML OCR 结果嵌入的隐藏文本添加一个额外的层。
a. PDF 文档的某些规则要求所有字体都被嵌入,即便是仅用于隐藏文本的字体。PDF 和 PDF/A 不要求这点,并且 PDF 压缩器的默认行为是不嵌入这些字体。为了符合更加严格的规则,请选择在
OCR
结果嵌入字体。
b. 选择常用输入目录
可以从相同的目录读取 XML OCR 结果文件作为压缩操作的输入文件。或者,选择“目录”并指定一个不同的源目录。
c. 在文件名模板
下,您可以指定一个模板,以便从相应的输入文件的名称获得每个已读取 XML OCR 结果文件的名称。请参见第 57 页的模板字符串语法说明,
了解有关模板语法的更多信息。
配置文件嵌入
在嵌入选项卡的文件嵌入
组中,您可以配置将文件作为附件添加到 PDF 输出文件的选项。
注:对于 PDF/A-1 和 PDF/A-2 输出,该功能不可用。如果您想创建 PDF/A 文档并附加文件,
则PDF 输出格式必须设成PDF/A-3(请参见第 24 页的配置数据输出)。
注:如果作业的输入后处理被设置成处理之后移动或删除输入文件(另请参见第 35 页的配置预处理),则该输入处理方式仅适用于这些嵌入文件:此类文件是单个文件、位于主 输入文件(常用输入目录)的旁边,并有非静态的文件名(文件名模板中的转义序列)。
1. 选择嵌入输入文件
以便将原始的源文件嵌入到PDF 输出文件。
2. 点击文件嵌入选项
将弹出下列对话框,里面有更多的配置设置。
设立作业条目: 48
PDF 压缩器(企业版)— 手册
3. 选择嵌入其他文件
以将任何其他文件作为附件嵌入到PDF 输出文件中。
a. 选择常用输入目录
可以从相同的目录读取附件文件作为输入文件进行压缩。或者,选择“目录”并指定一个不同的源目录。
b. 在输入
下面选择文件,以便为每个输入文件嵌入特定的单独文件。否则请选择目录,让 PDF 压缩器对每个输入文件嵌入特定目录下包含的所有文件。文件或目录名必须在命名模板
中配置。
c. 使用命名模板,您可以指定一个模板,以便从相应的输入文件的名称获得每个附件输入文件或目录的名称。请参见第 57 页的模板字符串语法说明,了解有关模板语法的更多信息。
d.
ZUGFeRD XML
选项指德国的一个国家标准,适用于将 XML 发票数据作为附件嵌入到 PDF/A-3 文件。如果选择了这个选项,则 PDF 压缩器将自动检查并遵守ZUGFeRD 标准所要求的限制。
e. 从下拉列表中选择与文档的关系。有下列值可用:
i.
空:不要添加任何关系信息到PDF 输出文件。
注:PDF/A-3 要求为每个嵌入文件指定一种关系。因此当选择该选项时,
PDF 压缩器会自动将关系设定为“未指定”并将兼容模式设为PDF/A-3。
ii.
未指定:用于当关系位置未知或无法用下述其他值中的某个值进行描述时。
iii.
来源:当附件是文档的原始来源时使用该值。
iv.
数据:当附件是用于生成某种视觉呈现(比如一张表或一个图)的信息时,使用该值。
设立作业条目: 49
版权声明:本文标题:Foxit PDF压缩器企业版手册说明书 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1703311935h446458.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论