TET 5
PDFlib GmbH发布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐渐改名为»文本和图像提取工具包«,在图像提取方面得到明显提升。
TET检索文本、图像、PDF文档中的元数据和其他信息。以下是全新或显著改善的五大特性:
· 文本检索:
检索文本的填充色和描边色
改善布局检测
· 图像检索
显著增强分散图像的合并
提取图像蒙版和软蒙版
· 页面处理:
荣誉图层和剪辑路径
· TETML 内容:
包括符号的填充色和描边色、颜色空间和ICC文件配置细节
一些新的pCOS 伪对象
全新的PDFlib TETPDF IFilter 5 (企业版PDF搜索应用于窗口)版本现已可用。
PDFlib TET 5 - 特性
PDFlib文本和图像提取工具包(TET)旨在从PDF文档中提取文本和图像,但也可用于从PDF检索其他信息。
接受PDF输入
TET支持所有相关的PDF输入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保护那些打开不需要密码的PDF文档
损坏的PDF文档将被修复
世界的所有写作系统
TET在世界上所有书写系统中处理PDF文档,并实现某些脚本所需的特殊处理:
拉丁语,希腊语和西里尔字母,包括脱音
阿拉伯语和希伯来语,包括从右到左和双向文本的逻辑重新排序;阿拉伯语呈现形式的规范化
简体和繁体中文,日语和韩语,无论编码;水平和垂直文本
印度文字(无字形重排)
Unicode支持的所有其他语言和脚本
Unicode
由于PDF中的文本通常不以Unicode编码,因此PDFlib TET将PDF文档中的文本标准化为Unicode:
TET将所有文本内容转换为Unicode。在C和其他非Unicode感知语言中,文本以UTF-8或UTF-16格式返回,并作为具有Unicode功能的编程语言的本地字符串返回。
字符和其他多字符字形被分解为相应的Unicode字符序列。
没有适当的Unicode映射的字形被识别,并被映射到可配置的替换字符,以避免误解。
TET针对特定文档创建包(例如InDesign和TeX文档或在大型机系统上生成的PDF)的问题实施各种解决方法。
内容分析和字检测
TET包括专利内容分析算法:
确定检索正确单词所需的单词边界
重组连字字的部分(去连字)
删除重复的文字实例,例如阴影和人为粗体文本
按阅读顺序重新组合段落
正确排序散布在页面上的文本
页面布局和表检测
分析页面内容以确定文本列。检测表,包括跨越多个列的单元格。这改进了提取的文本的排序。可以标识表行和每个表单元格的内容。
几何
TET提供了文本的精确度量,例如页面上的位置,字形宽度和文本方向。页面上的特定区域可以被排除或包括在文本提取中,例如。以忽略页眉和页脚或边距。
文本颜色
TET分析PDF页面描述中的颜色信息,并返回每个字形的精确颜色信息。这可以用于例如识别标题或其他突出显示的文本。
图像提取
PDF页面上的图像可以提取为TIFF,JPEG,JPEG 2000或JBIG2文件。针对每个图像报告精确的几何信息(位置,大小和角度)。分割的图像被组合到较大的图像以方便重新使用。由于不进行下采样或颜色转换,保证了图像保真度。这确保了最高的图像质量。
PDF分析
TET库包括用于查询PDF文档的详细信息的pCOS接口,例如文档信息和XMP元数据,字体列表,页面大小等等。
有问题的PDF的配置选项
TET包含各种PDF的特殊处理和解决方法,其中文本无法与其他产品正确提取。此外,它包括各种配置功能,以改善问题文档的处理:
Unicode映射可以通过用户提供的表来定制,用于将字符代码或字形名称映射到Unicode。
PDFlib FontReporter是一个用于分析PDF中的字体,编码和字形的辅助工具。它作为Adobe Acrobat的插件。此插件可免费用于OS X / macOS和Windows。
分析嵌入字体以查找Unicode映射的其他提示。如果未嵌入字体,则使用外部字体文件或系统字体来提高文本提取结果。
Unicode后处理
TET支持各种Unicode后处理步骤,可用于改进提取的文本:
折叠保留,删除或替换字符,例如。从不相关的脚本中删除标点符号或字符。
分解用一个或多个其他字符的等效序列替换字符,例如。用其各自的标准对应物替换窄的,宽的或垂直的日语字符或拉丁上标变体。
文本可以转换为所有四种Unicode标准化形式,例如。发射NFC表单以满足Web文本或数据库的要求。
文档域
PDF文档可能包含除页面内容之外的其他位置的文本。虽然大多数应用程序将仅处理页面内容,但在许多情况下,其他文档域也可能是相关的。 TET从以下所有文档域中提取文本:
页面内容
预定义和自定义文档信息条目
文档和图像级别的XMP元数据
书签
文件附件和PDF文件包可以递归处理
表单域
评论(注释)
可查询一般PDF属性,如页数,符合PDF / A或PDF / X等标准。
XMP元数据
TET以多种方式支持XMP元数据:
使用集成的pCOS接口,可以以编程方式提取文档,单个页面,图像或文档的其他部分的XMP元数据。
TETML输出包含XMP文档和图像元数据(如果存在于PDF中)。
以TIFF或JPEG格式提取的图像包含图像元数据(如果存在于PDF中)。
TETML表示作为XML的PDF内容
TET可选地表示称为TETML的XML风格中的PDF内容。它包含各种各样的PDF信息,可以很容易地使用常用的XML工具进行处理。 TETML包含实际文本以及可选的字体和位置信息,资源详细信息(字体,图像,颜色空间)和元数据。
TETML还包括交互式元素,例如表单字段,注释,书签等。它甚至可以用于分析JavaScript或颜色空间细节,ICC配置文件或输出意图。
TETML由相应的XML模式管理,以确保TET始终创建一致和可靠的XML输出。 TETML可以用XSLT样式表处理,例如。应用某些过滤器或将TETML转换为其他格式。用于处理TETML的样本XSLT样式表包括在TET分布中。
以下片段显示具有字形详细信息的TETML输出:
PDFlib
TET连接器
TET连接器提供必要的粘合代码来与其他软件进行TET接口。以下TET连接器使PDF文本提取功能可用于各种软件环境:
Lucene搜索引擎的TET连接器
Solr搜索服务器的TET连接器
TIKA工具包的TET连接器
Oracle Text的TET连接器
MediaWiki的TET连接器
TET PDF用于Microsoft产品的IFilter可作为单独的产品提供。它从PDF文档中提取文本和元数据,并使其可用于在Windows上搜索和检索软件。
TET食谱
TET Cookbook是一个编程示例的集合,演示了TET对各种文本和图像提取任务的使用。几个Cookbook示例展示了如何结合TET和PDFlib + PDI产品,以增强PDF文档,例如。基于页面上的文本添加书签或链接。
京ICP备09015132号-996 | 网络文化经营许可证京网文[2017]4225-497号 | 违法和不良信息举报电话:4006561155
© Copyright 2000-2023 北京哲想软件有限公司版权所有 | 地址:北京市海淀区西三环北路50号豪柏大厦C2座11层1105室