前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ComPDFKit Conversion SDK 1.8.0 OCR表格识别

ComPDFKit Conversion SDK 1.8.0 OCR表格识别

原创
作者头像
ComPDFKit
发布2023-07-27 16:30:03
3680
发布2023-07-27 16:30:03
举报
文章被收录于专栏:PDF 开发PDF 开发

我们非常高兴地宣布,适用于 Windows、iOS、Android 和服务器的 ComPDFKit 转档SDK 1.8.0 现已发布!在该版本中,OCR 功能支持了表格识别,优化了OCR文字识别率。PDF to HTML 优化了html 文件结构,使转换后的 HTML 文件容量大幅减少。

OCR 表格识别:

Windows:

CPDFConvertWordOptions wordOptions = new CPDFConvertWordOptions();

wordOptions.IsAllowOCR = false;

Mac:

CPDFConvertWordOptions *options = [CPDFConvertWordOptions alloc init]

autorelease];

options setIsAllowOCR:YES;

如果您想了解更多平台有关如何使用OCR的更多信息,请访问我们详细的OCR指南

PDF to HTML:

Windows:

string resPath = "***";

string inputFilePath = "***";

string outputFolderPath = "***";

string outputFileName = "***";

CPDFConverter.Init(resPath);

CPDFConverterHTML converter = CPDFConvertFactroy.CreateConverter(CPDFConvertType.CPDFConvertTypeHtml, inputFilePath) as CPDFConverterHTML;

CPDFConvertHTMLOptions htmlOptions = new CPDFConvertHTMLOptions();

htmlOptions.PageAndNavigationPaneOpts = PageAndNavigationPaneOptions.SinglePageNavigationByBookmarks;

htmlOptions.IsAllowOCR = false;

htmlOptions.IsContainAnnotations = true;

htmlOptions.IsContainImages = true;

int pageCount = converter.GetPagesCount();

int[] pageArray = new intpageCount;

for (int i = 0; i < pageArray.Length; i++)

{

代码语言:txt
复制
pageArray[i] = i + 1;

}

ConvertError error = ConvertError.ERR_UNKNOWN;

converter.Convert(outputFolderPath, ref outputFileName, htmlOptions, pageArray, ref error, getPorgress);

如果您想了解更多平台有关如何使用PDF to HTML转换的更多信息,请访问我们详细的PDF to HTML指南

问题修复:

  • 修复了 PDF 转 Word 对繁体文档进行 OCR 时可能会Crash 问题。
  • 修复了 PDF 转 RTF 会多出一页空白页的问题。
  • 修复了 PDF 转 RTF 的OnProgress()回调函数返回进度过慢的问题。
  • 修复了 PDF 转 Excel 在文档没有表格的情况下,OnlyTable等于 true 时,返回转换失败的问题,现在会生成一个空白的 Excel 文件。
  • 修复了 PDF 转 HTML 部分文件链接无法跳转的问题。
  • 修复了 PDF 转 HTML 部分文件注释丢失的问题。
  • 修复了 PDF 转 jpg 和 png,传入DPI 参数为负数时 Crash 问题。

总的来说,我们相信此次更新将把您使用 ComPDFKit 的体验提升到一个全新的水平。我们将继续优化我们的功能,为每一位用户提供更好的用户体验。欢迎您联系我们,试用 ComPDFKit 并向我们提供反馈意见。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档