我只想将多个提示的第一页转换为OCR。在R或PowerShell中,我可以使用哪些工具/cmdlet/函数只将每个TIFF的第一页转换为PDF?
在给定的PDF (每个TIFF 1)中,我使用文本挖掘一个文件号,该文件号总是列在第一页的第二行,并且我使用我提取的文件号重命名PDF。
我相信这是可以改进的。到目前为止,我的解决方案完成了我想要做的大部分事情,除了ocr conversion...which之外,我仍然可以使用Acrobat和生成.txt文件,这是我在R中所做的,但是,通过powershell实现一切都会很好。
第1部分:将TIFF的第1页转换为PDF
#TIFF source folder
$source = 'C:\Data\PROJECTS\'
# Select TIFFs folder
Get-ChildItem -Path $source -filter *.tif | %{ convert "$($_.FullName -Replace ".tif+$", ".tif[0]")" "$($_.FullName -Replace ".tif+$", ".pdf")" }
这是一个索引,用于引用第一页,这是我从here学到的。
第2部分:将PDF转换为OCR 我在Acrobat批处理向导中这样做
第3部分:将PDF转换为TXT,目前正在R中这样做
第4部分:使用TXT的第2行重命名PDF,首先使用两个列创建目录列表,一个列具有TXT名称,另一个列具有PDF名称。
# Get the second line from every text file
$Files = Import-CSV 'C:\Data\PROJECTS\dirlist.csv' -Header ("TxtName","PdfName")
ForEach($file in $Files)
{
$newName = Get-Content -Path $file.TxtName | Select-Object -Index 1
$newName2 = $newName + ".pdf"
Rename-Item $file.PdfName $newName2
}
其中,-Index 1用于引用文本文件的第二行。
发布于 2016-04-21 16:27:08
我相信这是可以改进的。到目前为止,我的解决方案完成了我想要做的大部分事情,除了ocr conversion...which之外,我仍然可以使用Acrobat和生成.txt文件,这是我在R中所做的,但是,通过powershell实现一切都会很好。
第1部分:将TIFF的第1页转换为PDF
#TIFF source folder
$source = 'C:\Data\PROJECTS\'
# Select TIFFs folder
Get-ChildItem -Path $source -filter *.tif | %{ convert "$($_.FullName -Replace ".tif+$", ".tif[0]")" "$($_.FullName -Replace ".tif+$", ".pdf")" }
这是一个索引,用于引用第一页,这是我从here学到的。
第2部分:将PDF转换为OCR 我在Acrobat批处理向导中这样做
第3部分:将PDF转换为TXT,目前正在R中这样做
第4部分:使用TXT的第2行重命名PDF,首先使用两个列创建目录列表,一个列具有TXT名称,另一个列具有PDF名称。
# Get the second line from every text file
$Files = Import-CSV 'C:\Data\PROJECTS\dirlist.csv' -Header ("TxtName","PdfName")
ForEach($file in $Files)
{
$newName = Get-Content -Path $file.TxtName | Select-Object -Index 1
$newName2 = $newName + ".pdf"
Rename-Item $file.PdfName $newName2
}
https://stackoverflow.com/questions/36762049
复制相似问题