但是当我用编辑器打开它的时候,文本就坏了。然后,我试图通过将编码更改为它们中的大多数来解决这个问题。就像下面。仅HTML示例<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <meta http-equiv="Content-Type" conten
我在一个文件夹里有多个pdf。我合并所有的pdf并运行以下代码: out = open('raw.txt', "wb") text = page.get_text().encode("utf8") out.write(bytes((12,))) 要跳过Pdfs的合并,可以使用以下代码:
from glob import