我有一套(300 K)多项选择题的PDF(每PDF约50 )。
每个PDF可能有一个稍微不同的布局,这使得它不可能只是转换为文本(pdftotext)和匹配使用REGEXP。
问题1
用词
( a) ALTERNATIVE_A
( b) ALTERNATIVE_B
( c) ALTERNATIVE_C
( d) ALTERNATIVE_D
。
( Q1)措辞
a. ALTERNATIVE_A
b. ALTERNATIVE_B
c. ALTERNATIVE_C
d. ALTERNATIVE_D
e. ALTERNATIVE_E
另一方面,所有文件都有共同之处,即它的问题接近它的交