文本中的" “我在删除时遇到了问题。具体内容如下: 如果一个句子以"space“开头,我从相关div得到的值如下所示; <div>&NBSP; bla bla bla bla </div> 如果一个句子以"space“结尾,我从相关div得到的值如下所示; <div> bla bla bla bla&NBSP;<
我有一句以图像结尾的句子:
<p>This is a long word This is a long word This long<img src="images/fancy-r.png"></p>当句子太长时,图像就会自动出现在新的行上,就像下面的图片一样。这个句子是动态生成的,所以我无法预测它的长度。是否有一种方法总是将图像“集中在”使
我用pdfbox逐行从pdf中提取文本,用我的算法逐句处理。
我用句号(.)识别句子。后面跟着第一个字母是大写的单词。这里的问题是,当一个句子以一个有上标的单词结尾时,提取器将其视为一个正常字符,并将其放在句号(.)旁边。例如,当"2 power 22“作为句子中的最后一个词出现在句子中时,它被提取为2.22,这使得识别句子的结