我目前正在用VBA在Excel中建立一个爬虫,以便在几个在线参考资料的帮助下从一个公共网站爬取表数据。
然而,我需要一个额外的步骤,我需要识别我爬行的字体中使用的字体的颜色。
例如:如果一些单词是红色的,而其余的是黑色的,我将能够识别它们。如何检测字体颜色?
下面是我的代码的一部分。
For Each tbl In doc.getElementsByTagName("TABLE")
tabno = tabno + 1
If tabno = 5 Then
nextrow = nextrow + 1
截图上的tesseract OCR给出了相当不稳定的结果。即使图像完全是黑色的,上面覆盖着白色文本,似乎也只有部分文本被正确识别。即使在我将图像调整为300dpi之后,准确率仍然很低,并且大多数文本都是胡言乱语。 我在StackOverflow上看到了类似的问题:Best way to recognize characters in screenshot? 如前所述,问题的作者能够通过用他的字体训练tesseract引擎来获得几乎100%的准确率。 我的图像中的字体是Arial。我怎样才能提高准确率呢? 这是我拥有的一种图片的示例:Image Sample
我在Grid中使用Page中的代码来使Page使用来自/fonts/pirulen rg.ttf的自定义字体。
<TextBlock HorizontalAlignment="Left" Margin="617,49,0,0" Text="I Am the New Font" FontFamily="fonts/pirulen rg.ttf#Pirulen Rg" />
在属性编辑器中打开此Textblock时,可以识别字体样式,但在设计器中不能识别,在应用程序运行时也不能识别字体样式(默认为系统的字体集合中的现有字体