最近在抓取亚某逊的时候, 除了随机请求头之外, 还有时不时出现的验证码页面, 原来换个ip还可以, 但是时间长了, 出现的越来越频繁, 所以这次就来彻底解决这个验证码的问题
验证码长这样:
验证码识别常见方式...使用tesseract + pillow 这是最简单最直接的方式, 不过也是效率最低的, 识别特别正常的还是没问题的
使用第三方打码平台或者第三方OCR, 我使用过云打码, 还行(听说是一帮人在人工打码..., 所以也没必要使用pillow来进行降噪处理
所以这种方式就不多介绍了
百度OCR
下面介绍使用百度orc来进行识别
1....'
print(code)
现在的通用文字识别是每天50000次的免费使用次数, 一般来说够用了
识别率还可以
接入项目
下面就将百度ORC使用到amazon验证码中
1...., 下篇来讲使用训练模型来进行验证码识别