tesseract-ocr验证码识别

tesseract-ocr http://code.google.com/p/tesseract-ocr/

安装完后,就可以试试识别效果了
例子来自:http://grunt1223.iteye.com/blog/904313

按照说明,送入tesseract的图片的质量直接影响识别的效果,因此,简单的预处理是不可或缺的

1.首先灰度化,灰度值=0.3R+0.59G+0.11B:

结果如图:

2.其次是灰度反转:

结果如图:

3.再次是二值化,取图片的平均灰度作为阈值,低于该值的全都为0,高于该值的全都为255:

结果如图:

看看效果还凑合,就省却尺寸调整、中值滤波以及噪点去除等步骤了。

以上完成图片预处理工作

Tesseract没有开放api,纯命令行调用:

结果输出表示一切正常

python, groovy的可以看
http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/

更多的可以看
https://code.google.com/p/tesseract-ocr/w/list