技术方案

OCR

光学字符识别(OCR)

   光学字符识别,一般缩写为OCR,说的是可同时被机器和肉眼读取的文本。常见应用包括对药品或食品包装日期/批号的追踪、邮局邮件分拣及其它文档处理应用、车身序列号读取或电子行业应用,以及更多其它方面等。
 
  从20世纪70年代开始,光学字符识别技术就已经广泛地应用于各种商业应用,现在又开始运用到自动化任务中,如通行证处理、安全文件处理(支票、财务文件、账单)、邮件追踪、出版、消费品包装(单号、批号、有效期)及临床应用。可使用的工具有OCR读取设备和软件,以及能读取条形码和检测产品等附加功能的智能相机及视觉系统。
 
  OCR的主要优点在于,它可以以一种让机器和肉眼都能识别的格式对信息进行编码,而条形码和二维码都只能通过机器识别。然而,以条形码方式编码的数据可靠性更高,这是因为OCR的字符替代率很高(尤其是使用OCR-A及OCR-B字体时)。支票用的字符通常是嵌入在OCR数据域中的,然后由OCR读取器或视觉系统通过计算来避免数据输出的替代错误。
 
  有不同的方法可以把OCR整合到应用中,还有不同的系统可以用来处理OCR编码的数据。OCR模板及OCR字体都是最简单最可靠的类型。通用OCR字体的一些样例包括OCR-A、OCR-B、MICR E-13B及SEMI M12。OCR模板定义了几种参数,包括OCR字体、OCR字符的排列(按行或按列等)、每行字符字数、总行数,等等。
 
  
 
  标签上和直接标记的OCR示例
 
  
 
  OCR字体示例
 
  还有一种有代表性的更高端的学习型机器视觉OCR系统,这种系统除了可以识别专用的OCR字体(OCR-A、OCR-B、MICR、SEMI)外,经过训练还能识别任何由用户定义的字体;而且,还能教它识别以任何语言生成的任何字体的整套字符集。这种系统的不足之处在于需要大量人力投入,而且在使用非OCR字体时可靠性会有所降低。光学字符验证(OCV)是一种能应对可靠性问题的方法。只要把特定的技术参数教授给OCR读取器,OCV软件就能参照这些参数来验证印出来的字符,确保数据编码正确,还能保证标签能以正确的方向贴在正确的产品上。