> 【本报讯】近日,由清华大学电子工程系智能图文实验室研究开发的“高性能东方文字文档智能全信息数字化系统”荣获国家科技进步二等奖。据有关专家介绍,该系统主要以清华TH-OCR(光学字符识别)技术为核心,无论是技术水准、识别效果还是应用状况,都已经达到了世界领先水平。做为承担此成果转化的核心厂商,文通信息总经理沙建辉表示,随着我国信息化建设的全面开展,OCR技术诞生10余年来,经历从实验室技术到产品的转变,目前已经进步行业应用开发的成熟阶段。相比发达国家的广泛应用情况,OCR技术在国内各行各业的应用还有着广阔的空间。而文通信息近年来在这一市场所保持的约100%的市场增长从一个侧面证明了这个市场的潜力。
据悉,“高性能东方文字文档智能全信息数字化系统”是基于清华TH-OCR技术的文字识别系统。通过该系统,用户可以将通过扫描仪、摄像机等光学输入方式得到的书籍、报刊、文稿、表格等印刷品的图像信息转化为可供计算机识别和处理的文本信息。与传统的案头文档管理相比,该系统最大的优势就是通过提供包括数据输入、数据管理和数据还原在内的信息平台,显著提高用户的工作效率。目前文通信息基于该系统开发的应用方案已经在国内办公自动化、银行、税务、数字图书馆、电子出版、名片和身份证识别、邮政分拣等行业取得了成功应用。
据介绍,作为国内OCR领域的领导厂商,文通信息源于清华,承担着清华TH-OCR技术产品化和应用创新的重要任务。目前,文通信息开发的基于该系统的清华TH-OCR ASIA产品,在亚洲文字识别方面已经位居国际领先水平。在中文识别方面,该产品能够识别的字体已多达百种,各种字体综合识别率达到99.5%以上。而在日文、韩文识别方面也分别超过了日本和韩国开发的同类产品。
沙建辉向记者介绍,OCR是图像文字资料电子化的核心技术,由于大大提高人们资料存储、检索、加工的效率, OCR技术在各行各业都有应用的舞台。特别是在金融、电子政务、保险、税务、工商、报业这些需要处理和保存大量纸介资料的行业,对OCR技术的需求更为强烈。以报社行业为例,一些50年代甚至解放前出版的报纸,如果采用传统的保存方法不仅容易损坏,而且查阅起来也非常不便,如果通过OCR技术,将这些资料进行数字化处理,那么报社几十年的报纸只需一张光盘就可以保存,而且可以随意进行索引,方便了用户查找。
专家指出,随着国家信息化建设进入内容建设阶段,为OCR技术开创了一个全新的行业应用局面。经过众多专业人士的努力,将使OCR更加深入到信息化建设的各个领域,会有更多的新应用诞生,促进相关行业工作效率的提高,OCR技术将会有一个质的飞跃,而OCR产业将走进自己的黄金时代。
Tags:
责任编辑:小黑游戏