研钵厂家
免费服务热线

Free service

hotline

010-00000000
研钵厂家
热门搜索:
产品介绍
当前位置:首页 > 产品介绍

当印刷体汉字识别系统三

发布时间:2021-09-09 19:12:38 阅读: 来源:研钵厂家
当印刷体汉字识别系统三

印刷体汉字识别系统(三)

4.3 统计识别与结构识别的结合

结构模式识别与统计模式识别各有优缺点,随着我们对于两种方法认识的深入,这两种方法正在逐渐融合。格化特征就是这种结合的产物。字符图象被均匀地或非均匀地划分为若干区域,称之为“格”。在每一个格内寻找各种特征,如笔划点与背景点的比例,交叉点、笔划端点的个数,细化后的笔划的长度、格部分的笔划密度等等。特征的统计以格为单位,即使个别点的统计有误差也不会造成大的影响,增强了特征的抗干扰性。这种方法正得到日益广泛的应用。

4.4 人工神经络

人工神经络(Artificial Neural Network,以下称ANN)是一种模拟人脑神经元细胞的络结构,它是由大量简单的基本元件-神经元相互连接成的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,我们无法确定ANN的工作方式是否与人脑神经元的运作方式相同,但是ANN正在吸引着越来越多的注意力。

ANN中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却可以非常复杂,我们从而可以通过调整神经元间的连接系数完成分类、识别等复杂的功能。ANN还具有一定的自适应的学习与组织能力,组成络的各个“细胞”可以并行工作,并可以通过调整“细胞”间的连接系数完成分类、识别等复杂的功能。这是冯·诺依曼的计算机无法做到的。

ANN可以作为单纯的分类器(不包含特征提取,选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图象点阵直接作为神经络的输入。不同于传统的模式识别方法,在这种情况下,神经络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上来说,ANN提供了一种“字符自动识别”的可能性。此外,ANN分类器是一种非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。

目前,在对于象汉字识别这样超多类的分类问题,ANN的规模会很大,结构也很复杂,现在还远未达到实用的程度。其中的原因很多,主要的原因还在于我们对人脑的工作方式以及ANN本身的许多问题还没有找到完美的答案。

五、汉字识别技术的最新进展

汉字识别最为重要的指标是识别正确率,最新技术包括两个方面:一是使用组合优化特征的综合识别方法,提高正确率,增加适应性;二是英文与数字的比例超过1/3时的汉英双语混排识别。

5.1 组合优化特工程塑料1般是指可以作为结构材料承受机械应力征的综合识别方法

抽取单一种类的特征进行汉字识别,误识率较难降低,且抗干扰性不易提高。因为这样所利用的汉字信息量有限,不能全面反映汉字的特点,对任何一种特征来说,必然存在其识别的“死角”,即利用该特征很难区分的汉字。从模式识别的角度来看,若将汉字的全部矢量化特征所组成的空间称作空间(i=1,2,……),那么利用整个空间Ω的信息进行汉字识别,由于提供的汉字信息很充分,抗干扰性会大大增强。

但是,在实际应用中,必须考虑到识别正确率与识别速度(运算量)及系统资源三者的折衷。所以任何一个实用的OCR系统只利用其中部分子空间的信息。由于信息的缺陷,便不可避免地遇到识别“死角”的问题。

“组合优化特征法”识别汉字的基本思想是:首先,在长期汉字识别研究的基础上,选择结构元等多种基于汉字笔划结构的统计特征,这些特征具有良好的类内聚合和类间发散的分类能力;其次,有机地多种汉字特征互为补充,相得益彰,使汉字识别的“死角”大幅减小,从而提高识别率。

“组合优化特征”的综合识别方式,是建立在对各种方法充分了解的基础之上,基于知识的识别方式,因为这样既富有针对性,充分发挥了各个方案的长处,取得了高的识别率,又提高了系统的运行效率。

5.2 汉英双语混排识别

随着信息产业的开放与发展,越来越多的英文词语出现在我国的印刷文本材料中。尤其在科技文献刊物中,更是屡见不鲜,英文、数字的比例常常超过1/3。英文字母出现在文本行中,其大小、高度与汉字中的偏旁部首很类似,难通过参与前端设计咨询以区分是汉字偏旁部首,还是英文字母;英文单词中字母之间的距离不等,粘目前市场上的拉力机用传感器小力值1般用S型传感器连也相当普遍;汉字是以横竖等笔划为基本结构的,而英文则是以曲线为主。因此,汉英双语混排识别的关键在于汉字和英文字母的正确分辨和切分。切分的传统方法是利用“高度椏矶葪位置”信息,但是由于汉字中可左右分离的字很多,其各部分无论高度和宽度,均与英文字母很接近,如“即”、“旧”等;而且,英文字母的粘连现象也无法解决;此外,许多英文的双字母组合,三字母组合,是用一智能制造离不开机器人系统的利用个字模来印刷的,如“fi”等。因此,在“高度椏矶葪位置”准则基础上,根据“TET(Try-Error-Try)准则”,加入了“切分椩な侗饤二次切分”的手段。即对于各种可能出现的切分情况,进行预识别,从中选出误差最小,最合乎语言逻辑习惯的组合。

对于粘连的英文字母,由于连续粘连在一起的字母可能有多个,组合的情况较多,且粘连的种类亦有较大区别。进行“穷举式”试切分,所花费的时间代价太大。因此采用“化整为零”的方法,根据最佳邻域搜索原则以及字母串在水平和垂直方向上的投影信息,将字母串从最可靠的地方一分为二,分为两个子串;然后在这两个子串内再重复上述步骤,直到子串的长度大约为三个英文字母的平均宽度;最后进行“穷举式”试切分,从而大大缩短了切分所用的时间。从而有效地解决了汉英双语混排文本的识别。

5.3 高性能实用汉字识别系统的其它关键技术

实用汉字识别系统的其它关键技术主要包括:

(1) 扫描仪自动亮度调节(ABJ-Automatic Brightness Ajustment)技术。

(2) 印刷表格的自动输入的邻域分析技术。

(3) 版面的自动分析(ALA-Automatic Layout Analysis)技术。

综上所述,最新的印刷汉字识别技术流程,如图3所示。

图3 最新的印刷汉字识别技术流程

周口职业装制作
周口制作职业装
百色订制西装
百色订制西装