当印刷体汉字识别系统三

发布时间：2021-09-09 19:12:38 阅读：次来源：研钵厂家

印刷体汉字识别系统(三)

4.3 统计识别与结构识别的结合

结构模式识别与统计模式识别各有优缺点，随着我们对于两种方法认识的深入，这两种方法正在逐渐融合。格化特征就是这种结合的产物。字符图象被均匀地或非均匀地划分为若干区域，称之为“格”。在每一个格内寻找各种特征，如笔划点与背景点的比例，交叉点、笔划端点的个数，细化后的笔划的长度、格部分的笔划密度等等。特征的统计以格为单位，即使个别点的统计有误差也不会造成大的影响，增强了特征的抗干扰性。这种方法正得到日益广泛的应用。

4.4 人工神经络

人工神经络(Artificial Neural Network，以下称ANN)是一种模拟人脑神经元细胞的络结构，它是由大量简单的基本元件－神经元相互连接成的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善，我们无法确定ANN的工作方式是否与人脑神经元的运作方式相同，但是ANN正在吸引着越来越多的注意力。

ANN中的各个神经元的结构与功能较为简单，但大量的简单神经元的组合却可以非常复杂，我们从而可以通过调整神经元间的连接系数完成分类、识别等复杂的功能。ANN还具有一定的自适应的学习与组织能力，组成络的各个“细胞”可以并行工作，并可以通过调整“细胞”间的连接系数完成分类、识别等复杂的功能。这是冯·诺依曼的计算机无法做到的。

ANN可以作为单纯的分类器(不包含特征提取，选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中，常常将字符的图象点阵直接作为神经络的输入。不同于传统的模式识别方法，在这种情况下，神经络所“提取”的特征并无明显的物理含义，而是储存在神经物理中各个神经元的连接之中，省去了由人来决定特征提取的方法与实现过程。从这个意义上来说，ANN提供了一种“字符自动识别”的可能性。此外，ANN分类器是一种非线性的分类器，它可以提供我们很难想象到的复杂的类间分界面，这也为复杂分类问题的解决提供了一种可能的解决方式。

目前，在对于象汉字识别这样超多类的分类问题，ANN的规模会很大，结构也很复杂，现在还远未达到实用的程度。其中的原因很多，主要的原因还在于我们对人脑的工作方式以及ANN本身的许多问题还没有找到完美的答案。

五、汉字识别技术的最新进展

汉字识别最为重要的指标是识别正确率，最新技术包括两个方面：一是使用组合优化特征的综合识别方法，提高正确率，增加适应性；二是英文与数字的比例超过1/3时的汉英双语混排识别。

5.1 组合优化特工程塑料1般是指可以作为结构材料承受机械应力征的综合识别方法

抽取单一种类的特征进行汉字识别，误识率较难降低，且抗干扰性不易提高。因为这样所利用的汉字信息量有限，不能全面反映汉字的特点，对任何一种特征来说，必然存在其识别的“死角”，即利用该特征很难区分的汉字。从模式识别的角度来看，若将汉字的全部矢量化特征所组成的空间称作空间(i=1,2,……)，那么利用整个空间Ω的信息进行汉字识别，由于提供的汉字信息很充分，抗干扰性会大大增强。

但是，在实际应用中，必须考虑到识别正确率与识别速度(运算量)及系统资源三者的折衷。所以任何一个实用的OCR系统只利用其中部分子空间的信息。由于信息的缺陷，便不可避免地遇到识别“死角”的问题。

“组合优化特征法”识别汉字的基本思想是：首先，在长期汉字识别研究的基础上，选择结构元等多种基于汉字笔划结构的统计特征，这些特征具有良好的类内聚合和类间发散的分类能力；其次，有机地多种汉字特征互为补充，相得益彰，使汉字识别的“死角”大幅减小，从而提高识别率。

“组合优化特征”的综合识别方式，是建立在对各种方法充分了解的基础之上，基于知识的识别方式，因为这样既富有针对性，充分发挥了各个方案的长处，取得了高的识别率，又提高了系统的运行效率。

5.2 汉英双语混排识别

随着信息产业的开放与发展，越来越多的英文词语出现在我国的印刷文本材料中。尤其在科技文献刊物中，更是屡见不鲜，英文、数字的比例常常超过1/3。英文字母出现在文本行中，其大小、高度与汉字中的偏旁部首很类似，难通过参与前端设计咨询以区分是汉字偏旁部首，还是英文字母；英文单词中字母之间的距离不等，粘目前市场上的拉力机用传感器小力值1般用S型传感器连也相当普遍；汉字是以横竖等笔划为基本结构的，而英文则是以曲线为主。因此，汉英双语混排识别的关键在于汉字和英文字母的正确分辨和切分。切分的传统方法是利用“高度椏矶葪位置”信息，但是由于汉字中可左右分离的字很多，其各部分无论高度和宽度，均与英文字母很接近，如“即”、“旧”等；而且，英文字母的粘连现象也无法解决；此外，许多英文的双字母组合，三字母组合，是用一智能制造离不开机器人系统的利用个字模来印刷的，如“fi”等。因此，在“高度椏矶葪位置”准则基础上，根据“TET(Try-Error-Try)准则”，加入了“切分椩な侗饤二次切分”的手段。即对于各种可能出现的切分情况，进行预识别，从中选出误差最小，最合乎语言逻辑习惯的组合。

对于粘连的英文字母，由于连续粘连在一起的字母可能有多个，组合的情况较多，且粘连的种类亦有较大区别。进行“穷举式”试切分，所花费的时间代价太大。因此采用“化整为零”的方法，根据最佳邻域搜索原则以及字母串在水平和垂直方向上的投影信息，将字母串从最可靠的地方一分为二，分为两个子串；然后在这两个子串内再重复上述步骤，直到子串的长度大约为三个英文字母的平均宽度；最后进行“穷举式”试切分，从而大大缩短了切分所用的时间。从而有效地解决了汉英双语混排文本的识别。

5.3 高性能实用汉字识别系统的其它关键技术

实用汉字识别系统的其它关键技术主要包括：

(1) 扫描仪自动亮度调节(ABJ-Automatic Brightness Ajustment)技术。

(2) 印刷表格的自动输入的邻域分析技术。

(3) 版面的自动分析(ALA-Automatic Layout Analysis)技术。

综上所述，最新的印刷汉字识别技术流程，如图3所示。

图3 最新的印刷汉字识别技术流程

周口职业装制作
周口制作职业装
百色订制西装
百色订制西装