由于唇动序列和语言序列是一对多的映射,计算机自动唇读识别仅使用HMM是远远不够的。以HMM为基础,结合语言先验知识,建立了新的唇动识别模型——HLM(HMM and Bigram Language Model)。HLM突破了单纯采用HMM计算声学后验概率进行识别的传统框架,将HMM和语言背景知识紧密联系起来,依据语言模型对语言背景知识进行统计,在识别阶段融合声学后验概率和语言学先验概率进行判决。实验结果表明,HLM可使单音识别率提高7.3%,句子识别率提高19.5%。另外,采用语言模型对文字流进行解析,而不再是盲目文字匹配,单一视觉流的解析精确率达70.5%。
复杂光照条件和文字—背景的交融是自然场景图像中文字检测的主要难点。为解决该问题,提出了基于LHBP(local Haar binary pattern)多尺度向性滤波的文字检测算法。该算法首先采用对光强变化不敏感并具文字特征显式描述特点的LHBP模式的纹理描述算子;并在LHBP模式上采用多尺度向性滤波器MDF(multi-scaledirectional filtering)来确定候选文字区域;最后使用基于LHBP直方图的支持向量机法精确定位文字区域。实验结果表明,与其他主流算法相比,该算法能够去除复杂光照条件和文字—背景交融的影响,具有更好的性能。