摘 要:对利用基因算法训练连续隐马尔柯夫模型的语音识别的具体算法进行系统的研究;然后基于该语音识别技术对深圳市司法局社区矫正声纹识别系统进行详细设计。该系统上线后的运行结果表明,利用基因算法训练连续隐马尔柯夫模型的语音识别算法的识别速度较快同时具有较高的识别率。基于模式识别技术的司法社区矫正声纹识别系统建设在我国司法系统目前尚处于起步阶段,推广和建设司法社区矫正声纹识别系统具有重要的现实意义。
关键词:模式识别;语音识别;交互式语音应答;司法社区矫正
中图分类号:TP391.41 文献标识码:A
Abstract:Systematic research was done on the specific algorithm for speech recognition in using genetic algorithm to train continuous hidden Markov mode. Then the detailed design of Voiceprint Recognition System of Community Correction Objects in the Shenzhen City Bureau of Justice has been done based on the speech recognition technology. The system running results show that the recognition rate of recognition algorithm using genetic algorithm to train continuous hidden Markov model is faster and has a higher rate of recognition. Construction of voiceprint recognition system of judicial community correction objects based on pattern recognition is still in the junior stage in our judicial system, and promotion and the construction of voiceprint recognition system of judicial community correction objects have the important practical significance.
Key words:pattern recognition;speech recognition;interactive voice response;judicial community correction
1 利用基因算法训练连续隐马尔柯夫模型的语音识别以及具体算法
作为模式识别重要应用之一的语音识别技术所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。
隐马尔柯夫模型(Hidden Markov Model,HMM)方法是二十世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破,现已成为语音识别的主流技术[1-4] ,该方法在语音识别时识别速度较快,也有较高的识别率。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
在HMM(隐马尔柯夫模型)中,分为离散HMM(DHMM)和连续HMM(CHMM)。由于CHMM直接以帧语音特征向量本身为观测序列,而不是像DHMM那样先将语音特征向量经矢量量化为观测符号,因此CHMM有优于DHMM的识别精度。然而,由于CHMM参数多,传统的训练方法采用迭代法,先假设初始值,用语音信号的观测序列对该初始值进行训练,也即按照一定的方法对这些估值进行提纯,对提纯了的估值要接着进一步的提纯,直到再没有改进的余地,达到某个局部最佳值为止。传统的训练方法不保证训练得到全域最优解,而且训练所需要的时间非常巨大。
本文侧重地研究了基因算法[5],并按照CHMM的特点构造染色体,用基因算法对CHMM进行训练。基因算法自身的特点使得训练结果趋向于全域最优解。同时,由于只需要用Viterbi算法计算语音的观测序列对某一CHMM模型的相关概率,用作基因算法的适应函数,故该算法可以提高CHMM的训练速度。
基因算法的具体实现步骤参考文献[5]。
HMM是用一个有限状态系统作为语音特征参数的生成模型,每个状态能产生连续的输出特征。HMM实际上是一个特征参数发生器,依据其产生的参数与观察到的语音参数的比较,从而识别语音。在识别时的判决依据是HMM模型的生成概率。
在将基因算法引入CHMM训练的过程中,首先要解决的是染色体的构造问题。将CHMM模型的所有关键特征参数排列成一串,构成染色体。对于语音识别,采用自左向右的HMM模型,本文中为5状态自左向右只含一阶跳转的CHMM模型。CHMM模型中参数由初始状态向量π,状态转移矩阵A和每个状态的输出概率密度函数组成。
在CHMM模型中,染色体前一部分的行向量之和均为1。也就要求在产生染色体时,需对其进行一定的控制。在生成每一代染色体时,对这一部分行向量所对应的每一段染色体进行归一化,则可以满足CHMM的约束条件。
Viterbi算法在通常的CHMM语音识别中是作为识别算法的,换句话说,使观测序列与CHMM模型经Viterbi算法的运算结果最大即为优化目标。基于这样的思想,基因算法的适合函数为:所有该CHMM对应的观测序列用Viterbi算法求其观测概率之和,运算结果越大,则该染色体越优秀。
训练数据取自博域通讯一体化呼叫中心平台产品BYICC2.0的IVR服务器在实际商业运行中产生的WAV录音文件2000个。
2 利用基因算法训练连续隐马尔柯夫模型的语音识别技术在深圳市司法局社区矫正声纹识别系统中的应用介绍
2.1 司法社区矫正的需求背景以及存在问题
司法社区矫正,是指将社区矫正对象置于社区内,由专门的国家机关负责并组织社会力量对其采取监督管理、教育、帮助措施,矫正其犯罪心理和行为恶习,促进其顺利回归社会的非监禁刑罚执行活动。尽管目前我国社区矫正工作中较普遍地应用了信息化管理手段,根据社区矫正的刑罚执行性质和非监禁特征,各地积极探索运用手机定位等现代科技手段加强对社区矫正人员的实时监管,具体的监管手段包含:手机实时定位监控、电子地图越界告警、人机分离抽查等。现阶段,很多司法社区矫正工作中应用到了诸如手机实时定位监控等高科技手段来实现对社区矫正人员的监控,但在具体操作中仍然存在一些问题和障碍,主要在现有手机定位监控的技术下,难以有效控制人为出现的“人机分离”现象。现有“人机分离”抽查手段主要有:电话抽查、短信抽查、拍照抽查等。虽然一定程度上降低了矫正对象“人机分离”的风险,但这些抽查手段皆无法确保是否为矫正对象本人,有脱管、漏管的可能性。
正是基于以上原因,博域通讯推出的社区矫正声纹识别系统的主要功能是通过远程电话录音来对社区矫正人员进行身份认证,结合手机定位监控系统,促进社区矫正工作向合理化、人性化、智能化、效率化方向发展,推动社区矫正信息化建设,并有效破解移动定位监管“人机分离”的难题。
2.2 深圳市司法局社区矫正声纹识别系统设计
2.2.1 系统应用体系架构
社区矫正声纹识别方案中,包括声纹识别系统、IVR自动语音服务系统并结合现有的手机定位系统以及后台管理系统,同时,声纹识别服务也涉及到了数据库服务器之间的数据通信。
2.2.2 系统网络架构
被矫正人员通过拨打固定电话号码接入社区矫正声纹识别系统,由内置电话语音板卡的IVR服务器将采集到的客户语音,并通过调用声纹服务器提供的接口函数与声纹识别服务器进行交互。声纹服务器将识别的结果反馈给IVR服务器以便进行相应的IVR语音流程控制,同时,社区矫正声纹识别系统将被矫正人员的声纹身份识别结果反馈给手机定位系统。其网络拓扑结构图如图3所示。
2.2.3 系统业务流程
深圳市司法局社区矫正声纹识别系统与现有手机定位系统结合后的主要业务流程如下图:
2.2.4 系统运行结果主要指标
利用基因算法训练连续隐马尔柯夫模型的语音识别的司法社区矫正声纹识别系统已于2014年1月在深圳市司法局上线投入运行。
声纹识别技术在实际应用中,会根据说话人识别内容的不同分为文本相关验证和文本无关验证。深圳市司法局社区矫正声纹识别系统,支持这两种方式的验证,根据实际工作和业务的需要,用户可以选择适合自己的声纹验证方式。
同时,与手机实时定位监控、电子地图越界告警、电话抽查、短信抽查等传统监管手段相比较,语音识别技术有效地控制了司法社区矫正中人为出现的“人机分离”现象。
3 结束语
模式识别从20世纪20年代发展至今,人们的一种普遍看法是不存在对所有模式识别问题都适用的单一模型和解决识别问题的单一技术,我们现在拥有的只是一个工具袋,所要做的是结合具体问题把统计的和句法的识别结合起来,把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来,把统计模式识别或句法模式识别与支持向量机的机器学习结合起来,把人工神经元网络与各种已有技术以及人工智能中的专家系统、不确定推理方法结合起来,深入掌握各种工具的效能和应有的可能性,互相取长补短,开创模式识别应用的新局面。基于模式识别技术的司法社区矫正声纹识别系统能够有效地破解移动定位监管“人机分离”的难题,其建设工作在我国司法系统目前尚处于起步阶段,推广和建设司法社区矫正声纹识别系统具有重要的现实意义。