不畏艰险勇攀高峰----- 走在信息时代的前沿，攻克语音识别难关

不畏艰险勇攀高峰

----- 走在信息时代的前沿，攻克语音识别难关

清华大学电子系教授王作英

一、“万码奔腾”中的无奈

计算机正向我们的生活大步走来，每个人都将不可避免地同计算机发生关联。但是，令广大中国人感到尴尬的是，面对西方人发明的计算机，我们的汉字却很难象西文那样进行便捷的输入。于是，一批聪明的中国人各辟蹊径，探寻采用编码手段解决汉字输入的途径。……迄今为止，汉字编码大概有近一千种，申请专利的有几百种，除众所周知的五笔字型外，其他还有表型码、郑码、自然码、电报码…… 。中国的信息产业进入了“万码奔腾”的时代。但是，所有编码方案，包括音码、形码、音形结合码、数码等无一例外要求使用者必须经过专门的训练，要熟记复杂的输入规则方可进行人与计算机之间的交互操作。显而易见，小小的键盘成了横在中国人迈向信息化的高高门槛。如何将中国人从繁复的汉字输入中解脱出来，建立良好的人机交互环境是中国信息产业所面临的瓶颈问题。

汉语凝聚着中国五千年的文化，它历经数千年成为世界上独具特色的语言，这一曾令中华民族引以为骄傲的文化精华，难道真的会成为中国信息化的障碍吗？难道我们真的要把这份无奈带到21世纪吗？中国人不甘心，中国的计算机工作者不甘心。越过使用26个英文字母的键盘，走“语音识别”的新路，让十几亿中国人用祖先创造的世界上最美妙的语言，直接同计算机对话！许多中国计算机工作者不约而同地想到了一起。为了这个光荣的梦想，北京西北郊的清华园里集结起了一支新的科技团队。

二、挑战“阿波罗”

“语音识别” 技术的最终目标，是要使计算机将能够“听懂”任何人对机器说的任何内容，并将“听懂”的内容显示在计算机屏幕上或直接打印输出。如果我们拥有这样一个汉语语音识别系统，面对计算机，那令人望而却步的汉字输入将不再成为中国人的心理障碍，人机间的藩篱将会打破，人人都可以向计算机（或控制设备）发号施令，真正做到“出口成章”，“君子动口不动手”。这一人类在人机交互领域的最高追求，被有的专家称为“比阿波罗登月还难”的尖端技术。

为此，语音识别技术作为国家关键性技术，在1986年被国家863列为“智能计算机系统主题”的重点攻关项目。年过半百的清华大学电子工程系王作英教授受命组建并领导以清华电子系中青年教师为骨干的“语音识别”小组，向语音识别技术正式宣战，开始了他们长达15年的艰苦攻关。

汉语识别的难度是多方面的。从声音识别的角度看，每个说话人的音质各不相同，加之其出生地域的不同，以及年龄上的差异，即使说普通话，彼此的发音也是相去甚远。如果将人们的话音录制下来，并将这种语音模拟信号转换成语音数字信号，经过处理、变换，我们便可以清楚地看到人与人之间的语音信号有多么大的差异。即便是以某个特定人的声音自相比较，也会由于说话的时间不同，当时的身体状况相异，以及个人情绪的高低变化而导致语音信号发生变异，这就是语音信号所特有的复杂性和随机性，它使得语音识别成为困扰科学家的尖端难题。

在汉语识别过程中，音调的识别也是摆在我们面前的难关之一。汉语共有1254个发音（即有调拼音，象ā，zhě，zhōng等），若不考虑音调则有408个发音（象a，zhe，zhong等）。但仅二级国标字库就有6763个汉字，平均每个有调拼音对应5.39个二级国标汉字，考虑汉字还有一字多音的情况（象“和”有“hé，hè，hú，huó，huò”等5个读音），平均每个有调拼音则对应5.87个二级国标汉字。而每个无调拼音则平均对应约18个二级国标汉字，其中yi对应有110个二级国标汉字！通常人们以拼音方式作为文本输入手段时，一般都喜欢使用无调拼音，这就会遇到如何从相应拼音给出的众多汉字候选中选择所需要的汉字的问题。目前流行的最简单方法就是人机交互逐字进行选择。这种方法速度慢、效率较低。显而易见，只有通过机器自动识别才能从根本上彻底摆脱键盘输入的各种制约。

另一方面，在语音识别过程中，不仅要让计算机“听懂”我们的每个发音，同时也要对每个音进行正确的“理解”。经统计，每个汉语发音（有调音节）平均对应约6.8个同音汉字，一些发音可以对应十几个、甚至几十个汉字。而声学层识别出来的只是一些无意义的音串，这些音串可以对应多个汉字串，如何将这些无意义的音串正确地转换为有语言含义（语义）的汉字串，这就是专业人员所说的音字转换、语音的理解问题。即，要排除我们在前面所提到的“一音多字”的情况，避免产生将声音转换成汉字时产生的一音多字的歧义情况，不仅要让计算机“听懂”每个汉语发音，同时也要对每个音进行“语音理解”，最后给出唯一与之相对应的正确的汉字。语音理解是语音识别的又一难点所在。

大多数识别系统所应用的多是依靠统计结果建立起的统计模型，但以这种方式建立的语言模型对文本的依赖性很强，而基于汉语语法特点再结合文本统计建立语言模型应是理想的选择。但由于人们所用的自然语言本身具有语汇的无限性和语言的不规范性特点，加之汉语的句式结构与英语、日语、法语等相比较，缺乏严紧的语法约束，因而，使得语言模型的建立更具难度。

三、零的突破

在众多的难题中，最核心的问题是算法问题。王教授反复比较了两个国际上公认的语音识别的有效方法（DTW-Dynamic Time Warping和HMM-Hidden Markov Model），其中HMM被认为是最有前途的。决定选取HMM算法进行深入的研究。1986年，王作英教授首次提出了以音节为单位的汉语语音识别方案。

经过艰苦的理论摸索和实践，在1988年，由王作英教授主持的中国第一个汉语全音节孤立字语音识别系统获得成功。这是一个包括了汉语的全部发音、适用于某个特定人、以字为单位进行输入的语音识别系统（赛德919系统）。该系统是由PC/XT加上一块TMS320C20语音信号处理板组成的汉语全音节实时识别系统，中国的汉字语音识别技术攻下了第一个堡垒，实现了“零的突破”。这个系统由北京四达公司推向市场，成为我国第一个汉语语音听写机；在社会上引起了较大的反响,它标志着汉语语音识别技术向着实用化阶段迈出了具有重大意义的一步。之后，以音节为单位的汉语语音识别方法在国内得到了普遍采用。

初战告捷，语音组群情振奋，但王作英教授和他的同事们没有给自己片刻的喘息，征尘未洗，又开始向新的目标――汉语连续语音识别进军了。

科学研究的道路难以预测，它会给困境中奋斗的人们带来惊喜；也会使充满希望的前途变得渺茫。王教授和他的同事们遇到了新的难题。

四、站上前人的肩膀---一种新算法的诞生

尽管HMM被认为用在语音识别是最有效的。但由于此模型提出背景本身的限制，使其用于语音信号处理时,存在着先天缺陷。

1987年语音研究组对国际流行的语音识别模型¾¾隐含马尔可夫模型(HMM) 进行了认真分析，指出了它的缺点和在使用段长信息方面存在的理论错误（不能描述状态段长具有稳定分布）。如何对经典的HMM进行完善？这也是本领域中一块令人望之却步的硬骨头。王作英教授在1988年1月863信息领域成果汇报会上提出了“语音识别的改进隐含马尔可夫模型”，并首次公布了DDBHMM模型和算法。王教授提出的非齐次HMM语音识别模型中用状态的段长分布函数替代了齐次HMM中的状态转移矩阵，使它成为一种基于状态段长分布的隐含马尔可夫模型。由于非齐次HMM是一个有后效过程，不能用Bellman的动态规划求最大似然路径，也不能用Baum的重新估值算法对模型参数进行训练。对于这类有后效的多阶段决策问题，如果用完全搜索算法求解最佳路径，则其计算将会极其复杂，甚至在现有硬件水平上无法实时运行。例如，若我们取状态数N=6，帧数T=30，则对一个字音的搜索路径达142506条，以408个无调汉字读音为模型，则为了识别一个字音需要搜索5千8百多万条路径，即在不到1秒的时间内需进行百亿次的浮点运算。这样的空间和时间计算复杂性是难于实时的！

因而，必须建立新的训练算法和识别算法，王教授基于所提出的“基于段长分布的HMM语音识别模型”，提出了一整套新的训练和识别算法。该模型具有比国际上流行的HMM语音识别模型更好的识别性能和更低的计算复杂度 ( 训练算法比国际流行的Baum算法低两个数量级 ) 。自此确立了汉语语音识别研究的主干模型、算法和研究路线。

五、攻关夺隘，一路高歌

王作英教授一面苦苦思索理论模型的改进突破，一面孜孜探求着从理论到实际应用的道路。理论上的突破固然是一个值得骄傲的成就，但是到实际的应用还有一段相当遥远的艰难路程。

在语音组的前面还有若干的关口，语音识别首先是需要大量的数据，需要人工的初级处理等，这无疑需要资金和大批的科研人员。IBM的语音识别曾以每年八千万美金的力度进行语音识别的研究工作，而我们面对的却是人少资金更少的现实。1991年1月，语音组正式独立。为了赢得研究所需要的大量的资金，王教授率先走出与企业合作的路子。

首先与中国电子器件公司签定了合作协议书，共同研制商品化的汉语语音听写机。有了公司的技术队伍和资金的支持，语音组的研究取得了实质性的进展。经过近一年的共同苦战，由清华大学电子系和中国电子器件公司合作的汉语语音识别系统¾¾THED919听写机通过电子部鉴定。鉴定委员会的专家一致认为该系统的模型、算法和识别性能方面都达到了国际先进水平。此系统是基于DDBHMM模型和算法研制的中国第一个基于统计模型的孤立字、与人有关的全音节汉语识别系统。该系统的研制成功，在社会上产生一定的影响，中国电子器件公司的领导在鉴定大会上当场宣布奖给参加该系统研制工作的技术人员10万元奖金，《计算机世界报》作为新闻进行了报道。

次年9月，汉语语音识别系统¾¾THED919听写机在《中国首届新产品技术博览会》上参展，并以其先进的系统特性和稳定的识别结果，获得金奖。

虽然THED919听写机并非是一个成熟的产品，但是它标志着我国在语音识别领域的研究已经向产品化的道路上迈出了坚实的第一步

1992年12月，清华大学电子工程系又与中国电子器件总公司携手合作，成功研制出汉语特定人孤立字听写机（知音文书机）。该听写机实现了人机对话的功能，当对某个说话人的语音数据训练后，说话人即可以直接将文稿逐字内容读入计算机，经处理后将直接打印输出文稿。这是我国第一个孤立字语音识别技术较为成熟的产品，它的问世，为语音识别产品走向市场打下了基础。

在走向市场化的过程中，又与多家企业合作，取得了资金的支持，在继续参加国家863重点攻关项目“智能接口──听写机”课题研究的同时，开始进行较大规模的与人无关语音库和语料库的建库工作，为日后语音识别的研究打下了坚实的基础，创造了不可缺少的实验条件，在国内无论从语音的研究和数据方面都走在了同行的前列。

1994年5月，赛德THED919听写机在《全国第三届语音识别系统测试》中以悬殊的比分夺得冠军。6月，王作英教授作为特邀代表，出席在新加坡举行的“International Conference on Chinese Computing”国际会议，并应邀在大会上做有关“中国大陆语音识别研究进展”的报告。

六．继续努力更上一层楼

1995年3月，王作英教授提出基于语义的语言模型，并且指导博士生开始就此进行研究。7月，本课题组与加拿大NOTEL公司合作开展电话语音识别的研究工作。12月，在“全国第四届语音识别系统测试”中，《连接词汉语听写机》和《连续语音汉语听写机》参加评测，在16项测试指标的测试中，这两个系统以绝对的优势夺得了15项冠军。测试结果发表在1996年3月25日《计算机世界报》评测专版上。1996年4月12日第一版《新清华》以“我校在汉语语音识别方面取得突破性进展”为题进行了报道。

1998年4月，电子工程系信息教研组“语音信号研究组”以他们研制的汉语连续语音《听写机》系统参加了国家863汉语语音识别系统的算法评测和系统测试，在声学层和系统的各项评测中均以遥遥领先的指标获冠军。这次测试的“听写机”基于大词汇量、非特定人的连续语音识别系统，它的系统性能代表了我国在语音识别领域的最高水平，其系统性能与IBM的ViaVoice汉语听写机相当。这是语音识别技术全面走向实用化的标志性成果。有关专家和863测试小组无不对此结果欢欣鼓舞，为我国连续语音识别取得的飞跃性成果感到振奋。

这些成果的取得凝结着王作英教授和他带领的科研组全体成员十几年的心血。这位年过六旬的老专家仍然奋战在教学科研的第一线，他和他的同事们希望通过语音识别技术来解决中国信息产业的瓶颈难题，和国内外同行一道，使“语音识别”这一科技名词变成同我们每个人息息相关、随处可见的应用技术。他们的理想是要让汉字在二十一世纪，随着中国在世界上的崛起而大放异彩。

不畏艰险 勇攀高峰----- 走在信息时代的前沿，攻克语音识别难关