计算语言学与实验语音学

发布时间:2021-11-19 17:59:31 | 来源: | 作者: | 责任编辑:

(一)计算语言学

计算语言学近年来在我国呈蒸蒸日上的态势,突出表现在公开发表的科研成果数量多、质量逐步提升上。伴随着国家对民族语言文字信息化处理的重视,全国各地尤其是民族类院校藏语文信息化处理获得国家立项的科研项目和重点实验室基础建设同比增长比较多,国家和各个科研院所也加大在这方面的投入。我国藏文信息处理起步较晚,标准化建设尚待进一步完善,藏文信息技术研发单位各自为营,缺乏交流和合作。更重要的是我国藏文编码还没有完全遵循藏文国际编码集,大家经常是根据各自的需要设计扩充编码集,可以说我国藏文信息处理的技术与国际先进水平还存在差距。为了推动国内藏语文信息化建设,应该加大对国际标准小字符集技术的深入研究,根据国内信息化需要研制藏文大字符集国家标准,尽快统一国内藏文编码,编码多样化导致藏文网络传播与交流出现了杂乱无章的局面,严重制约了藏文信息化研究的进程。因此对于不同藏文编码之间的转换研究就显得十分必要,2012年度有多篇论文涉及藏文编码转换的研究成果公开发表,主要有:邢超等的《藏文文本编码方案的识别算法》(《信息网络安全》第12期)。

藏语文标准研究包括两个研究领域:一是藏语文字使用的规范标准,二是藏语文信息处理所用的规范标准。藏语计算语言学研究内容包括藏语文的拉丁转写规范、分词规范、词类规范、语料库规范、语言知识的表述规范等。

藏文字符识别研究是藏文文本信息化的一项基础研究,对于藏文输入、文献信息化、语料库建设等方面产生了重要影响。字符识别研究包括印刷体字符识别和手写体字符识别,印刷体字符识别又涉及雕刻版字符识别。江荻、周学文、龙从军等人的《藏文识别原理与应用》(商务印书馆)是一部介绍文字识别原理和技术、藏文字形结构和统计特征、藏文识别技术和应用的书籍,也是目前中国第一部有关藏文识别的专著,对关心藏文识别或文字识别技术的读者有重要的参考价值。该书共有七章,第一章绪论介绍了藏文识别研究的背景、技术以及研究现状。第二章介绍了藏文的字形和结构特征。第三章介绍了藏文编码简史和字体。第四章介绍了OCR理论和方法。第五章介绍了不同语言环境下OCR的实现。第六章介绍了藏文识别预处理。第七章介绍了藏文印刷体的识别。第八章介绍了藏文识别后的处理。该部著作总结了藏文文字识别的基本理论方法与软件开发的情况,是藏文文字识别研究的集成作品,对推动我国少数民族文字研究和信息化研究有积极的作用。关于藏语文识别的文章还有:李永忠等的《藏文印刷体字符识别技术研究》(《南京大学学报》自然科学版第1期)、小普桑等的《藏文笔迹的分析与鉴定》(《西藏科技》第4期)、赵冬香等的《BP神经网络在脱机手写吾美藏文识别系统中的应用》(《贵州科学》第2期)、赵栋材的《基于BP网络的木刻藏文经书文字识别研究》(《微处理机》第5期)、才让洛加等的《识别现代藏文基字的算法设计与实现》(《西藏科技》第5期)等,这些论文关注藏文文字识别中的某类具体问题,探讨识别的策略,推动了藏语文字识别研究的不断深化。

语料库建设对语言信息处理意义重大,因此反映语料库加工方法技术以及基于语料库的语言研究文章也比较多,包括才藏太的《藏文语料库深加工方法研究》(《计算机工程与应用》第26期)等都是针对整个语料库的结构组织、标注方法等的研究;力毛措的《藏语语料库管理系统中读写数据粒度问题的研究》(《青海师范大学学报》自然科学版第2期)等则对语料库加工过程中的具体细节问题进行了讨论。

与标注语料库建设密切关联的是分词与词性标注技术研究。2012年度藏语分词技术取得了丰硕的成果,不但体现在发表文章的数量上,也体现在分词方法革新和分词软件开发方面。

对藏语分词方法进行研究的论文主要有:陈朝阳等的《基于Dijkstra算法的藏语分词研究》(《数字通信》第6期);反映基于规则分词系统开发的文章有刘汇丹等的《SegT:一个实用的藏文分词系统》(《中文信息学报》第1期)、才华等的《Unicode藏文分词系统的设计》(《西藏科技》第7期)、赵栋材的《基于虚词切分的藏文分词系统的设计与实现》(《西藏大学学报》自然科学版第2期)。基于规则的藏语分词研究面临诸多问题,分词的精度有待进一步提高,为此一些研究者尝试把统计方法引入到藏语分词研究中。首先把统计技术引入藏语分词的是史晓东、卢亚军等,他们在《央金藏文分词系统》(《中文信息学报》第4期)一文中介绍了把汉语分词系统Segtag的技术移植到藏语分词中,主要采用隐马尔科夫模型,将分词和标注一体化处理,获得了不错的效果。羊毛卓玛和欧珠等的《一种改进的藏文分词交集型歧义消解方法》(《西藏科技》第1期)、巴桑杰布等的《藏文分词系统中紧缩格识别和藏字复原的算法研究》(《西藏科技》第2期)、羊毛卓玛等的《藏文自动分词中未登录词处理方法研究》(《计算机工程》第17期)等。

语料库的词性标注研究的成果不是太多,其原因主要在于分词的精确度不高限制了词性标注研究的推进。语料库词性标注研究所采用的技术方法以统计模型为主,主要成果有:扎西多杰等的《基于HMM藏文词性标注的研究与实现》(《计算机光盘软件与应用》第12期)。词性标注细节研究,包括标注词典,具体某些现象的标注研究,如扎西加等的《藏文文本分词赋码一体化研究》(《西藏大学学报》自然科学版第1期)。但是总体上来看,藏语词性标注研究还存在很多问题,标注的精确度还不高。

资源建设还包括知识库建构和双语语料加工。知识库建设方面也取得了一定的成果,才让三智等的《面向信息处理的藏语虚词知识库构建研究》(《西北民族大学学报》自然科学版第2期)等都试图通过建立语法知识库来解决藏语计算处理中所需要的资源。但是语法信息知识库的构建是一项艰苦而持久的工作,当前藏语知识库建设的水平还较低、规模不大,还需要继续加大研究的力度。

双语语料库建设难度要比建立单语种语料库难度大,尤其是词级单位对齐的语料库在语言信息处理中起关键作用,涉及这方面研究的文章也比较多,主要有才让卓玛等的《基于语料库的藏语高频词抽取研究》(《计算机工程》第15期)、曹晖等的《藏文报纸词语统计研究》(《西北民族大学学报》自然科学版第3期)。马拉毛草等《基于语料库的藏语形容词统计研究》(《西北民族大学学报》哲社版第6期)、祁坤钰的《基于语料库的藏语名词分类与统计研究》(《西北民族大学学报》自然科学版第3期),这些文章的特点在于关注藏语新词新语、网络词汇,在研究方法上以基于语料库的统计方法为主。

文本信息处理是近几年藏语计算处理的核心研究领域,龙从军在《当前藏语信息处理的几个关键问题》(《科研与信息化》第4期)概述了当前藏语文本信息处理的几个基本问题以及对策。文本处理包括文本知识自动发现,自动分类、知识抽取、校对、检索等内容。

边界的识别问题,对于句法研究意义重大。相关的成果有徐涛等的《统计与规则相结合的藏文句子自动断句方法》(《云南大学学报》自然科学版第6期)、才藏太的《基于最大熵分类器的藏文句子边界自动识别方法研究》(《计算机工程与科学》第6期)、马伟珍等的《藏语句子边界识别方法》(《西藏大学学报》自然科学版第2期),上述成果的特点在于把统计手段融入句子识别研究中,规则和统计方法的融合,提高了藏语句子识别的精确度。

关于文本自动校对的研究主要有刘文香的《现代藏文文本校对设计方案研究》(《西藏大学学报》自然科学版第2期)、关白、才科扎西的《现代藏文音节字自动校对研究》(《计算机工程与应用》第29期)等。藏语计算语言学还包括特定应用软件的开发,如卓嘎等的《基于Flash的藏文字母打字游戏的设计与实现》(《西藏大学学报》自然科学版第2期)、高红梅等的《藏文网页爬虫设计与实现》(《信息与电脑》理论版第9期)。

应用藏语文软件的开发也是基于计算语言学发展起来的。相关的研究成果有:戴玉刚、刘战东的《藏文Flv播放器的设计与实现》一文利用Flex技术,开发了一款藏文Flv播放器,该播放器实现了藏文字体在播放器界面上正常显示和视频文件的正常播放。实验结果表明,利用Flex技术开发的藏文Flv播放器能够给用户带来更丰富、体验性更强的用户界面。

孟祥和、何向真、曹晖的《基于民族文字的在线虚拟键盘实现技术》以在线藏文虚拟键盘为例,描述了在线民族文字虚拟键盘的实现技术,并在字符编码、键盘布局、浏览器兼容等方面进行了详细阐述。在线民族文字虚拟键盘为用户提供一个与国家标准键盘布局相对应的民族文字虚拟键盘,其具有直观、形象、易操作的特点。民族文字的在线虚拟键盘技术的实现,改善了B/S模式下民族文字输入不便的问题。

(二)实验语音学

与计算语言学相比,2012年度实验语音学的研究成果不是很多,代表性的有:李冠宇、孟猛的《藏语拉萨话大词表连续语音识别声学模型研究》(《计算机工程》第5期),于洪志、高璐等的《藏语机读音标SAMPA_ST的设计》(《中文信息学报》第4期),范俊军的《基于调查字表词表注音的汉藏语言音系处理系统》(《语言文字应用》第2期)等。

李冠宇、孟猛在《藏语拉萨话大词表连续语音识别声学模型研究》一文中,根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。于洪志、高璐等的《藏语机读音标SAMPA_ST的设计》一文选取具有代表意义的藏语卫藏方言的拉萨话、安多方言的夏河话以及康方言的德格话进行语言调查;整理归纳藏语三大方言音系,包括单辅音、复辅音、单元音、复合元音和辅音韵尾,以及三大方言声调;依照SAMPA的规则建立适合于藏语三大方言的机读音标,并设计了SAMPA_ST的自动标注系统,实现文音转换功能,为语音的韵律特征分析和语音工程的研究提供依据。范俊军在《基于调查字表词表注音的汉藏语言音系处理系统》一文中认为:计算机对语言调查表记音文本语料的音标校对、音系整理、编制同音字汇表和音节词素表,关键是从音标字符串中准确地切分音节、声母、韵母、声调。正向扫描最小数字字符匹配,可用于切分出音节字符串和声调数字串;正向扫描最小元音字符匹配,可用于切分声母和韵母。在此基础上,从字表和词表中随机提取例字例词,可快速生成音系表、同音字汇、音节词素表,从而大大提高语言田野调查的语料整理效率。

以上是对2012年度藏语文研究的初步总结,鉴于刊载藏语文研究的期刊种类比较繁杂,如有遗漏还请方家海涵。

版权所有 中国藏学研究中心。 保留所有权利。 京ICP备06045333号-1

京公网安备 11010502035580号