计算语言学与实验语音学(汉文部分)——计算语言学

发布时间:2021-11-19 17:58:23 | 来源: | 作者: | 责任编辑:

二、计算语言学与实验语音学

2011年实验语音学和计算语言学的成果在藏语文研究领域占据很大比例,据不完全统计有近百篇论文在学术期刊上发表。鉴于藏语实验语音学与计算语言学在研究方法和研究对象上各有偏重,在实践过程中又互有交叉,本文将这两个学科的研究成果放在一起进行梳理。

(一)计算语言学

信息化是当前民族语文发展的大势所趋。而藏文国际编码的设计研发是关系到藏语文信息化成败与否的关键。吴兵、江荻《藏文国际码软件的发展与技术应用》(《西南民族大学学报》人文社科版第8期)一文以微观方式梳理出藏文编码产生、修订和发展的复杂过程,分析了藏文编码的技术布局、编码细节及技术应用情况。

计算语言学为藏语文的信息化提供技术思路和技术支持保障。算法与数据库的设计是计算语言学重点关注的对象。藏语语料库建设对计算语言学的发展具有重要意义。语料数据库的建设涉及对语料的描述、标记,数据库的总体结构、设计与实现等多个方面。语言模型的构造以及标记规范对藏语文信息化处理起着举足轻重的作用。相关的研究成果有:诺明花、吴健、刘汇丹、丁治明等的《汉藏短语抽取》和《汉藏短语对抽取中短语译文获取方法研究》(《中文信息学报》第2、3期),武英、张明亮、李积逊的《基于动态聚类算法的藏文音节点检测》(《福建电脑》第2期),才让卓玛、才智杰的《藏文字频统计系统中字构件分解算法》(《计算机工程与科学》第3期),才让加的《藏语语料库词类描述方法研究》(《计算机工程与应用》第4期),扎西加、高定国的《藏语语料库TEI标记规范探讨》(《中文信息学报》第4期),安见才让的《藏语句子相似度算法的研究》(《中文信息学报》第4期),多拉、才让三智《信息处理用藏语语法模型知识库研究》(《西北民大学报》自然科学版第3期),羊本才让、多拉《藏语动词语法信息库构建研究》(《西北民大学报》自然科学版第3期),吴兵的《一种智能高效的手机键盘藏文输入研究》(《西南民族大学学报》自然科学版第3期),《基于序列比对方法的藏语人名实体消重研究》(《甘肃科技纵横》第1期),武强、崔静静、边巴旺堆、次仁朗杰的《智能藏语盲文学习机的设计与实现》(《电子设计工程》第15期),崔静静、肖伟、次仁朗杰等《基于语言表达障碍者的藏文语音辅助系统的设计》(《电子设计工程》第2期),达娃彭措的《藏文音节后加字组合形式统计》(《语言文学刊:外语教育教学》第9期[上])等。

鉴于这方面的研究成果比较多,在此只选取代表性的予以介绍。诺明花、吴健、刘汇丹、丁治明等的《汉藏短语抽取》和《汉藏短语对抽取中短语译文获取方法研究》二文采用藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。安见才让、王玲玲的《一种汉藏双语句子对齐算法》一文,基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。这些技术的运用和实施有助于语料库的建设和语言材料的信息化处理。安见才让在《藏语句子相似度算法的研究》一文中,提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。扎西加、高定国的《藏语语料库TEI标记规范探讨》则针对语言信息处理过程中,大规模真实文本处理这一研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。羊本才让、多拉在《藏语动词语法信息库构建研究》一文中,运用计算语言学的相关研究,提出构建藏语动词语法信息库的方法、收词原则及其词条的来源,以及藏语动词在《藏语动词语法信息库》中的分类缘由、字段的设置与相应的标记集,罗列出了《藏语动词语法信息库》的样例,为藏文信息处理中的语言知识库的建设提供参考信息。多拉、才让三智在《信息处理用藏语语法模型知识库研究》一文中指出,语言模型是对自然语言的一种描述,构造语言模型是研究计算语言学、自然语言理解的核心内容之一,好的语言模型将有助于自然语言处理的准确性。由于藏文是属于有形态的语言,既有曲折的特点,也有黏着的特征,并有丰富的格标记。深入研究其格语法体系,使之规范化,这对于进一步开展机器识别的句法研究以及文本理解、汉藏智能翻译、自动分词、文本自动校对、句法树库建设、信息检索等方面将会起到基础支撑作用。

利用计算机技术对藏语语言现象进行研究是藏语研究的新特点。相关的研究成果有才让三智、多拉的《藏、英、汉三种语言的人称代词用法比较研究》(《西北民大学报》自然科学版第1期)和《信息处理中藏语虚词“na”和“la”的标注研究》(《电脑知识与技术》第10期),张同玲、祁坤钰的《浅谈藏语单句的类型》(《科技信息》第17期),南措吉、达哇彭措的《藏语方言格助词演变对比研究——以拉萨话和同仁话为例》(《科技信息》第19期),以及索南尖措高定国《信息处理用藏文动词的分类》(《西藏大学学报》自然科学版第2期)等。

才让三智、多拉在《信息处理中藏语虚词“na”和“la”的标注研究》和《藏、英、汉三种语言的人称代词用法比较研究》的文章中,运用计算机相关技术对藏语词类进行分析。在前一篇文章中,通过分析藏文信息中的兼类虚词“na”和“la”,提出了如何在不同的语境中,处理和解决这类词性的标注问题;而在后一篇文章中,通过对藏、英、汉三种语言人称代词用法的研究,归纳和总结出了不同语言人称代词的特征,指出了它们之间的差异,总结了藏、英、汉三种语言人称代词的用法,为以后三种语言文字的人工翻译和机器翻译提供了文本分析依据。张同玲、祁坤钰在《浅谈藏语单句的类型》一文中,通过藏语语法知识和藏汉两种语言对句子概念的对比,将藏语单句进行了划分,该研究有利于藏文校对及信息检索、双语对译、自动分词、搜索引擎等信息技术的不断发展。南措吉、达哇彭措在《藏语方言格助词演变对比研究——以拉萨话和同仁话为例》一文中,把拉萨话和同仁话及书面语的格助词作比较,说明格助词la,gi,nas,gis和na等在藏语不同方言中的变化、用法及区别。索南尖措、高定国在《信息处理用藏文动词的分类》一文中,将藏语的动词在传统分法基础上细分为使动动词、自主动词、不自主动词、自动动词、判断动词、存在动词、情态助动词等7类,并对藏语中具有黏着性和屈折性变化的动词进行举例说明和分析,为藏文信息处理过程中切分动词提供依据。

版权所有 中国藏学研究中心。 保留所有权利。 京ICP备06045333号-1

京公网安备 11010502035580号