计算语言学(汉文部分)

发布时间:2021-12-09 10:56:24 | 来源:中国藏学研究中心 | 作者: | 责任编辑:

四、计算语言学

(一)算法和知识库研究

算法研究在计算语言学领域一直是热点。相关的研究成果主要有:向令、扎西加、马伟珍、卢超等的《基于贝叶斯算法的藏语拼写检查的研究与实现》(《科技创业月刊》第 11期),拉巴顿珠、欧珠的《现代藏文基字识别的算法设计》(《西藏大学学报》自然科学版第 1期),拉金措、安见才让的《藏文机构名的识别算法研究》(《电子技术与软件工程》第 14期),刘昕、安见才让的《藏文 WEB文档分类算法》(《微型电脑应用 》第 8期),陈硕、赵栋材、周欢欢的《基于匹配算法的藏文自动分词》(《电子技术与软件工程》第 1期)等。

向令、扎西加、马伟珍、卢超等的《基于贝叶斯算法的藏语拼写检查的研究与实现》一文,首先读取待要检查的词汇到三叉树 TST.java,根据贝叶斯转换之后在三叉树中进行前缀查询,查到以这个词开头的搜索词汇,并对词汇频率进行了排序,采用的 Java中 list,最后根据该序列给出拼写检查的建议。拉巴顿珠、欧珠的《现代藏文基字识别的算法设计》一文,依据藏文文法,严格遵循现代藏文音节字的结构特征,设计了现代藏文音节字的基字识别算法,并对不符合现代藏文构字规则的高频字进行了特殊处理,设计实现了现代藏文音节字的基字识别软件。该软件对 18785个现代藏文音节字进行测试,识别率达到 100%。拉金措、安见才让的《藏文机构名的识别算法研究》一文,对未登录词中藏文机构名的结构及其在文本中的出现进行了深入的研究,建立了藏文机构名特征词库与前部词构造规则库,在此基础上提出了藏文机构名的识别算法。刘昕、安见才让的《藏文 WEB文档分类算法》一文,针对藏文 WEB文档分类中 KNN算法计算复杂度高的缺点,提出了一种基于 Java Bean模式的并行算法,其关键部分的时间计算复杂度从O(n2)降为O(log(n)),该算法与经典的串行算法相比,能显著地提高分类速度。陈硕、赵栋材、周欢欢的《基于匹配算法的藏文自动分词》一文,采用了正向最大匹配和逆向最大匹配算法相结合的方式进行藏文分词,通过分别计算两种分词结果的频率,然后选择频率较大的一个。最终,通过对 26个不同大小的文本对该系统进行测试和分析,得出了分词准确率在 92%以上的结论。才让叁智、赵栋材的《基于 DIV标签分段的藏文网页正文提取研究》(《西藏大学学报》自然科学版第 1期)一文,针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于 DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与 DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。

涉及知识库方面的研究有丁海兰、祁坤钰的《基于依存句法的藏文属格结构统计研究》(《西北民族大学学报》自然科学版第 2期)一文。文章从句法功能的角度对属格助词在藏文名词短语中的结构及功能进行分析研究,从句法结构上总结和归纳了其结构特征,为多语言句法结构树库和框架语义构建提供最基本的语法信息。

关于标准的讨论。龙从军、刘汇丹、安波、才华、吴健等的《藏文编码字符集标准应用中的问题及对策》(《信息技术与标准化》第 1期)一文,通过大规模文本统计,找出了 90组同形异码实例;分析发现,藏文文本中同形异码现象是国际编码集中同时存在单字符编码和组合字符编码导致的。描述了各种可能产生同形异码的字符,从改进国际编码字符集和改进输入法等方面提出了一些建议。

(二)实用技术平台及软件开发研究

相关的研究成果有:李苗苗、高定国、普次仁、扎西仓觉等人的《藏文字频统计软件的设计与实现》(《电脑知识与技术》第 4期),普次仁、李苗苗的《藏文音节字的频次统计》(《西藏大学学报》自然科学版第 1期),陈小莹、艾

金勇的《基于小字符集藏文拉丁转写系统的设计与实现》(《中文信息学报》第29期),巴桑卓玛、高定国的《藏文电子词典的设计与实现》(《信息与电脑》理论版第 12期),袁斌、江涛、西热卓嘎、德吉巴宗、魏兴海、雪灵、高定国等人的《基于 Android平台的藏文活字帖的开发》(《信息与电脑》理论版第 1期)、尕桑才让、安见才让的《基于 Android平台实现本地化技术和加载藏文字体》(《电脑知识与技术》第 6期),童英华、耿生玲的《基于 ARM的嵌入式藏文电子阅读器的设计与实现》(《电子设计工程 》第 1期),才智杰、才让卓玛的《藏文字符的向量模型及构件特征分析》(《中文信息学报》第 2期)等。

李苗苗、高定国、普次仁、扎西仓觉等人的《藏文字频统计软件的设计与实现》一文,根据藏文音节的特性,结合 Unicode藏文基本集的编码特征,提出了计算机统计藏文字频的方法,设计实现了藏文字频统计软件。普次仁、李苗苗的《藏文音节字的频次统计》一文,以 1.5亿藏文字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和 93个特殊藏文字符作为音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计。陈小莹、艾金勇的《基于小字符集藏文拉丁转写系统的设计与实现》一文,在前人有关藏文拉丁转写研究的基础上,设计并实现了基于小字符集方案的藏文拉丁转写系统。文章通过对小字符集编码方案的特征分析,提出了基于小字符集编码的藏文拉丁转写算法,并对具体算法策略进行了分析和说明,最后在Windows平台进行了程序的实现。巴桑卓玛、高定国的《藏文电子词典的设计与实现》一文,根据藏文传统卡片式词典中存在的一些问题,设计出一款藏文电子词典。该系统不仅克服了藏文传统卡片式词典中存在的问题,而且实现了藏文电子词典中的各个功能。最后通过系统的整体测试取得较好的成果,并已达到了高效的应用程度。袁斌、江涛、西热卓嘎、德吉巴宗、魏兴海、雪灵、高定国等人的《基于 Android平台的藏文活字帖的开发》一文,在研究藏文书法的特点的基础上,选择了最常用的三种藏文字体,在 Android平台上实现了藏文活字帖,实现了藏文书写笔顺演示、字帖临摹练习和软件有关设置三种功能。尕桑才让、安见才让的《基于 Android平台实现本地化技术和加载藏文字体》一文,认为藏语文适应现代化的发展,首要的问题就是实现藏文的信息输入,如何快速准确地利用手机输入藏文信息,对藏族人或研究藏文化的人而言非常重要。童英华、耿生玲的《基于 ARM的嵌入式藏文电子阅读器的设计与实现》一文,利用 ARM9嵌入式开发平台,通过扩展 SDRAM模块、USB模块、以太网控制模块和触摸屏模块,结合 QT技术,设计了一款嵌入式藏文电子阅读器。论文给出了系统的总体架构,硬件实现原理框图及软件设计流程。实验结果表明,该系统成功实现了全藏化的阅读器应用程序界面,并可以支持 TXT、HTML、PDF、DOC格式的藏文电子书的正常显示、阅读和编辑,同时可进行BMP、JPEG、PNG等格式的图片文件的浏览,系统运行稳定、安全可靠,使用便捷灵活。才智杰、才让卓玛的《藏文字符的向量模型及构件特征分析》一文,分别建立了藏文字及藏文字符串的向量模型 VMTT、VMTS和藏文字符串的稀疏域模型 SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。

此外涉及藏语文信息处理方面的研究成果有:鲍永庆、袁建、达娃卓玛、格桑央吉等人的《藏文搜索引擎关键技术分析》(《西藏科技》第 2期)一文,针对当前主流藏文搜索引擎的情况进行了介绍。刘文香的《基于国际标准编码的藏文前加字校对模型研究》(《甘肃高师学报》第 1期)一文,介绍了藏文前加字的音势搭配规则,提出了藏文前加字与基字的搭配规则模型,运用前加字与基字的搭配规则模型对藏文文本中出现的错别字进行校对,为藏文音节规则校对模型打下基础,为完成藏文自动校对提供基础性研究资料。李廷鹃的《青海省藏语信息化主动推送服务平台应用与实践》(《农业科技与信息》第 23期)一文,阐述了青海省藏语信息化服务平台的应用情况以及对藏区同胞生产生活产生的积极作用,分析了藏语信息化主动推送服务存在的问题。何东琴、屈兵的《基于开源 Word Press构建藏文网站的设计与实现》(《福建电脑》第 5期)一文认为,Word Press是一款个人博客系统,它使用 PHP语言和 My SQL数据库。基于 Word Press构建藏文网站,首先可以解决字符编码,其次可以节约时间和打破空间的限制,再者可以使网页内容和功能更加丰富。才让草的《浅析甘南州藏文科技文献资源共享平台建设》(《科技经济导刊》第 13期)一文浅析甘南州藏文科技文献资源共享平台建设存在的问题,采用国内文献资源共享平台架设与运营的成功经验,提出建立甘南州藏文科技文献信息资源共享服务平台的建议和设想。刘芳、关白的《现代藏文中词的自动校对方法研究》(《电脑知识与技术》第 19期)一文,根据藏文词错误的类型,分别提出了对应的校对方法。郭晓军、何磊、王亮、黄操的《藏文 Web网页的信息隐藏研究》(《实验室研究与探索》第 8期)一文,针对藏文 Web页面信息隐藏技术隐蔽性差、隐藏容量小、抗干扰性弱问题,提出了一种具有同步机制的藏文 Web页面信息隐藏方法。该方法先对秘密消息的二进制序列进行置乱处理,添加具有同步性的巴克尔码以形成新消息序列,并通过改变 HTML标签属性名称的大小写状态来表示该序列中的 0或 1,实现秘密消息在藏文 Web页面内的隐藏。实验结果表明该方法在保证隐蔽性的情况下,能有效提高隐藏容量,在随机扰乱程度较大时具有更好的鲁棒性。

涉及自然语言处理的有:袁斌、江涛、于洪志的《基于语义空间的藏文微博情感分析方法》(《计算机应用研究》第 3期),扎西本、安见才让的《藏文句子的情感倾向研究》(《电脑知识与技术》第 6期),才智杰、才让卓玛的《藏文字形结构分布研究》(《中文信息学报》第 4期),马伟珍、陈硕、赵栋材的《基于 HMM的藏文词性标注的研究与实现》(《信息安全与技术》第 2期),冷毛措、张有谊的《小学藏文教材中词性的分布情况研究》(《电脑知识与技术》第 6期),多杰卓玛的《藏文名词短语的语义研究》(《西北民族大学学报》自然科学版第 3期)等。

袁斌、江涛、于洪志的《基于语义空间的藏文微博情感分析方法》一文,结合藏文句法结构和语义特征向量构建语义特征空间,提出了一种基于语义空间的藏文微博情感分析方法。首先使用句法树生成句法结构并结合语义特征向量构建特征空间,运用 K-means方法聚类形成语义簇质心,将基于簇的 TF-IDF值作为最终的微博情感特征值。实验结果表明,该方法的情感分类效果均优于SVM+TF-IDF和 naive Bayes+最大熵的方法。扎西本、安见才让的《藏文句子的情感倾向研究》(《电脑知识与技术》第 6期)一文,从句子的结构研究了情感词的提取及句子情感倾向。才智杰、才让卓玛的《藏文字形结构分布研究》一文,通过分析藏文字形结构的特征,将藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含 8500万藏文字的 450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。马伟珍、陈硕、赵栋材的《基于 HMM的藏文词性标注的研究与实现》一文,采用基于隐马尔科夫模型的 Viterbi算法进行词性标注,词性标记规范参考了北大计算机研究所的词性标注规范的标记集。对于未登录的藏文词语,采用了基于统计和规则的二元语法统计模型进行处理。通过对该系统进行自动标注的文本与人工手动完成藏文词性标注的文本进行测试和对比,得出了该系统词性标注正确率在 89%以上。冷毛措、张有谊的《小学藏文教材中词性的分布情况研究》(《电脑知识与技术》第 6期)一文以小学藏语文教材为语料,利用计算机对教材中藏语词的频次、数量等信息做出统计,进而摸索出目前藏语文教材编辑中藏语词性的分布规律,目的在于给藏语词的安排、重要程度等是否科学合理,即是否符合各个年龄段藏族学生对知识的接受状况,提供参考。多杰卓玛的《藏文名词短语的语义研究》一文,在藏文网络语料的基础上,就“N1+N2”结构的名词短语进行举例分析,包括它的结构类型、组成成分、句法及语义功能的分析,给出了名词短语的线性结构组合形式和词性结构扩展模式,细化了它的主要组成成分,从句法和语义的层面出发,挖掘了该结构所蕴涵的句法关系和语义特征。

相关的研究还有:普布次仁的《词库开放型藏文词典软件的实现——以Goldendict词典为例》(《西藏科技》第 1期)一文,以词库开放型 Goldendict词典为例,着重探讨了如何打造多平台下的藏文词典软件。于诗画、赵小兵的《藏文自动分词技术研究综述》(《科技视界》第 6期)一文,主要从藏文自动分词的意义、国内研究现状、分词方法,以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。张云洋的《高校图书馆藏文图书编目与流通工作探讨——以西藏大学图书馆为例》(《农业图书情报学刊》第 2期)一文,认为藏文图书的编目与流通是藏区高校图书馆的重要工作,但目前各文献收藏单位对藏文文献的著录处于各自为政的状态,为了实现馆藏文献的统一管理和MARC数据共享,建议对藏文图书使用中图法进行分类,使用汉文和藏文两种文字进行著录。

龙从军、刘汇丹所著《藏文自动分词的理论与方法研究》(知识产权出版社)一书,是作者十多年研究藏文分词的经验总结,书中介绍了藏语分词的问题及处理策略,并配套了语料库和分词软件,实现了基础研究和应用研究相结合的研究突破。该书有以下几个方面的贡献:(1)手工切分百万级分词语料,为藏语分词采用统计模型奠定了基础,解决了藏语分词资源“无米之炊”的薄弱状况;(2)从手工切分中详细总结和描述了藏语分词单位切分的基本原则,该原则已经由教育部语信司作为国家标准草案正式出版;(3)经过多次实验,提出的疑似黏写切分方法是所有黏写切分方法中效果最好的方法;(4)以数字为切分单位,解决了藏语中数词和阿拉伯数词的切分处理,有效避免了未登录数词的切分错误;(5)提出的基于字性标注的分词和词性预测方法进一步改善了未登录的切分效果;(6)基于配套语料库和一系列的切分理论开发的藏语分词软件,切分正确率达到 95%。已经在网络上公布试用。

版权所有 中国藏学研究中心。 保留所有权利。 京ICP备06045333号-1

京公网安备 11010502035580号