计算语言学(汉文部分)

发布时间:2021-12-09 16:59:07 | 来源:中国藏学研究中心 | 作者: | 责任编辑:

二、计算语言学

标注、分词及其算法是计算语言学关注的重点,是藏文信息处理的基础性问题,也是藏文信息化建设的关键因素。相关的研究成果有:

郑亚楠、珠杰的《基于词向量的藏文词性标注方法研究》(《中文信息学报》第1期)一文,提出一种基于词向量模型的词性标注方法和相应算法。该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次,结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大标注词典规模,并能取得较好的标注结果。龙从军、刘汇丹、吴健的《藏语音节标注研究》(《中文信息学报》第4期)一文,对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万个音节的中小学语文教材语料库中进行实验,音节性质标注的正确率为93.5208%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明:即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.1967%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.7754%,这说明音节性质标注信息对词性标注有帮助。羊毛卓么的《基于HMM藏文词性标注的研究》(《信息系统工程》第10期)一文,以藏语语料为切入点,运用现代化Viterbi算法来展开对藏文信息中词性的注释的系统研究。结合研究结果发现,基于数据统计模式展开的词性标注模式,可以切实有效提升其正确率,为实践推广产生了良好的参考价值。李亚超、加羊吉、江静、何向真、于洪志的《融合无监督特征的藏文分词方法研究》(《中文信息学报》第2期)一文,从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。拉巴顿珠、欧珠、赵栋材等的《藏文自动分词系统中虚词识别算法研究》(《计算机应用与软件》第9期)一文根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法对不同领域的3200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。江涛、袁斌、于洪志、加羊吉等的《基于多特征的藏文微博情感倾向性分析》(《中文信息学报》第3期)一文,提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。徐涛、蓝传锜的《基于卡方统计量的藏文新闻网页关键词提取方法》(《电脑知识与技术》第26期)一文,该文将卡方统计量进行改进,运用词与词推荐的思想进行关键词抽取。通过藏文新闻网页实验结果表明,该文的方法优于融入位置信息的TF/IDF。春燕、曲珍、许宁的《面向藏文基本集编码的单模式匹配算法研究》(《西藏科技》第3期)一文提出一种改进的针对藏文编码的BMT(Boyer Moore Tibet)模式匹配算法。官却多杰、关白的《计算机识别藏文音节构件的方法研究》(《现代电子技术》第10期)一文依据藏文字性组织法规定的音节组合规则和组合结构,提出先确定藏文音节中作为核心构件的基字,再依据基字判断出其他构件的算法,结合此算法对藏文中出现的其他特殊音节进行了特殊的构件识别处理。通过测试验证算法的可行性,测试结果表明,该算法能够正确识别符合组合规则和结构的藏文音节,对特殊音节也有较好的识别能力。李加才让、安见才让的《一种用于藏英文混合文本压缩的改进LZW算法》(《软件工程》第6期)一文根据藏文文本的特点,提出两种改进的LZW数据压缩算法对藏英文混合文本进行数据压缩并无损解压。通过实验结果表明,该算法是一个适应于不同场合的文本压缩技术。普次仁、侯佳林、刘月、翟东海等的《深度学习算法在藏文情感分析中的应用研究》(《计算机科学与探索》第7期)一文,将深度学习领域内的递归自编码算法引入藏文情感分析中,以更深层次提取语义情感信息。实验表明,在最佳参数组合下,所提算法准确度比传统机器学习算法中性能较好的语义空间模型高约8.6%。艾金勇的《融合语义知识的藏文网页关键词提取方法研究》(《图书馆学研究》第3期)和《结合语义知识的藏文网页主题句抽取算法研究》(《图书馆理论与实践》第8期)两文,归纳整理了藏文网页的结构特征,在借鉴中英文关键词和主题句抽取方法的基础上,设计实现了融合语义知识的藏文网页关键词抽取算法。该算法利用藏文文本特征实现了网页内容模块的智能识别,在对识别的文本块进行自动分词后,采用改进的TF-IDF算法得到基础词集,然后根据词向量特征进行基础词的语义扩展构建候选关键词集,最后利用候选关键词之间的语义相关度值,确立藏文网页的关键词。

实用软件的开发同样是藏语文信息化建设的重要组成部分。相关的研究成果有:李自清的《基于ssi框架藏语/汉语在线教育系统的设计与实现》(《软件》第4期)一文,设计和完成了基于spring+spring MVC+iBatis藏语/汉语远程教育系统的在线学习平台,介绍了在Eclipse开发平台下,利用spring、spring MVC、iBatis技术开发该平台。主要讨论了系统所涉及的相关技术,设计的思想以及系统各功能模块的设计与实现。陈小莹的《藏文百科知识问答系统的设计与研究》(《智能计算机与应用》第4期)一文参照中英文知识问答系统的设计方法,建立藏文百科知识库,在句法分析的基础上,设计藏文百科知识的自动问答系统。山发、富春燕、李婷、旦增多吉、李凌的《基于Android平台的藏文驾考软件》(《智库时代》第8期)一文,介绍了针对藏族地区群众需求而设计的一款Android平台下的藏语驾考APP。

相关的研究还有:陈小莹的《现代藏文中黏着语的规范化处理》(《电脑与信息技术》第1期)一文,对黏着语产生的背景和意义进行介绍,按照黏着语不同的形成原因进行分类处理,最终实现黏着语的规范化处理。孟雯、江荻的《藏文词典排序原理与查词典的方法》(《西北民族大学学报》哲社版第3期)一文,详细叙述了藏文词典的检索方法,并配以案例加以说明。这些内容对于学习者和使用者都具有一定的实用价值。仁青东主、安见才让的《藏文字母的信息熵》(《电子技术与软件工程》第15期)一文,用扩大容量的方法统计了藏文字母的信息熵,并用zipf定律进行了理论上的说明。王维兰、卢小宝、蔡正琦、沈文韬、付吉、才科扎西的《基于部件组合的联机手写“藏文—梵文”样本生成》(《中文信息学报》第5期)一文,提供了一种基于部件组合的“藏文—梵文”手写样本生成方法,主要包括:(1)确定“藏文—梵文”字符集和部件集;(2)获取“藏文—梵文”字丁的部件位置信息;(3)采集联机手写“藏文—梵文”部件的样本;(4)生成联机手写“藏文—梵文”字符集样本库。该文为联机手写“藏文—梵文”识别的研究提供字符训练样本库和测试样本库,提高了手写梵音藏文样本采集效率,解决了样本数量及多样性问题,降低了样本采集成本,为进一步联机手写梵音藏文识别的研究与系统开发奠定了基础。多杰才让、才智杰的《藏文辅音字母的动词构成能力分析》(《西北民族大学学报》自然科学版第3期)一文,对藏文动词词典中收录的所有藏语动词进行了统计,发现30个藏文字母因其性(即阳性、中性、阴性)不同,在所构成动词的及物性上也出现明显区别。完么扎西、尼玛扎西的《藏文的信息熵与输入法键盘设计》(《北京大学学报》自然科学版第3期)一文,在研究和分析藏文拼写文法的基础上,对计算机藏文快速输入法键盘键位布局进行形式化描述,推导计算机藏文键盘键位布局规则及方法。安见才让、拉毛措、孙琦龙的《互联网藏文信息舆情分析系统设计》(《微处理机》第2期)一文,介绍了研究互联网藏文信息舆情分析的必要性、重点及难点,详细介绍了藏文舆情分析的关键技术,最后说明了藏文舆情分析系统的设计和实现框架。刘汇丹、洪锦玲、诺明花、吴健的《基于大规模网络语料的藏文音节拼写错误统计与分析》(《中文信息学报》第2期)一文,针对从互联网获取的一份包含19万藏文网页,总计427万句、9328万音节字的藏文文本语料,按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。文章还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。艾金勇的《面向信息处理的藏文文本规范化方法研究》(《西北师范大学学报》自然科学版第2期)一文,针对藏文信息处理的需求,提出了一套层次化、基于规则的藏文文本规范化处理方案。首先分析整理了藏文文本中的不规范文本类型,然后根据藏文文本中不同类型的不规范文本特征,分别设计文本规范化算法,并用程序实现了藏文文本的规范化。最后对该方法进行了实验测试,测试结果表明该方法能较好地实现藏文文本的规范化。才让叁智、关白的《基于规则的现代藏文音节字检错研究》(《西藏大学学报》自然科学版第1期)一文,通过分析现代藏文音节字,将藏文音节字分为规则音节字(遵循组件组合规则的藏文音节字)和不规则音节字(不遵循组件组合规则的音节字)两种。对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。实验表明,文章提出的藏文音节字检错方法对报纸类藏文的检错率为100%。张云洋的《藏文网页搜索关键技术研究》(《计算机时代》第6期)一文,通过分析藏文网站中藏文字符的编码特点,对藏文网页的URL处理技术、限定爬虫、藏文网页倒排索引的建立、网页的检索和结果排序等进行了详细阐述,提出了较完整的藏文网页搜索方法,对于藏文网页信息的搜索和利用有一定的实用价值。

版权所有 中国藏学研究中心。 保留所有权利。 京ICP备06045333号-1

京公网安备 11010502035580号