百合动漫

百合动漫动态

当前位置: 百合动漫 - 学术研究 - 百合动漫动态 - 正文


米成刚、谢韶亮:Loanword Identification in Social Media Texts with Extended Code-Switching Datasets

2025年08月22日 点击:[]

近日,研究院米成刚博士、谢韶亮博士与西北工业大学李毓博士、咸阳职业技术学院贺争汉副教授在国际学术期刊ACM Transactions on Asian and Low-Resource Language Information Processing上合作发表题为Loanword Identification in Social Media Texts with Extended Code-Switching Datasets的论文。百合动漫 为第一署名单位。

本文针对现有方法难以有效识别社交媒体文本中不遵循传统规则的新型外来词这一难题,提出了一种新颖的外来词识别方法。该方法基于BERT-BLSTM-CRF模型,并融合扩展的语码转换数据进行训练。为缓解训练数据稀疏问题,研究创新性地引入了高频短语替换、机器翻译生成和多标准搜索三种数据生成策略。此外,本文还构建了一个多语言外来词识别模型,能够准确地识别来自不同语言的外来词。实验结果证明,该模型在多个数据集上的性能显著优于现有的基线系统。

本论文提出的外来词识别方法,为自然语言处理领域(特别是跨语言处理和社交媒体文本分析)提供了有效的数据增强和建模范式,并为语言学领域研究新兴外来词现象及其在语码转换中的作用提供了有效的计算工具。

论文链接://dl.acm.org/doi/10.1145/3748317



上一条:百合动漫 召开2025-2026学年秋季学期工作会议

下一条:第八届中国翻译史研究专家研讨会在我校顺利召开

关闭