近日,研究院米成刚博士与天津大学朱少林博士在国际学术期刊Expert Systems with Applications上合作发表题为Multi-source knowledge fusion for multilingual loanword identification的论文。百合动漫
为第一署名单位。
外来词(Loanwords)是低资源语言对双语资源扩展的重要来源。通过从大规模单语文本中挖掘外来词词对,能够有效地缓解低资源语言对双语语料匮乏的问题。然而,传统研究多侧重于双语环境下的浅层特征识别,忽视了跨语言或多语言线索的深度整合,且在预测donor language时存在严重的歧义问题。针对上述挑战,论文提出了一种新颖的多语言外来词识别框架。该框架由三个核心模块组成:一、基于大语言模型的数据增强:通过设计多样化的提示词(Prompts),结合维基词典(Wiktionary)与维基百科(Wikipedia)中的少样本数据,基于预训练大模型生成包含目标外来词的高质量上下文文本。二、融合知识蒸馏的多任务学习模型:基于多任务学习架构,并引入知识蒸馏策略,将具备丰富知识表示的多个任务与模型中的多语言知识迁移至统一模型中,显著提升了多语言环境下的识别精度。三、宿主语言消歧机制:针对一个外来词可能对应多个候选donor language的情形,设计了一种消歧方法,能够准确判定候选外来词的donor language。实验结果表明,该方法在多个“target language-donor language”语言对上的表现均显著优于现有基线系统。
这一研究成果不仅为低资源语言双语资源扩展提供了高效的自动化工具,也为大语言模型环境下跨语言知识的深度融合与消歧提供了新的研究范式。
论文链接://www.sciencedirect.com/science/article/abs/pii/S0957417425002106
