近日,研究院米成刚博士与英文学院本科生汤梦恬在国际学术期刊International Journal of Intelligent Systems上合作发表题为Improving Ancient Chinese Word Segmentation With Knowledge-Enhanced Prompting for Large Language Models的学术论文,米成刚博士为该论文的通讯作者。
本文提出了一种融合领域知识的提示词优化策略,用于改进大语言模型古汉语分词性能。构建了通用知识和特定领域知识两种提示框架,并在七个主流大语言模型上进行了验证。结果表明,领域特定知识提示框架能带来更为显著的性能提升,其中DeepSeek模型的F1分数达到94.01%,Qwen模型的F1分数提升了15.73%。消融实验结果显示,提示中的“规则”和“示例”两种信息对分词结果有着显著影响,能够有效克服古汉语分词中规则不一致和数据不足的挑战。
该研究通过引入高效的知识增强提示策略来显著提升大语言模型的古汉语分词性能,为数字人文领域提供了快速且精准地实现古籍文本深度数字化处理的关键技术支撑。
论文链接://onlinelibrary.wiley.com/doi/10.1155/int/9612240
