2024年5月25日,由中国人工智能学会(CAAI)主办的首届古汉语断句和标点国际评测会议(EvaHan2024)在意大利都灵举行,该会议在国际语言资源与评测大会与计算语言学顶会LREC-CoLing2024的子会议——国际古代语言处理研讨会(LT4HALA)上以线上线下结合的形式举办。
古籍断句和标点任务是古籍整理中的关键步骤。中国古代典籍蕴含深厚的历史与文化底蕴,由于古代文体的独特性,古代汉语文本通常不包含明确的句子分隔或标点符号,这导致使用传统的阅读方式阅读古文不够高效,需要读者具备较高的语言理解能力,加大了阅读的难度。因此,古籍句读和标点工作对古籍的转化、传承与传播都具有关键作用。
我院夏天副教授组建的中国人民大学和蜜度科技股份有限公司联合团队在比赛中获得冠军,团队提出了采用示例增强和解码优化相结合的策略,极大提高了基础大语言模型在古汉语断句和标点任务上的理解和解决能力,在本次评测中斩获综合最佳成绩,封闭测试模式断句和标点的F值分别达到88.47%和75.29%,超越了主流的BERT-LSTM-CRF的任务建模方式,表明生成式大语言模型面向特定任务进行参数微调和约束控制,是解决古文断句和标点任务的有效途径。
夏天团队成员包括2023级硕士研究生余芊蓉、彭欣然,以及蜜度公司算法工程师于凯。