关键词:家谱文本;信息抽取;深度学习;Bootstrapping;BiLSTM-CRF;
基金资助:中央高校基本科研经费中国人民大学科研基金项目“领域知识图谱构建及其在数字人文中的应用”(项目编号:19XNA009)的研究成果之一;
DOI:10.13663/j.cnki.lj.2022.02.011
专辑:信息科技
专题:计算机软件及计算机应用
分类号:TP391.1
发表期刊:
图书馆杂志
论文层级:
北大核心 CSSCI
论文作者:
鲍宸洋、任明/图书馆杂志. 2022,41(02)
论文摘要:
实现家谱文本信息的自动抽取是家谱资源深度开发利用的关键。目前深度学习在家谱文本信息抽取方面取得了良好的效果,但是对标注数据的依赖始终是其发展瓶颈之一。本文面向家谱的世系小传,研究基于小规模标注数据进行家谱人物和关系的抽取方法。具体来说:基于Bootstrapping的思想,以少量的标注数据作为初始种子集,使用深度学习BiLSTM-CRF模型为待标注样本自动预测标签序列,并筛选高置信分数的样本加入标注集中,从而迭代地扩展标注集,最后训练得到的模型用于命名实体识别和关系抽取。基于真实数据集的实验表明,使用Bootstrapping改进的BiLSTM-CRF模型能够基于小规模标注数据实现家谱信息抽取,使基于深度学习的家谱信息抽取更加高效。在种子集规模为250条时取得的预测效果与训练集规模为1800条的BiLSTM-CRF模型的预测效果接近。
关键词:家谱文本;信息抽取;深度学习;Bootstrapping;BiLSTM-CRF;
基金资助:中央高校基本科研经费中国人民大学科研基金项目“领域知识图谱构建及其在数字人文中的应用”(项目编号:19XNA009)的研究成果之一;
DOI:10.13663/j.cnki.lj.2022.02.011
专辑:信息科技
专题:计算机软件及计算机应用
分类号:TP391.1
2023.12.08
An online-to-offline service recommendation method based on two-layer knowledge networks
2022.10.20
The data paper as a sociolinguistic epistemic object: A content analysis on the rhetorical moves used in data paper abstracts
2022.10.20
Storified narrative: Awake photo archives in digital humanities
2022.10.20
COVID-19 Rumor Detection on Social Networks Based on Content Information and User Response
2022.10.20
Information culture and recordkeeping: a case of Chinese enterprises