关键词:文档;数据化;非结构化数据;结构化;量化;
基金资助:中国博士后科学基金面上资助一等项目“基于深度学习与事件知识图谱的数字文书档案价值鉴定研究”(编号:2020M680029)的研究成果之一;
DOI:10.13530/j.cnki.jlis.2022024
专辑:信息科技
专题:计算机软件及计算机应用; 图书情报与数字图书馆
分类号:G250.7
发表期刊:
中国图书馆学报
论文层级:
北大核心CSSCI
论文作者:
杨建梁、刘越男、祁天娇/中国图书馆学报. 2022,48(03)
论文摘要:
数据价值已经得到社会各界的高度认可。为进一步利用大数据、人工智能等技术释放数据的价值,文档数据化的概念被提出并日益受到重视,也成为图书情报与档案管理学科数字转型的新领域。经多学科概念与方法的综合和推演,本文对文档数据化的概念内涵、内容框架和关键方法展开系统研究。研究发现,文档数据化是面向文档的开发利用,将文档转变为机器可识别、可分析、可计算的数据的过程;智能技术允许机器参与到文档数据化的决策过程中,使得文档数据化呈现出人机协同、利用驱动、粒度细化、面向计算的特点。基于以上研究,本文提出文档数据化的任务框架,包含转录识别、描述增强、关联构建和矢量处理四项任务,呈现出结构化、语义化和智能化三个维度上面向机器的演进机制。对各项任务涉及的基础方法和关键方法进行梳理后可知,以深度学习、自然语言处理等技术为核心的文档数据化方法正在发挥越来越重要的作用。
关键词:文档;数据化;非结构化数据;结构化;量化;
基金资助:中国博士后科学基金面上资助一等项目“基于深度学习与事件知识图谱的数字文书档案价值鉴定研究”(编号:2020M680029)的研究成果之一;
DOI:10.13530/j.cnki.jlis.2022024
专辑:信息科技
专题:计算机软件及计算机应用; 图书情报与数字图书馆
分类号:G250.7
2023.12.08
An online-to-offline service recommendation method based on two-layer knowledge networks
2022.10.20
The data paper as a sociolinguistic epistemic object: A content analysis on the rhetorical moves used in data paper abstracts
2022.10.20
Storified narrative: Awake photo archives in digital humanities
2022.10.20
COVID-19 Rumor Detection on Social Networks Based on Content Information and User Response
2022.10.20
Information culture and recordkeeping: a case of Chinese enterprises