• 作者:
    霍朝光
  • 出版时间:
    2021-12-01
  • 出 版 社 :
    清华大学出版社
  • 专著简介:
    本研究在梳理知识演化、知识生命周期等知识进化理论和思想的基础上,介绍了引文网络、Meta-path、PageRank等网络分析理论和方法,阐述了Word2vec、Doc2vec、Node2vec等深度表示学习模型以及ARIMA、SVM等时间序列模型,以期为科学主题的演化和热度预测提供理论基础和方法支撑;以生物医学与生命科学领域PubMed Central数据全集为例,基于知识图谱技术构建了一种面向计量相关研究和应用的垂直领域知识图谱——计量知识图谱;创新计量指标,计算计量实体的热度,用热度值反应主题所处的演化状态;采用一系列深度学习等方法挖掘科学主题在计量知识图谱中的特征,分析科学主题的演化规律;基于SVM、ARIMA、LSTM等一系列时间序列模型构建学科主题预测模型,优化、验证模型,并进行应用研究。读者对象:高等学校信息科学、情报学、信息管理等相关专业的学生,以及从事科技情报、知识管理、知识服务的实际工作者
  • 专著目录:

    目录



    第一章绪论1

    1.1研究背景与意义1

    1.1.1研究背景1

    1.1.2研究意义5

    1.2国内外研究现状6

    1.2.1主题模型研究6

    1.2.2主题演化研究7

    1.2.3主题预测研究9

    1.2.4知识图谱11

    1.2.5表示学习13

    1.2.6现状述评19

    1.3研究内容与方法20

    1.3.1目标与内容20

    1.3.2研究方法26

    1.3.3研究难点28

    1.4研究贡献29


    第二章理论基础31

    2.1知识进化论31

    2.1.1知识演化32

    2.1.2知识生命周期33

    2.2网络分析理论与方法34

    2.2.1引文网络34

    2.2.2Metapath35

    2.2.3PageRank38

    2.3深度表示学习模型40

    2.3.1Word2vec模型41

    2.3.2Doc2vec模型44

    2.3.3Node2vec模型46

    2.4时间序列模型49

    2.4.1ARIMA模型49

    2.4.2支持向量机模型50


    第三章知识图谱构建53

    3.1计量知识图谱内涵53

    3.1.1计量知识图谱53

    3.1.2动态计量知识图谱57

    3.2计量实体与关系58

    3.2.1数据下载58

    3.2.2计量实体抽取59

    3.2.3计量实体消歧62

    3.2.4计量实体关系75

    3.3MeSH中的实体与关系77

    3.3.1MeSH知识库77

    3.3.2MeSH解析78

    3.4计量实体与MeSH实体关联84

    3.4.1全文检索Lucene84

    3.4.2基于pylucene的计量实体与MeSH实体关联85

    3.5计量知识图谱时间划分与构建89

    3.6本章小结95


    第四章实体热度计算97

    4.1热度计算98

    4.1.1热度内涵98

    4.1.2基于加权PageRank的热度计算方法100

    4.2论文热度计算101

    4.2.1论文热度内涵101

    4.2.2基于PaperRank的论文热度计算102

    4.3学科主题热度计算105

    4.3.1学科主题热度内涵105

    4.3.2学科主题引证网络构建106

    4.3.3基于TopicRank的学科主题热度计算107

    4.4作者热度计算112

    4.4.1作者热度内涵112

    4.4.2作者引证网络构建113

    4.4.3基于AuthorRank的作者热度计算115

    4.5期刊热度计算117

    4.5.1期刊热度内涵117

    4.5.2期刊引证网络构建118

    4.5.3基于VenueRank的期刊热度计算120

    4.6本章小结121


    第五章学科主题演化分析123

    5.1学科主题演化123

    5.2学科主题分布126

    5.2.1学科主题的总体分布情况126

    5.2.2有副主题限定词的主题分布127

    5.2.3无副主题限定词的主题分布127

    5.3学科主题表示学习129

    5.3.1基于网络结构的学科主题表示学习129

    5.3.2基于文本内容的学科主题表示学习136

    5.4学科主题聚类和演化分析139

    5.4.1聚类方法概述与选取140

    5.4.2基于Jaccard系数的相似度计算方法142

    5.4.3Methods类主题演化规律144

    5.4.4Drug effect类主题演化规律147

    5.4.5Epidemiology类主题演化规律151

    5.5本章小结155


    第六章学科主题热度预测157

    6.1学科主题热度预测157

    6.2学科主题特征选择159

    6.2.1池化模型159

    6.2.2基于Node2vec和池化模型的学科主题特征选择162

    6.3基于SVM的学科主题热度预测168

    6.3.1问题描述169

    6.3.2研究设计169

    6.3.3结果分析172

    6.4基于ARIMA和SVM的学科主题热度预测179

    6.4.1问题描述179

    6.4.2研究设计179

    6.4.3结果分析181

    6.5本章小结183


    第七章总结与展望184

    7.1研究总结184

    7.2研究不足与展望186


    附录A动态计量知识图谱187


    附录B图表目录188


    参考文献192