468cc145089b70080e3fc67978dec23.png

为激荡科研思维、促进学术创新、培育信管青年科学家,2024年3月8日周五晚19:00,由中国人民大学信息资源管理学院主办、中国人民大学信息资源管理学院研究生会承办的“人大信管讲堂·青年科学家一小时讲堂”系列讲座第七十一讲以线上腾讯会议的形式顺利举行。

本期讲堂邀请到了南开大学商学院信息资源管理系讲师李樵博士。李樵博士任世界顶尖信息学院联盟(iSchools)亚太青年学者委员会委员,在《中国图书馆学报》、IPM、J Doc、JKM等国内外学术期刊以及ASIS&T、iConference等国际学术会议发表论文二十余篇,为多个SSCI、SCI、CSSCI期刊和国际学术会议任审稿专家,研究领域主要包括数据搜索、开放数据、信息行为、信息用户心理和数字社会。

此次讲座主题为“数据检索与开放科学、人工智能间的双向赋能:任务∙认知∙智慧”, 由中国人民大学信息资源管理学院研究生会学术部部长于欣萍主持。讲座从以下三个方面展开:一是数据检索、开放数据与人工智能三大概念的内涵及其相互关系,二是数据检索系统在支持开放数据创新驱动当中的局限性,三是人工智能技术能否为解决目前问题提供技术支持,其具体做法有哪些。

首先,李樵博士从研究背景出发,重点介绍了数据检索系统的概念及其与开放数据之间的关系。数据检索系统包括数据仓储、开放数据的搜索引擎、数据集的搜索引擎等,支持用户回答“存在什么数据”、“数据来源于哪里”和“如何获得数据”三个问题。开放科学运动推动数据的开放获取,为数据检索技术的发展提供资源基础;数据检索则为科研人员在海量开放数据中发现所需数据提供技术支持,进而促进开放数据在科技创新中的利用,助力开放科学发展。

接着,李樵博士通过介绍其团队去年提出的多维数据检索交互认知模型,解释了用户处理与数据检索系统交换的各类信息的两个认知系统——依赖直觉经验和情感的系统、依赖逻辑分析和证据的系统,进而指出数据检索系统在支持用户与系统交互过程中的认知活动方面存在局限性,从而引出研究解决的主要问题。技术维度上,基于关键词的检索为用户提供与检索词完全一致的结果而非符合用户潜在需求或意图的结果;情境维度上,难以充分支持用户完成复杂的数据发现任务,特别是任务过程中的认知活动;资源维度上,元数据中缺乏用户评估数据所需的信息,元数据难以理解。以上局限导致用户对于数据检索系统的满意度不佳,而如何利用人工智能技术为解决这些局限提供支持、优化用户评价便成为亟待讨论的问题。

随后,李樵博士明确了研究要解决的三大核心问题:一是科研人员主要利用开放数据执行哪些科研任务?;二是在搜索执行这些科研任务所需的开放数据的过程中,科研人员的认知有哪些特点?;三是如何设计智能数据检索系统以符合科研人员的认知特点,进而支持任务?。通过回答以上问题,李樵博士解释了其研究的结果与发现。

第一,对于科研人员主要利用开放数据执行哪些科研任务?这一问题,李樵博士强调任务与目标密切相关,通过讨论研究者在执行以数据为中心的工作任务时追寻哪些类型的目标、会遇到哪些挑战以及可以使用哪些资源,提出了以数据为中心的工作任务分类方案。首先,研究者利用开放数据设计研究目的,通过分析开放数据为研究提供支持。其次,开放数据可以支持研究者形成研究问题、设计研究假设,以及探索和得到科学研究发现。此外,开放数据还可以提升研究的可靠性、结果的可重复性。最后,科研人员还利用开放数据执行一些本身就是数据分析的科研任务,如开发数据分析软件、构建模型算法工具和系统等。

第二,为探究在数据搜索过程中科研人员的认知特点在搜索执行这些科研任务所需的开放数据的过程中,科研人员的认知有哪些特点?对于该问题,李樵博士介绍了其团队的研究思路,提出了研究的假设模型:用户的情感记忆如何影响他的感知价值、感知价值如何影响用户的搜索努力、感知价值和搜索努力如何影响用户对于开放数据的获取。研究发现,积极的情感反应会正向影响搜索努力,而成就价值会反向影响搜索努力。中介作用是成就价值通过降低搜索努力降低获取数据意愿。这些发现与情感信息理论有关,即积极情感传递给他人后,可能会抑制他们投入更多努力去获取更多潜在需求的数据。最后,负面情感记忆对感知价值影响不显著,而积极情感记忆对感知价值影响显著且正向。此外,李樵博士还探讨了元数据和检索功能对用户注意力分配的影响,以及注意力漂移扩散模型在用户注意力与感知价值关系中的作用。

第三,关于如何设计智能数据检索系统以符合科研人员的认知特点,进而支持任务?,李樵博士首先介绍了首因效应、近因效应及峰终效应,并强调了这些现象在心理学中的重要性。首因效应是指第一印象对评价产生巨大影响,近因效应是最近发生的事情对评价的影响,峰终效应是峰值时刻体验和结束时刻体验对总体的满意度评价产生重要影响。为了验证这些研究假设,李樵博士团队基于眼动追踪的方法,通过采集不同时刻的注视扫视和瞳孔数据,构建了首因立方体、近因立方体和峰值立方体等模型。最终发现,综合考虑首峰中三个时刻的预测准确性更高。

最后,李樵博士对开放科学、数据检索与人工智能之间的关系进行了总结,探讨了开放科学数据在科学研究中的应用,认为开放数据可以支持研究者达成目标,提高研究的有效性。此外,李樵博士还进一步强调了开放科学数据在促进科技创新方面的重要价值。

分享结束后,李樵博士就大家所提出的问题进行了耐心解答,参会者对李樵博士的精彩分享表示感谢。至此,“人大信管讲堂·青年科学家一小时讲堂”系列讲座七十一讲顺利结束。

(注:由于该系列研究有部分成果未发表,本次讲座暂不提供录屏)