当地时间2023年12月17日,2023年IEEE国际大数据会议第八届计算档案学(CAS)分会在意大利索伦托召开。本次会议主题包括:分类与注释(Classification & Annotation)、真实性与信任(Authenticity & Trust)、新兴挑战与机遇(Emerging Challenges & Opportunities)、生成式人工智能与大语言模型(Generative AI and LLMs)。此次会议共接收了12篇论文,作者来自于中国人民大学、英属哥伦比亚大学、加州大学尔湾分校图书馆、马里兰大学、南非大学等高校和科研单位,我院刘越男教授率领团队撰写的论文被接收并受邀在大会上进行线上发言,这是中国高校学者首次在IEEE国际大数据会议计算档案学(CAS)分会上发声。

由我院教师刘越男、杨建梁、硕士研究生张茜雅和杭州市档案馆数字档案管理处处长梁凯合作撰写的《Exploring the Application of Large Language Models in Detecting and Protecting Personally Identifiable Information in Archival Data: A Comprehensive Study》探讨了大型语言模型(LLMs)在检测和保护档案中个人可识别信息(PII)的应用。该研究将传统的有监督学习方法与LLMs在PII检测中的无监督能力进行对比,发现LLMs在不依赖大量训练数据的情况下可获得较高性能,并且通过实证研究验证了LLMs在识别大量档案中个人信息的可行性,尤其是LLMs在增强AI可解释性方面的优异表现极大提振了档案领域应用AI的信心,为计算档案学研究提供了新的思路。