人工智能进入大模型迭代加速的关键阶段,“后训练(Post-training)”已成为模型性能和可信度的分水岭。如何在提升效果与降低成本之间取得新平衡,是数据管理与智能治理面临的共同命题。2025年11月2日16:00至17:30,中国人民大学信息资源管理学院“吴宝康大讲堂·行业坐标”系列讲座第8讲在通州校区公学一楼211教室开讲。本次讲座邀请侯宇清工程师(北京大学博士)主讲,主题为“大模型时代的典型强化学习应用”,围绕大模型微调的流程与范式演进、对齐理论、以及RLHF的最新技术谱系展开系统分析,为信息管理领域理解大模型治理的基本技术原理与方法提供了学习窗口。
本场讲座由学院专业学位中心主任周文杰教授主持。周文杰教授指出,微调与对齐构成大模型从通用知识向可控应用转化的关键链路,而强化学习方法的发展,也正在改变管理数据与管理AI的边界与方式。因此,本场内容既具有技术前沿性,也与信息管理学科的发展密切相关。

图1 周文杰教授主持讲座
侯宇清老师从“预训练+微调”的方法演进切入,系统梳理了指令学习(prompt learning)、少样本学习(few-shot/zero-shot)、监督微调(SFT)与高效参数微调(PEFT)等主流框架,重点阐释了PEFT在参数附加、参数选择和低秩适配(LoRA)三类路径下的轻量化优势。这推动了“低成本、高性能”成为大模型微调的新范式。在数据层面,侯老师提出“Quality is all your need”这一鲜明观点,强调人工标注与机器合成相结合,以及self-instruct、evol-instruct等流程对于提升样本有效性至关重要;并分享了从数据准备、模型选型、参数设置到LoRA/全量更新等实操经验,指出算力效率已成为技术选择的重要约束。此外,侯老师明确区分了微调与对齐,指出前者是数据拟合,后者是人类偏好对齐。RLHF仍然关键,但PPO、DPO、KTO、GRPO等新方法正在扩展对齐的技术版图。最后,他以通用大模型与推理大模型的部署结尾,指出可验证强化学习与测试时间计算将成为下一阶段值得重点关注的新方向。

图2 侯宇清老师分享前沿内容
大模型的治理不仅是技术议题,也是涵盖数据、算法、人类偏好的系统工程。对信息资源管理学科而言,大模型的微调、对齐与强化学习应用不仅构成新的方法论资源,也提出了数据治理、算法治理与人机协同治理的新问题域,值得持续展开跨学科探索。
交流环节中,师生围绕“样本质量如何定义与量化”“对齐方法在实际服务系统中的可验证性”等问题展开讨论。本次讲座为与会师生勾勒了从模型预训练、后训练对齐和微调的整体理解框架,也为后续开展跨学科研究提供了方法线索与问题入口。
图文:杨鑫、龙家庆
校对:周文杰、牛力
核发:韩曙光、闫慧