2025年5月12日晚,由浙江省人才发展研究院与浙江大学行政管理研究所联合主办的专题讲座“浅谈生成式AI(大语言模型)在心理测量中的应用(A Brief Discussion on the Application of Generative AI in Psychological Measurement)”,在浙江大学紫金港校区公共管理学院112会议室圆满举行。浙江省人才发展研究院院长、浙江大学公共管理学院教授陈丽君主持讲座,美国奥本大学心理学系教授范津砚担任主讲嘉宾,吸引了浙江大学众多师生参加。
讲座伊始,陈丽君教授对范津砚教授的到来表示热烈欢迎,并介绍范津砚教授是美国俄亥俄州立大学工业与组织心理学博士,目前任教于美国奥本大学心理学系,主要研究领域是人工智能、人事选拔、新员工入职培训和社会化过程、跨文化适应和培训。实践方面,范津砚教授还开发了一系列人才测评的工具、模型等,长期从事人力资源管理相关的企业咨询工作。
范津砚教授首先回顾了人工智能(AI)技术特别是自然语言处理(NLP)在近二十年间的飞速发展历程。他指出,早期的文本分析从简单的字词频率统计起步,后来发展出基于深度学习的单词、句子嵌入表示等技术,使模型能够理解单词顺序和上下文。最新的突破是生成式AI产品的出现,如ChatGPT等大型语言模型(LLM),极大提升了文本处理的能力和工作效率。在传统没有LLM的时代,心理测量通常依赖“小模型”方法,先收集大量被试的文本数据,通过NLP提取特征,用预测模型训练出评分算法,再用自我报告等“真分数”校准模型。范津砚教授指出,这类传统预测模型建立耗时且可能存在泛化不足的问题。而生成式大语言模型的崛起为心理测量提供了全新的范式,无需专门训练,只需通过恰当的提示工程(prompts)即可让预训练的大模型执行测评任务。
接下来,范津砚教授重点分享了其研究团队近期完成的两项关于LLM在心理测量中应用的实证研究。第一个研究探讨了大语言模型(如ChatGPT)在个性测量方面的精确性。通过比较大语言模型与传统“小模型”的评分结果,研究发现大语言模型无需专门训练,即可实现与传统方法相近甚至更高的测量准确性,并具有更好的预测真实行为表现的能力,这意味着大模型不仅能再现小模型对自评分数的良好会聚效度(convergent validity),在预测实际行为结果方面也毫不逊色。范津砚教授坦言,研究发现令团队感到“出乎意料”,预训练的大模型有着更强的泛化能力和潜力,可以在无需额外训练的情况下取得媲美甚至超越传统模型的效果。这一结果令在场师生深受鼓舞,充分展现了生成式AI在心理测量领域应用的巨大前景。
第二个研究关注的是生成式AI在人事选拔面试评分中的应用,研究团队将AI面试评分结果与人类专家评分进行对比,发现AI与人类专家评分的一致性高达80%左右。通过对比AI和人类对于同一案例给出的评语与理由,研究人员可以发现大模型决策中的潜在偏差,从而有针对性地调整算法或提示词,使AI评分更加贴近人类专家的共识,这种可解释性也将在很大程度上影响业界对AI测评工具的信任度。范津砚教授表示,随着研究的深入和模型的迭代优化,生成式AI在人事测评领域有望实现更加公平、有效的人才评价,减轻人工作业中主观偏差和效率低下的问题。
在报告后的提问交流环节,现场师生踊跃提问,就关心的问题与范津砚教授展开深入讨论。关于算法偏见与公平性,有同学提到商业AI视频面试系统中可能存在种族等偏见的问题。范教授结合行业实践回应道,目前国际领先的AI面试算法已采取措施减少偏见,例如取消面部表情和声音分析,仅保留语言文字通道,以避免肤色等非语言因素对评分的干扰。同时,一些公司在模型训练中设置双重优化目标,既要最大化预测有效性,又要最小化群体差异,通过在算法中引入约束来平衡公平性。关于AI测评的应用可信度,针对“如果人机评分不一致会否造成候选人不公平待遇”的疑问,范津砚教授表示可以理解大众对AI的苛求,但应当将AI的误差放在人类基准下考量。他指出,人工面试本身并非100%公平或准确,人类考官之间的评分一致性也有限。因此,只要AI的表现达到与人类相当的水准,就应该给予一定的容错空间,而无需要求AI绝对完美。这一观点引发了现场师生的思考与共鸣。
有同学关注不同人格特质测量结果差异的问题,为何大模型对外向性、尽责性维度的预测相关较高,而在宜人性、神经质上相对表现一般?对此陈丽君教授也饶有兴致地参与讨论。陈丽君教授推测,这可能与日常语言文本中不同特质的信息含量有关,大量公开文本材料中反映外向性和尽责性的线索较丰富,而宜人性和神经质相对不易从文字中直接表现。范津砚教授对此表示认同,补充说道,由于大模型是从海量人类语言中学习到知识,若某些特质在人们公开表达中不常显露,大模型获取的有关这些特质的训练信号可能相对较少。因此,大模型测量不同人格维度的效果差异,某种程度上反映了海量语料库中该特质相关信息的丰富程度。这一讨论为同学们提供了新的研究思路,即可以从语言学和行为表现角度进一步探究不同人格特质的可探测性差异。
在互动讨论结束后,陈丽君教授对讲座内容进行了总结发言。她首先感谢范津砚教授带来了一场内容丰富且发人深省的报告,拓宽了同学们的学术视野。她指出,本次讲座生动展现了未来已来的趋势——人工智能,尤其是以大型语言模型为代表的生成式人工智能,正迅速渗透到包括心理测量在内的各个领域,并将推动这些领域发生深刻变革。范津砚教授团队的研究证明,在人事测评场景下,生成式AI已经能够取得接近甚至超过人工和传统模型的表现,这为我们进一步思考“人机协作”提供了实证依据。陈丽君教授由此展望,生成式大语言模型具有广阔的应用前景,无论是在政府治理评估还是人才测评等领域,都将带来效率和客观性的提升。当然,新技术也对现行政策法规、伦理准则以及研究者自身能力提出了新的挑战,她呼吁大家在拥抱AI的同时,不忘审慎地检验其可靠性和公平性,共同推动相关规范的完善。
最后,陈丽君教授寄语现场青年学子,要抓住人工智能迅猛发展的时代机遇,以本次讲座为契机,深入思考如何将大模型等前沿技术运用于自身感兴趣的研究议题,在人才测评与发展等领域做出创新贡献。此次讲座内容学术性强、信息量大,既有前沿理论阐释,又有实证数据支撑,为与会者呈现了一场精彩的思想盛宴。讲座凸显了生成式AI技术在心理与人才测评领域的巨大潜能,在场师生均受益匪浅,对“AI+心理测量”这一交叉创新领域有了更深刻的认识和更浓厚的兴趣。
今后,浙江省人才发展研究院和浙江大学公共管理学院将继续搭建此类高层次学术交流平台,促进不同学科的融合对话,助力人才发展理论与实践的共同进步。伴随着师生热烈的掌声和意犹未尽的讨论,本次专题讲座圆满落下帷幕。