Papers
A curated collection of papers I've read and studied, focusing on AI and machine learning research.
Biases in the Blind Spot: Detecting What LLMs Fail to Mention
大语言模型(LLMs)常常生成看似合理、连贯的思维链(Chain-of-Thought, CoT)推理过程,但其中可能隐含未被明确表达的内在偏见。我们将这类偏见称为“未言明偏见”(unverbalized biases)。因此,仅通过模型显式陈述的推理过程来监控其行为并不可靠;而现有的偏见评估方法通常依赖预定义的偏见类别和人工构建的数据集。本文提出一种完全自动化的黑箱式流程,用于检测任务特定的未言明偏见。该流程以某一任务的数据集为输入,首先利用大语言模型作为自动评分器(autoraters),生成若干潜在的偏见概念(candidate bias concepts);随后,针对每个概念,在逐步扩大的输入样本规模上进行检验:通过生成该概念的正向与负向变体(positive and negative variations),结合多重假设检验(multiple testing)的统计方法及早停机制(early stopping),判断其是否对模型性能产生系统性影响。若某概念能引发统计上显著的性能差异,且在模型输出的思维链中从未被援引为推理依据,则该概念即被标记为一项“未言明偏见”。我们在三项决策任务(招聘、贷款审批与大学招生)上,对六种大语言模型全面评估了该流程的有效性。结果表明,该技术能够自动发现此前未知的模型偏见(例如:西班牙语流利程度、英语熟练度、书面表达的正式程度等);与此同时,在同一轮运行中,该流程亦成功复现并验证了先前人工识别出的若干偏见(如性别、种族、宗教信仰、族裔等)。更广泛而言,我们所提出的这一方法,为实现可扩展、实用化、任务定制化的自动化偏见发现,提供了一条切实可行的技术路径。