从信度和效度的视角分析,当前的AIGC率检测工具在这两个维度上都存在明显不足,尚不能完全符合测量学的基本要求。
1. 信度(可靠性):一致性较差
信度要求同一检测工具对相同文本多次测量结果稳定,不同工具或不同条件下结果可重复。但AIGC率检测面临以下问题:
• 结果波动大:对同一段AI生成文本,改变少量措辞、添加标点或使用同义词替换,检测器给出的AIGC概率可能从90%骤降至20%。
• 跨工具不一致:不同检测器(如GPTZero、Turnitin AI检测、Originality.ai)对同一文本的判断结果常常矛盾,缺乏统一的评分标准。
• 时间稳定性弱:随着大语言模型更新(如GPT-3.5到GPT-4),原本能识别的文本可能被新模型“绕过”,导致检测器性能随时间衰减。
2. 效度(准确性):未能真正测量“是否AI生成”
效度要求检测工具测量到的是它宣称的目标——即文本是否由AI生成。但实际存在严重偏差:
• 内容效度不足:检测器通常依赖统计特征(如困惑度、突发性、重复模式),而这些特征并非AI生成所独有。例如,公文、学术论文、非母语写作者的文本可能也表现出低困惑度、高规律性,导致假阳性。
• 效标效度缺失:缺乏公认的“金标准”。人类专家标注也难以作为效标,因为人识别AI文本的能力有限(尤其当文本经过轻微改写)。
• 构造效度存疑:理论上,“AI生成”与“人类生成”的边界模糊——人借助AI润色、人机协作写作的情况普遍存在。检测器输出的“AIGC率”往往是一个无法解释的黑箱概率,难以对应真实的生成比例。
结论
目前的AIGC率检测尚不符合信度和效度的基本要求。它在实际应用中存在高误报率(特别是对非母语写作者、结构化文本)、易被对抗性攻击(如改写、翻译)绕过,且不同工具结果互斥。因此,这类检测更适合作为辅助参考,而不可作为高 stakes 场景(如学术判定、雇佣筛选)的可靠证据。未来需要更透明的评测基准和持续的技术改进,才可能逐步接近测量学的标准。