斯坦福专家揭露AI写作检测器不可靠，呼吁改变教学评估方式

作者：每日干货分享

发布时间：2025-11-06 21:06:40 浏览量：1 0

智东西于7月17日有消息传来，据科技网站Ars进行报道，斯坦福大学的研究方面的专家，以及（AI写作检测器）的作者，二者都明确表示，AI写作检测器是没办法准确去判定一段文本是不是由AI生成的，这致使部分学生面对错误的检测结果，不得不去自证自身的清白。

AI写作检测器的原理是基于人类编写以及AI生成的文本语料库，从而依据已有文本对提交系统的文本展开检测，以此判断是否由AI编写。这一过程致使的悖论是：AI能够模仿人类写作，人类同样能够模仿AI写作。所以，专家觉得，对于老师来讲，不应该用AI写作检测去查验学生，而应该教会学生切实使用AI辅助写作，并且切实了解学生对已有知识的掌握状况。

一、AI检测背后的原理——经验性与变化性

如若你于这里去上传那美国宪法的文本，系统检测之后所给出的结果便会显示，此文本“也许全然是由AI所编写的”。仿佛是在这般讲，詹姆斯·麦迪逊（此人乃是美国宪法之父，身为美国制宪会议代表以及《美利坚合众国宪法》起草和签署人当中的一员）竟是个机器人。同样的情形，要是去上传圣经的文本，那个系统也会判定此文本是由AI生成的。

于输入美国宪法某些文本之际，系统断定此文本乃由AI/GPT所生成。

在外网，这一连串误判被大范围传播，要阐释这些检测工具缘何会犯下这般明显的错误，我们首先得知晓它们做事的方法，还要明白它们运行的机制。

AI写作检测器不同，其采用的检测方法存在些许差异，然而原理大致相仿，是以大量文本训练所为检测根基，还有推测规则作检测基础设定。这些文本同规则，决定了系统对于上传文本，判断其更倾向于是人类编写而成，亦或是AI生成之作。

比如嘞，文本的来源来自大量由人类编写以及 AI 生成的文本语料库，其中主要的语料是英文的散文。然后嘞，以这个为基础，系统运用“经验性”啦，这里的“经验性”指的是依照过去的经验，看这种语言是不是超出了一般的经验判断哦，还有“变化性”啦，一般人类写作的时候句子会有长短交替的那种变化，这种变化是人类自然表达所产生的结果啦，等这些属性去评估文本进而做出判断。

于机器学习里，经验性乃对一段文本跟AI模型于训练进程中所习得内容间差距之大小予以衡量的标准。博士由人工智能公司Face表示，讲：“经验性即为，‘我认为这样一句话是否具备合理性’的一种功能。”。

这意味着，在经验性这一状况的背后，存在着这样的逻辑，那就是，被AI生成出来的文本，自然而然地会最为贴近AI所拥有的训练数据，并由此导致经验性越高。然而所要面对的问题是，人类同样能够进行具备高“经验性”的那种写作，特别是在法律写作或者其他种类的学术写作情形下，作者所运用的语句都是极为固定的。

哪怕是于平常交流对话之际，亦存在诸多具备高“经验性”的表述，像我渴望拥有一杯水这般。然而要是换成“我想要一杯蜘蛛”，无论是人类还是AI都会对这话感到困惑不解，故而其经验性便会很低。

只有关于“我想要一杯蜘蛛”这事物的谷歌搜索结果是唯一的一条，如此这般短语搭配的经验性便会是很低下的额。

所以，在依据 “经验性” 判定标准的情形下，美国宪法被认定为是由AI生成的。其缘由在于，宪法的语言内容在AI训练数据里再三出现，故而AI检测系统出现了误判。

然而问题存在于此，人类能够全然创作出常见的内容，人类还能够仅仅运用常见短语来进行表达，就像“我想要一杯咖啡”这样的表述，所以，凭借经验性作为依据来判定是否为人类创作，这是不合适的。

圣经创世纪的一部分被标记为88.2%的AI由生成

文本的判定还有一个标准叫做“变化性”，它所评估的是那整个文本里句子长度以及结构的交替变化。

人的写作风格常常会出现改变，文本里句子的长短以及结构都会生发出改变呢。比如说呀，在出现一个长长的句子之后，我们紧接着就会接上一个很短的句子哟。这样的改变是极为自然的呀。

与这形成相对情况的是，那由AI生成的文本具备比较稳定以及统一的特性，AI语言模型当前尚且处于刚开始起步的阶段，其所生成的文本呈现出比较标准的状态，在长度方面以及结构方面都表现得比较统一，这样的一种稳定性结果有可能致使所产生的变化性分数处于较低的水平，进而判定该文本有很大可能是经由AI生成的。

然而，变化性此项指标并非毫无差错。人类能够以高度架构化且一致的风格开展写作，致使变化性得分偏低。反之，我们能够对AI模型加以训练，用以效仿人类文本的变化性，进而提升其变化性得分。实际上，随AI语言模型的迭代，其写作愈发趋近于人类的写作。

因此，按照前面两个判定的标准来看，AI写作检测没办法针对一段文本究竟是不是由人类所撰写作出准确无误的判定。

二、部分学生成AI检测误判的受害者

一部分从事教育工作的人，正在接纳这种将AI技术融入现实的情形，而且积极地推行运用等工具来辅助学习，沃顿商学院的Ethan教授就是当中的一个。

教授最近在推特上写道，并没有工具能够可靠地检测-4/Bing/Bard写作。现有的工具是以GPT-3.5作为训练基准，它们的误报率很高，达到10%以上，而且它们极其容易被误导。并且，由于无法评估文本是否是由AI编写的，所以我们无法粘贴一段文本然后询问它是否由编写。

其作者好像察觉到AI写作检测的未来没办法行得通，宣称他打算把他的公司从AI写作检测转变至其他方向。他讲：“我们正在搭建探测器去捕获写作的学生。而且，下一个版本不会检测AI文本，而是协助教师与学生一同运用AI，使AI参与到教育当中。”。

那他对于人们使用验证检查学生学术不端又是怎样看待的呢？他讲道：“我们并不期望人们使用其去惩处学生。在教育范畴，理应停下个人对人工智能的依赖，像一些教师会借助人工智能检测去惩罚学生，而一些教师则擅长运用人工智能技术。政府和校方应该联合拟定正确的政策以应对运用人工智能技术的学生，直至我们明晰学生真正的学习进展，以及在这个进程中人工智能的参与程度。”。

但误判问题并未得到解决，其作者依旧宣称AI写作检测是“为教育工作者所构建”。不过呢，运用这些有着高误判率的产品，存在对学生造成伤害的可能性，而为此付出代价的唯一一方，仅仅是被冤枉的学生。

网站的屏幕截图

一个曾被《今日美国》报道过的案例里，有一名学生被指控借助AI工具作弊，他被迫在荣誉委员会跟前进行自我辩护，他的辩护涵盖展示他的谷歌文档历史以及他的研究过程，尽管董事会未发觉作弊的证据，可为自己辩护所带来的压力致使学生极其恐慌，类似的场景在美国已上演了起码数十次。

常见的针对学术不端的处罚，一般涵盖成绩不及格、留校察看、停学以及开除等情况，具体会依据违规行为的严重程度还有频率来定。而这个处罚存在的问题是，运用有误判现象的技术做出这些严重的指控，对学生来讲是极其不公平的。

三、AI写作可能永远无法被监测

在实践研究期间，AI写作检测存在误报情况，还存在歧视非英语母语人士的问题。2023年，马里兰大学研究人员开展的一项研究显示，AI写作检测于实际应用里表现平常，误报频率偏高。

负责AI写作检测产品的研究员Simon讲道：“这仅仅是个被称作‘万用灵药’的东西，而此所谓‘万用灵药’指的是那种毫无意义的产品。特别是在很难证实这种产品有没有用处的情况下，每一个人都期盼着这个系统能够发挥作用。”。

近期，斯坦福大学研究人员有一项研究，该研究表明，除此之外，AI写作检测存在歧视非英语母语人群的可能性。若AI写作检测被广泛使用，那么非英语母语人群的写作将会出现很高的误报率，他们会处于很被动的地位。

显然，AI写作检测并非绝对可靠，人类能够如同机器那般进行写作，机器同样能够像人类一样写作，或许需要思忖写作的关键问题，即在机器辅助的状况下，作者自身会不会明白他们所表达的内容，要是有人借助AI工具去开展超出其能力界限的写作，那么具备能力的读者或者老师应当可以较轻易地辨别。

要是使用妥当了，那么AI辅助写作会持续存在，并且AI有可能会采取更具责任感以及合乎道德原则的方式来辅助写作如果呢，如果老师们期望去鼓励AI辅助工具进行有效的运用，那能够提出下面这些问题写作是不是体现了作者的意志还有知识储备呢，作者可不可以确认所写每一个事件的真实性呀？

老师能够于事后针对学生的写作内容开展测验，以此查看他们的理解程度怎样，写作并非单单是知识的呈现，更是语言的表述，若作者无法清晰讲述所写的每一项事实，AI便未起到应有的辅助功效。

AI生成图像：机器人辅助学生学习

AI辅助写作依旧是一项工具，工具会有使用不当或者熟练使用等状况。使用工具得依据使用情景予以调整，你能够用画笔画一整面墙，也能够创作蒙娜丽莎。这两种情形都是对该工具的恰当使用，然而每种方案所需的人的注意力与创造力均不相同。同样，AI工具能够适当加快一些死记硬背的写作任务，比如生成文档摘要等，而更复杂的任务则需要更多的人的付出。任何事情都不存在非黑即白的解决办法。

当前，其做出表示，虽说教育工作者面对AI工具会感到无所适从，但表明任何人都不应当运用AI写作检测之意的是他。其还做出表示，“我并非AI检测这个领域的技术专家，不过我能够从身为一个运用AI的教育工作者的视角来考量。直到现在，AI写作是没办法被检测察觉的，并且极有可能会持续处于这种状况。AI探测器出现错误报告的概率非常高，因而我不提议继续去使用它们。”。

结语：摆正AI的工具属性

不管是AI写作，还是人类写作，其本质都是掌握与学习的进程，比起AI，人类更为独具特别之处的一点乃是创新。一方面，老师们能够借助对学生增添其他考察方式的形态，来保证学生的知识掌握状况；另一方面，老师能够引领学生还原AI的工具特性，借助AI辅助研究以及教学相关活动的开展。

如今，生成式 AI 蓬勃兴起，AI 技术也渐渐于各行业领域里生根落户，各行业领域能够依据从业人员的从业经历，与 AI 技术人员拥有的技术知识相结合，预先针对有可能出现的滥用行为展开技术处置，事先防范滥用行为，在运用 AI 技术期间，也应当维持实时监测，适时制止并惩处相匹配的滥用以及侵权行为。