top of page
作家相片Gao Zhe

⼈⼯智能检测器错误地指控学⽣作弊--后果严重

在⼤流⾏初期为了组建家庭⽽从⼤学休学⼀段时间后,Moira Olmsted渴望重返校园。


⼏个⽉来她兼顾了⼀份全职⼯作和⼀个蹒跚学步的孩⼦为⼀个⾃定进度的项⽬攒钱这个项⽬可以让她远程学习。怀着第⼆个孩⼦七个⽉的Olmsted于2023年参加了中央卫理公会⼤学的在线课程准备成为⼀名教师。秋季学期刚刚开始⼏周奥姆斯特德在⼀⻔必修课上提交了⼀份书⾯作业这是她每周必须做的三篇阅读摘要之⼀。不久之后她的成绩是零。

Olmsted说当她找到她的教授时她被告知⼈⼯智能检测⼯具已经确定她的⼯作可能是由⼈⼯智能⽣成的。事实上这位⽼师说她的作⽂以前⾄少被标记过⼀次。


对于现年24岁的Olmsted来说这项指控是“⼀记重拳”。这也威胁到了她在⼤学⾥的地位。 """这就有点像天哪这就是我们眼下⾏之有效的⽅法但可能会因为我没有做过的事情⽽被取消”她说。



根据《彭博商业周刊》看到的电⼦邮件,Olmsted向她的⽼师和⼀名学⽣协调员反驳了这⼀指控。强调她患有⾃闭症,谱系障碍写作⽅式程式化可能会被误认为是⼈⼯智能⽣成的。成绩最终被更改,但在此之前她收到了严厉的警告,如果她的作业再次被标记⽼师将像对待抄袭⼀样对待它。


⾃从⼤约两年前,OpenAI的ChatGPT将⽣成式⼈⼯智能带⼊主流以来学校竞相适应变化的环境。教育⼯作者现在依靠越来越多的检测⼯具来帮助识别⼈⼯智能⽣成的句⼦、段落或整个作业。据调查约三分之⼆的教师表示经常使⽤⼈⼯智能检查器。 调查 Center for Democracy &Technology在3⽉份发布了超过450位教官的观点。


最好的⼈⼯智能书写检测器⾮常准确,但它们并⾮万⽆⼀失。 《商业周刊》对GPTZero和Copyleaks这两个领先服务进⾏了测试,随机抽取了2022年夏天提交给德州农⼯⼤学的500篇⼤学申请论⽂,在ChatGPT发布前不久有效地保证了它们不是⼈⼯智能⽣成的。这些⽂章是通过公共记录请求获得的。这意味着它们不属于训练⼈⼯智能⼯具的数据集。


《商业周刊》发现这些服务错误地将1%-2%的论⽂标记为可能由⼈⼯智能撰写,在某些情况下声称具有近100%的确定性。即使是这么⼩的错误率,考虑到学⽣每年的作业数量巨⼤,这些错误很快就会积少成多,可能会给被错误标记的学⽣带来灾难性的后果。与更传统的作弊和抄袭指控⼀样,使⽤⼈⼯智能做作业的学⽣不得不重做作业并⾯临成绩不及格和留校察看的情况。


"⾯向学⽣、学者和⼈⼯智能开发⼈员A 2023年研究斯坦福⼤学的研究⼈员发现⼈⼯智能检测器在检查美国出⽣的⼋年级学⽣撰写的论⽂时近乎完美但他们将超过⼀半的⾮英语⺟语学⽣撰写的论⽂标记为⼈⼯智能⽣成。 OpenAI 最近说 它没有发布⼈⼯智能写作检测⼯具,部分原因是担⼼它可能对包括ESL学⽣在内的某些群体产⽣负⾯影响。

《商业周刊》还发现⼈⼯智能检测服务有时会被旨在冒充⼈⼯撰写的⾃动化⼯具所欺骗。这可能会导致⼀种技术与另⼀种技术的军备竞赛破坏教育⼯作者和学⽣之间的信任⽽⼏乎没有教育益处。


Turnitin是⼀个流⾏的⼈⼯智能检测⼯具Olmsted说它被⽤来检查她的⼯作 。表示有4%的假阳性率 在分析句⼦时Turnitin拒绝提供测试服务。在⼀篇2023年的博客⽂章中范德⽐尔特⼤学 ⼏所主要学校 因担⼼准确性⽽关闭Turnitin的AI检测服务,指出否则数百篇学⽣论⽂在本学年期间可能会被错误地标记为部分由AI撰写。


在意⼤利度过了童年⼤部分时间的多语种学⽣Ken Sahib说当他在纽约伯克利学院的《⽹络导论》课程的⼀篇阅读材料总结作业中得了零分时他感到很“震惊”。根据《商业周刊》看到的电⼦邮件当Sahib问起这个问题时这位⽼师说“我尝试过的每个⼯具都产⽣了相同的结果这些答案是⼈⼯智能⽣成的”。

“你知道⾃⼰在做什么。”Sahib说他最终通过了这⻔课但这件事破坏了他与教授的关系。 """那之后我们⼏乎没说话”他说。"这位教授没有回复置评请求。


虽然⼀些教育⼯作者放弃了⼈⼯智能探测器,并试图调整他们的课程,为了融⼊⼈⼯智能,许多⼤学和⾼中仍在使⽤这些⼯具。根据投资数据公司PitchBook的数据,⾃2019年以来,⼈⼯智能检测初创公司已吸引了约2800万美元的资⾦。其中⼤部分交易发⽣在ChatGPT发布之后。


PitchBook发现,可以检查⼈⼯智能⽣成的⽂本、图像、⾳频和视频的Deepfake检测初创公司,在2023年筹集了超过3亿美元⾼于前⼀年的约6500万美元。根据对全美12名学⽣和11名教师的采访结果,课堂上仍然笼罩着焦虑和偏执的阴影,他们担⼼可能出现虚假指控。本科⽣现在采取了各种费时的努⼒来捍卫⾃⼰⼯作的完整性。他们说这个过程减少了学习体验。⼀些⼈还担⼼,使⽤常⻅的⼈⼯智能写作辅助服务和专⻔⾯向学⽣的语法检查器,担⼼它们会触发⼈⼯智能探测器。


Turnitin负责⼈⼯智能的副总裁Eric Wang表示,该公司有意对数据集中代表性不⾜的群体进⾏“过度抽样”。他说内部测试表明Turnitin的模型没有错误地指责ESL学⽣,整个⽂件的整体误报率低于1%,并且随着每个新版本的发布⽽提⾼。 Turnitin没有专⻔针对神经分化的学⽣数据进⾏训练,也没有访问病史来评估这种分类。


Copyleaks联合创始⼈兼⾸席执⾏官 Alon Yamin 称其技术准确率达到99%。 """我们正在向学术机构明确表示没有什么是100%的,它应该被⽤来确定学⽣作业的趋势”他说。" """这有点像⼀⾯⻩旗,让他们调查并以此为契机与学⽣交谈。”


""""每个⼈⼯智能探测器都有盲点”,GPTZero的创始⼈兼⾸席执⾏官Edward Tian说。"他说他的公司在消除ESL学⽣的结果偏差⽅⾯取得了⻓⾜进步,并已采取措施更清楚地表明其⼯具评估教师书⾯作业的不确定性程度。⽥建⽴GPTZero 2023年初。截⾄7⽉,他的初创公司拥有400万⽤户,⾼于⼀年前的100万。最近从投资者那⾥筹集了1,000万美元,其中包括 杰克·奥特曼,OpenAI⾸席执⾏官的兄弟。"""上个学期是最活跃的⼀个学期”Tian说。" ""


"这表明这个问题没有消失但已经发⽣了变化。"⼀年前⼈们最常问的问题是这就是⼈⼯智能吗他说现在⽼师们知道⼈⼯智能已经进⼊了他们的课堂。问题是“你如何处理它”量化⼈⼯智能在学校中的使⽤具有挑战性。在⼀项测试中《商业周刊》分析了ChatGPT推出后2023年夏天提交给Texas A&M的另⼀组305篇⽂章发现相同的AI检测器标记出⼤约9%是由⼈⼯智能⽣成的。


⼈⼯智能写作检测器通常会关注困惑度这是衡量任何给定提交内容中单词复杂程度的指标。斯坦福⼤学⽣物医学数据科学教授、斯坦福ESL研究的资深作者James Zou表示,如果词语选择往往更加笼统和公式化那么这项⼯作被⼈⼯智能检测器标记的可能性就更⾼。


以AI检测服务QuillBot为例 注 """⼈⼯智能⽣成的内容可能包含重复的单词、笨拙的措辞以及不⾃然、断断续续的流程。”" GPTZero还考虑了⼀个标准它称之为“突发性”衡量整个书⾯⽂件中困惑度的变化程度。该公司表示与⼈⼯智能不同的是“⼈们倾向于在整个⽂档中改变很多句⼦结构和措辞”。⼈⼯智能检测公司强调他们的服务不应被视为法官、陪审团和刽⼦⼿⽽应被视为帮助告知和指导教师的数据点。Yamin说⼤多数与Copyleaks合作的学校现在都允许学⽣使⽤这项服务“这样他们就可以验证⾃⼰的身份”并看到⾃⼰的⼈⼯智能分数。


与此同时Turnitin正在努⼒扩⼤其⼈⼯智能产品组合,根据教师和学⽣的反馈推出⼀项服务帮助学⽣展示他们如何整理书⾯作业的过程。

Turnitin的⾸席产品官Annie Chechitelli说“学⽣们说‘我希望能够证明这是我的作品我希望对此没有任何疑问’”。 "⽼师们说""我需要更多数据点来帮助我理解这个学⽣是如何想出这个的。”


"在她的作品受到举报后,Olmsted说她开始着迷于避免再次受到指控。她在笔记本电脑上录下了⾃⼰做写作作业的画⾯。她使⽤⾕歌⽂档来跟踪她的更改并创建数字化的书⾯记录。她甚⾄试图调整⾃⼰的词汇和句法。 """我很紧张我会⾛到这⼀步并遇到另⼀项⼈⼯智能指控”Olmsted说。她的⽬标是今年春季毕业。" """我会失去很多。”"


加州⼤学圣地亚哥分校化学⼯程系⼤三学⽣Nathan Mendoza使⽤GPTZero对⾃⼰的作品进⾏预筛选。他说现在他完成作业所花的⼤部分时间都花在调整措辞上,这样他就不会被错误标记--他认为这样做会让⽂章听起来更糟。其他学⽣通过求助于⼀批所谓的⼈⼯智能⼈性化服务来加快这⼀过程。这些服务可以⾃动重写提交的内容以通过⼈⼯智能检测。


对被⼈⼯智能检测器标记的恐惧也迫使学⽣重新考虑使⽤流⾏的在线写作辅助⼯具。 Grammarly是⼀家2021年估值达到130亿美元的初创公司。为学⽣提供从基本的拼写检查到结构建议等各种服务。但它也扩⼤了⾃动重写整个提交,以满⾜某些标准的选项,突破了教师认为可以接受的极限。


彭博发现使⽤Grammarly来“改进”⼀篇⽂章或“使其听起来很学术”,将把那些看似100%⼈⼯撰写的⽂章变成100%⼈⼯智能撰写。然⽽Grammarly的拼写检查和语法建议,对于让⽂档看起来更像是⼈⼯智能编写的影响微乎其微。


佛罗⾥达⻄南州⽴⼤学的学⽣Kaitlyn Abellar说,她已经卸载了电脑上安装了Grammarly等程序的插件。北乔治亚⼤学的学⽣MarleyStevens去年在TikTok上发布了⼀段疯传视频讲述了⾃⼰被罚的经历,Turnitin将她的论⽂标记为⼈⼯智能⽣成。 Stevens说 在⼀次纪律听证会裁定她作弊后,她被留校察看⼀年。她坚称作业是⾃⼰写的,只使⽤了Grammarly的标准拼写检查和语法功能。


这是⼀位善意的学⽣,他⼀直以负责任的⽅式使⽤Grammarly,被第三⽅技术标记为做错了。 ""这⼀事件促使Grammarly为学⽣开发了⼀种检测⼯具,来识别⽂本是否是打字的、从不同来源粘贴的、还是由⼈⼯智能模型编写的。""


"这⼏乎就像你的保险单”Maxwell说。"对于⼀些教育⼯作者和学⽣来说,当前的系统感觉不可持续,因为它给⽼师和⽼师都带来了压⼒,⽽且⼈⼯智能将继续存在。"""⽆论我们喜欢与否,⼈⼯智能都将成为未来的⼀部分”⻢⾥兰⼤学英语教授Adam Lloyd说。


" "将⼈⼯智能视为我们需要远离课堂或阻⽌学⽣使⽤的东⻄是错误的。"""Lloyd没有使⽤他所在学校教师可以使⽤的Turnitin,⽽是更愿意跟随⾃⼰的直觉。 """我了解学⽣的写作,如果我有怀疑我会公开讨论”他说""不会指责他们。”

1 次查看0 則留言

Comments


bottom of page