骗过同行评审!200多篇软件生成的“垃圾”论文竟成功发表

2021
06/10

+
分享
评论
生物世界
A-
A+

编译 | 晋楠
来源 | 科学网

用计算机软件“炮制”论文、骗过同行评审,最终还能浑水摸鱼成功发表

近日发表于《自然》的一篇文章显示,法国科学家通过检测数百万篇论文,发现了243篇这样的“垃圾”文章。

研究还发现,这些软件制造出的论文大多数由来自中国 (64%) 印度 (22%) 的研究人员撰写,尽管研究者表示,其中一些论文可能是在作者不知情的情况下以他们的名义提交的。

一些涉事出版商已经表示将撤下这些论文,但让更多人质疑的是,一些期刊的同行评审难道是“吃素”的?为何会让如此多计算机生成的论文成为漏网之鱼?

“垃圾”文章如何生成?


早在2005年,出于“玩心”,美国麻省理工学院3位计算机博士生 Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn,创造了一款叫作 SCIgen 的论文生成软件,以了解一些会议是否会接收毫无意义的“垃圾”论文。

SCIgen能把单词拼凑在一起,生成带有随机标题、文本和图表的研究文章。它们很容易被人类读者发现是胡言乱语。

结果,出于“恶作剧”让计算机写的一篇文章 Rooter : A Methodology for the Typical Unification of Access Points and Redundancy,竟然被当年7月在佛罗里达举行的第9届世界系统、控制论和信息学多学科大会 (WMSCI) 接收了。

事情到此并未结束。

由于 SCIgen 软件可免费下载,任何人都可以使用,类似的“恶作剧”还在继续,并逐渐发展为一种论文造假的手段,让科学文献中涌现出一批“垃圾”文章。

到2012年,法国计算机科学家 Cyril Labbe 发现,美国电气和电子工程师协会 (IEEE) 出版的会议论文中有85篇出自 SCIgen 的伪造论文。他还找到了120多篇被IEEE和施普林格 (现为施普林格·自然的一部分) 发表的假 SCIgen 论文。

Labbe表示,目前还不清楚这些论文是谁撰写的,以及为什么这样做。随后其中一些文章被撤销,有的则被删除。

如何防范这些计算机“发明”的论文呢?

为此,Labbe注册了一个网站,可以让任何人上传手稿,检查它是否为SCIgen编程的“发明”。

Labbe发起的网站

施普林格也赞助了一个帮助发现 SCIgen 论文的博士项目,产生了一个叫作SciDetect的免费“侦查”软件。

SciDetect的免费“侦查”软件

为了简历“好看”发“垃圾”文章?

 
最初,Labbe需要在论文手稿中搜索 SCIgen 的典型词汇。后来他和法国图卢兹大学计算机科学家 Guillaume Cabanac 提出了一个新想法:寻找 SCIgen 输出短语的关键语法特征。2020年5月,他们在 Dimensions 数据库收录的数百万篇论文中搜索了这些短语。

在近日发表于 ASIS&T 的一项研究中,他们表示,在对每篇文章进行人工检查后,发现了243篇完全或部分由 SCIgen 撰写的“垃圾”文章。

截至2020年5月20日,作者检测到的243篇含有SCIgen文本的文档的年份分布情况,以及每年文档类型的份额。图源:Labbe等

每年由出版商生成的包含SCIgen文本的论文数量。2020年不完整,因为数据截止日期为2020年5月20日。图片来源:Labbe等

这些论文发表于2008~2020年,出现在各种期刊、会议论文集和预印本上,大多数属于计算机科学领域。还有一些论文则出现在开放获取的期刊上,甚至是付费阅读期刊上。其中,46篇已从最初发布的网站上被撤销或删除。

从图中可以看到,IEEE、ACM(国际计算机协会)、IAES(航空航天与电子系统)、美国科学出版社等期刊、会议或机构都曾发表过相关论文。(图中“C”表示封闭获取,“O”表示开放获取。)图片来源:Labbe等

自去年以来,Labbe的清单上又增加了20篇论文,其中包括用 MATHgen (生成数学论文的软件) 和SBIR提案生成器 (生成无意义的拨款提案) 编写的乱七八糟的文章。

Labbe指出,最新一批的 SCIgen 论文大多数由来自中国 (64%) 或印度 (22%) 的研究人员撰写,尽管这些手稿可能是在他们不知情的情况下被他人以其名义提交的。

图片来源:Labbe等

其中几篇论文的作者告诉Labbe和Cabanac,他们是作为“恶作剧”提交的。但其他论文似乎是用真实的参考书目列表进行编辑,这表明它们的出现可能是为了夸大科学家的引文数量。

“我认为,这些论文绝大多数都是为了充实简历,以满足发表论文的需要。”Labbe说。

同行评审是“吃素”的?


在最新一批论文中,除了IEEE等知名会议或机构出现问题,还出现了若干计算机生成论文的“重灾区”。发布 SCIgen 内容排名前三位的分别是:

瑞士的跨技术出版社 (Trans Tech Publications) ,共发表了57篇相关论文;

印度的蓝眼睛智能工程与科学出版社 (Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP) ,发表了54篇;

今年3月被施普林格·自然收购的法国出版社亚特兰蒂斯 (Atlantis) ,发表了39篇。

上述瑞士和法国出版社表示,他们正在调查并撤回这些文章。不过,BEIESP的一位发言人表示,他们发表的文章都是通过双盲同行评审和剽窃检查的原创内容。

被科学界奉为圭臬的同行评审难道是“吃素”的?为何对这类计算机炮制的论文防不胜防?

对于这一问题,以WMSCI为例,Stribling认为,这是因为这类会议比较“水”,没有科学功能,只会通过发邮件等各种方式推销自己而获利。

此次,英国伦敦物理研究所附属机构IOP出版社也撤回了 10 篇论文,并在调查为什么在同行评审阶段没有发现这些计算机生成的论文。

该出版社诚信和内容经理 Kim Eggleton 表示,“我们有合理的证据表明,这些论文的同行评审过程不合格。”

你能想象自己看过的某篇论文其实是计算机软件生成的“垃圾”论文吗?它们之所以能被最终发表,是因为这些会议或期刊比较“水”,还是因为同行评议容易被操纵?

参考文献:
https://www.nature.com/articles/d41586-021-01436-7https://www.nature.com/articles/nature03653
http://scigendetection.imag.fr/main.php
https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495
https://link.springer.com/article/10.1007/s11192-012-0781-y


本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
施普林格,计算机,论文,软件,垃圾,评审,期刊

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!