如果将论文提交给GPT-4进行审稿,其评价几乎与人类审稿人的评价一致。
在这一背景下,一些科研人员从中国人民大学、浙江大学等高校向GPT-4发送了超过1万篇论文,要求GPT-4基于这些论文给出“是否存在撤回风险”的答案,并将其与人类的预测进行对比。
结果显示,GPT-4在这方面表现出色。
尽管近期有关Chat GPT的报道引起了学者的关注,但AI模型的存在可能导致学术不端行为,不过也存在维持学术道德的方法。为了使ChatGPT具备预测论文是否会被撤回的能力,研究小组首先探讨了“自身是否具备此能力”的问题。
据实证,许多存在问题的论文会先后出现在社交媒体平台如Twitter上,然后被删除。
为验证自身是否具备预测撤回的能力,研究小组收集了包括3505篇退稿论文在内的3505篇文章,并通过粗略匹配算法获得了3505篇未被撤稿的论文。这些特征包括期刊发表、出版年份、作者人数和数量。在提及的7010篇文章中,通过Twitter API获取了推文数据,其中包括推文发布时间和内容。经过筛选,发现有8367篇被撤回的英文推文,而未被撤回的英文推文有6180篇。
人工预测(研究人员通过推文预测是否会撤回)是一个重要的研究指标,可用于衡量模型和人工算法之间的匹配程度。根据人工预测,若人类自认文章存在问题,则被撤回的概率高达93%,即某些推文能够准确预测文章被撤回的可能性。
然而,人为预测撤回的文章数量比例不高,仅约为16%(召回率=16%)。因此,尽管在撤回文章之前,只有很少一部分推文表现出明显的问题迹象,但这些迹象确实存在。在这种情况下,批评性推文可作为撤稿论文的催化剂,突显了将其纳入早期研究诚信预警系统的价值。
研究人员发现,能够有效预测撤回文章的评论可分为两类:
第一类直接强调文章中的错误或学术不端行为;
第二类以批判性或讽刺的方式突显文章质量的怀疑。
这些信息有助于期刊对文章进行调查,一旦发现严重问题,文章有可能被撤回。在此背景下,批评性评论可促进文章的撤回,凸显了将其纳入科研诚信早期预警体系的重要性。