学术欺诈新趋势：论文引用数量作假

过去，人们总认为科研人员是孤军奋战的个体。然而，现实并非如此。科研高度依赖学术界内部的交流：首先要理解他人的研究，然后分享自己的发现。

阅读和撰写学术期刊和会议论文是科研工作核心部分之一。撰写学术论文时，研究人员必须引用同行著作，以提供背景信息、详细论述灵感来源，并解释方法和结果的差异。其他研究人员的积极引用是衡量自身研究成果影响力的关键指标。

但是，如果论文引用系统被人为操纵会怎样呢？“科学侦探”研究团队最近在《美国信息科学与技术协会期刊》上发表的一篇文章揭露了一种恶劣的伎俩：通过操纵文章元数据（即包含文章标题、作者、出版日期等信息的附加信息，通常不直接呈现在文章正文中）来人为刷高引用数量，这种伎俩被称为“虚假引用”或者“引用造假”。

隐藏的操纵

近年来公众逐渐意识到科学出版物的潜在缺陷。仅去年，就有超过1万篇科学论文被撤回。引用造假及其对学术界造成的危害（包括损害学术界信誉）早已是文献记载的事实。

学术文献的引用遵循标准化的引用格式：每个引用都至少明确提及被引用文献的标题、作者姓名、出版年份、期刊或会议名称以及页码。这些详细信息以元数据形式存储，不会直接出现在文章正文中，而是分配给一个数字对象标识符 (DOI) – 每个科学出版物的唯一标识符。

科学出版物中的引用使作者能够证明其方法选择合理或呈现过去的研究结果，从而凸显科学的迭代性和协作性。

然而，研究者偶然发现，一些别有用心的人在将论文提交给科学数据库时，会在文章元数据中添加额外的引用信息，这些信息指向的文献内容在文章正文中不可见。结果呢？某些研究人员或期刊被引用次数飙升，即便这些引用从未出现在其他作者的论文正文中。

偶然发现

这项调查始于法国图卢兹大学的 Guillaume Cabanac 教授在 PubPeer 上的一篇文章。PubPeer 是一个致力于出版后同行评议的网站，科学家们可以在此讨论和分析出版物。Cabanac 教授在文章中详细描述了他发现的一篇可疑论文，该论文发表在 Hindawi 期刊上，因包含生硬的措辞而显得可疑，但引用次数却远高于下载次数，这非常反常。

这篇文章引起了现在《美国信息科学与技术协会期刊》文章作者们的注意。研究者使用了一个科学搜索引擎来查找引用这篇文章的其他文章。谷歌学术搜索没有找到任何引用，但 Crossref 和 Dimensions 却找到了引用信息。其中的区别在于，谷歌学术搜索可能主要依赖文章正文中的内容来提取参考文献列表中的引用，而 Crossref 和 Dimensions 则使用出版商提供的元数据。

新型的欺诈

为了了解这种操纵行为的范围，研究者调查了由 Technoscience Academy 出版的三份科学期刊，这家出版商正是发表了包含可疑引用的文章的机构。

调查分为三个步骤：

列出文章的 HTML 或 PDF 版本中明确存在的参考文献。
将这些列表与 Crossref 记录的元数据进行比较，发现了元数据中添加的额外引用，这些引用并未出现在文章中。
检查了 Dimensions（一个使用 Crossref 作为元数据来源的计量文献信息平台），发现了更多的不一致之处。

在 Technoscience Academy 出版的期刊中，至少有 9% 的记录引用是“虚假引用”。这些引用仅存在于元数据中，扭曲了引用统计数字并给某些作者带来了不公平的优势。同时，一些合法的引用也丢失了，这意味着它们不存在于元数据中。

此外，在分析“虚假引用”时，我们发现它们极大地提升了某些研究人员的影响力。例如，与 Technoscience Academy 相关的一位研究人员获得了超过 3000个额外的非法引用。一些来自同一出版商的期刊也从数百个额外的“虚假引用”中获利。

为了让研究结果得到外部验证，研究者将研究成果作为预印本发布，并告知 Crossref 和 Dimensions 他们存在这一问题，并向他们提供了预印本调查的链接。Dimensions 承认了非法引用，并确认其数据库反映了 Crossref 的数据。Crossref 也在 Retraction Watch 上确认虚假引用，并强调这是他们首次被告知其数据库存在此类问题。根据 Crossref 的调查，出版商已采取措施解决此问题。

影响和潜在解决方案

这一发现为何重要？因为论文引用次数对研究经费、学术晋升和机构排名都有重大影响。操纵引用次数会导致不公正结果。更令人担忧的是，这一发现引发了对科学影响力度量系统完整性的质疑，这也是多年来研究人员一直关注的问题。这些系统可能被操纵以助长研究人员之间不健康的竞争，引诱他们采取捷径以更快地发表论文或获得更多引用数。

为了打击这种做法，研究者建议采取以下措施：

出版商和像 Crossref 这样的机构要严格核实元数据。
进行独立审计以确保数据可靠。
提高引用和引文管理的透明度。

据我们所知，这项研究是首次报告元数据操纵现象。它还讨论了这可能对研究人员评估产生怎样的影响。该研究再次强调，过度依赖指标来评估研究人员、他们的工作和他们的影响可能存在固有的缺陷和错误。

这种过度依赖可能会促进有问题的研究实践，包括事后假设（即在结果出来后才提出假设）、分割数据（即把一组数据分成多篇论文）、数据操纵和剽窃。它还会阻碍透明度，而透明度对于更强大、更有效的研究至关重要。虽然现在看来有问题引用元数据和“夹带引用”已经被修复，但正如通常情况下科学更正那样，更正可能为时已晚。

结论

这项研究揭示了一种新的学术引用造假手段，这可能会对科学评价体系产生重大影响。研究人员、出版商和资助机构必须共同努力，确保科学文献的完整性和可信度。

以下是一些额外的细节和想法，可以添加到新闻报道中：

该研究的作者来自不同的学科，包括信息科学、计算机科学和数学，这表明解决这个问题需要跨学科合作。
该研究得到了美国国家科学基金会的资助，这表明该机构认识到学术诚信的重要性。
该研究发表在《美国信息科学与技术协会期刊》上，这是一份受人尊敬的同行评审期刊，这表明该研究经过了严格的审查。

本文最初以法语发表。

英文版链接：https://theconversation.com/when-scientific-citations-go-rogue-uncovering-sneaked-references-233858

必读