导航菜单

华人一作论文惨遭SIGIR 2019论文抄袭,网友:我只想知道抄袭者最终下场!

来源:红迪编辑:袁子和肖勤[新智元介绍]红迪网友报道,SIGIR 2019年的一篇论文涉嫌剽窃,两名剽窃作者均为大学教授,而其中两篇剽窃论文为中国学者。 SIGIR是信息检索领域最重要的国际会议。这两位教授在这样的会议上发表剽窃论文时,被认为已经结束了他们的学术生涯。 你觉得呢,来新智元的人工智能朋友圈分享你的观点~

今天,红迪机器学习社区的一篇热点帖子透露,SIGIR 2019年的一篇论文涉嫌剽窃!

joyyeki发布了一个问题:

我最近读了一篇发表在2019年SIGIR会议上的论文,题目是《为基于评论的建议提供对抗性训练》 我注意到这篇论文几乎和2018年RecSys大会上发表的论文《为什么我喜欢它:多任务学习的推荐和解释》(为什么我喜欢它:多任务学习的推荐和解释)一样。

joyyeki说,起初他认为这只是一个巧合,因为两篇论文中使用的对抗性训练也是最近的一个研究热点,不同群体对同一问题提出类似的解决方案是正常的。 然而,在仔细阅读和比较了这两篇论文之后,他认为SIGIR 2019年的论文抄袭了RecSys 2018年的论文。

ACM SIGIR(国际信息检索会议)是信息检索领域最重要的国际学术会议。它在这样一个权威的会议上发表了一篇剽窃的论文,这引起了很多怀疑。

更严重的是,剽窃论文的两位作者,荷兰马斯特里赫特大学的迪米特里斯拉菲利迪斯和提契诺大学(USI)的法比奥克雷斯塔尼,都是该领域的教授/助理教授。

和剽窃的RecSys 2018论文,其中两位作者是中国学者。第一位作者是多伦多大学的陆一超,以及都柏林大学助理教授海瑞东和都柏林大学计算机科学数字主席巴里史密斯。

SIGIR 2019论文(剽窃):基于评论的推荐对抗训练

论文地址:

迪米特里斯拉菲迪斯是马斯特里赫特大学DKE与入侵检测系统的助理教授 他的主要研究兴趣是机器学习、信息检索、推荐系统和社交媒体挖掘。

Dimitrios Rafailidis

个人主页:

Fabio Crestani自2007年1月以来一直是USI信息学研究所的正式教授 1997年至1999年,他是格拉斯哥大学、伯克利国际计算机科学研究所和英国卢瑟福阿普尔顿实验室的博士后研究员。

Fabio Crestani

个人主页:

RecSys 2018 paper(副本):为什么我喜欢它:多任务学习评论和解释

论文地址:

Yichao Lu,多伦多大学 第6层人工智能机器学习科学家

个人主页:

海瑞东是都柏林大学(UCD)计算机科学学院的助理教授。 他的研究兴趣广泛在于机器学习和深入学习以及它们在推荐系统和金融中的应用。

海瑞东

个人主页:

Barry Smyth是都柏林大学计算机科学的数字主席和数据分析洞察中心的主任。 自2003年以来,他一直是欧洲人工智能协调委员会的成员,自2011年以来,他一直是爱尔兰皇家学院的成员

Barry Smyth

个人主页:

expose SIGIR 2019 paper剽窃:该模型几乎完全被抄袭

joyyeki张贴在Reddit机器学习版块,并被质疑:

我最近阅读了一篇发表在SIGIR 2019年会议上的论文,题为《为基于评论的建议提供对抗性训练》(基于评论的推荐广告培训) 我注意到这篇论文几乎和2018年RecSys大会上发表的论文《为什么我喜欢它:多任务学习的推荐和解释》(为什么我喜欢它:多任务学习的推荐和解释)一样。

起初,我以为这只是一个巧合 研究人员可能有类似的想法 因此,两个独立的研究小组有可能对同一问题提出相同的解决方案。 然而,在仔细阅读和比较了这两篇论文之后,我现在认为SIGIR 2019年的论文抄袭了RecSys 2018年的论文。

SIGIR 2019年论文中提出的模型几乎是RecSys 2018年论文中模型的副本。 原因:

(1)两篇论文都在矩阵分解框架上使用了逆序对逆序学习模型

(2)对于发生器和鉴别器,两篇论文都使用GRU作为发生器,有线电视新闻网作为鉴别器。

(3)优化方法相同,即两部分交替优化

(4)评价是相同的,即评价均方误差(MSE)的推荐性能,评价鉴别器的准确度,表明生成器已经学会生成相关评论。

(5)这两篇论文中使用的符号和公式看起来非常相似

考虑到对抗训练在最近的文献中非常流行,尽管观点可能相似,但在SIGIR 2019和RecSys 2018的论文之间有大量的文本重叠,这是值得怀疑的。

例如,以下两个例子:

(1)Sigir 2019论文第1节:“深度合作神经网络(Deep Conn)利用两个卷积神经网络之上的因式分解机器模型,基于评论文本对用户-项目交互进行建模。”

(2)RecSys 2018论文第2节:“深度合作神经网络(deep conn)”“我认为这是剽窃的最明显迹象。” 如果你用“完全匹配”在谷歌上搜索这个句子,你会发现这个句子只被这两篇论文使用。 很难相信《SIGIR 2019》一书的作者没有阅读《2018年经济学人》一书,会写出完全相同的句子。

给出另一个例子:

(1)Sigir 2019论文第2.1节:

解码器使用一个GRU,它一个单词一个单词地迭代产生评论。特别是,在时间步长$t$时,GRU首先将前一时间步长的输出表示$z_{ut-1}$映射到$ k $-维向量$y_{ut-1} $中,并将其与$\bar{U_{u}}$连接以生成新向量$y_{ut}$。最后,$y_{ut}$被馈送到GRU,以获得隐藏表示$h_{t}$,然后$h_{t} $乘以输出投影矩阵,并通过文档词汇表中所有单词的软max来表示问题(recsys 2018论文第3.1.1节:

用户评论解码器利用单个解码器GRU迭代地逐词生成评论。在时间步骤$t$,解码器GRU首先将前一时间步骤的输出字$y_{i,t-1}$嵌入到mathcal{R}^{k}$的相应字向量$x_{i,t-1 } \中,然后将其与用户文本特征向量$\ widetilde{U_{i}}连接。级联向量被提供作为解码器GRU的输入,以获得隐藏激活$h_{t} $。然后隐藏激活乘以输出投影矩阵,并通过词汇表中所有单词的软最大值来表示给定当前上下文的每个单词的概率。输出字$y_{i,T } $ attimestep $ t $是从softmax给出的多项式分布中完成的。“

在这个例子中,《SIGIR 2019》的作者替换了文章中的一些短语,因此这两段并不完全相同。 然而,我认为这两段之间的相似之处仍然表明《SIGIR 2019》的作者在撰写自己的论文之前一定读过《2018年回顾》。

我不打算列出这两篇论文的所有重叠部分,但是让我们来看看最后一个例子:

评论$r$的每个单词被映射到相应的单词向量,然后与用户特定的向量连接。请注意,在第2.3节的对抗训练中,特定于用户的向量与辨别器的参数一起学习。级联矢量表示随后由卷积层处理,接着是最大汇集层和完全连接的投影层。有线电视新闻网的最终输出是一个sigmoid函数,它将概率归一化为$[0.1]$ ',(recsys 2018年论文第3.1.2节:

"首先。评论中的每个单词被映射到相应的单词向量,然后该单词向量与标识用户信息的用户特定向量相连接。特定于用户的向量在训练期间与其他参数一起学习。级联向量表示随后由卷积层处理,接着是最大汇集层和完全连接层。最终的输出单位是sigmoid非线性,它将概率压缩为$[0,1]$区间。'

有一句话(‘相关矢量演示者是.“完全连接的投影层”)这在两篇论文中是完全相同的。 此外,我认为将用户特定的向量与注释中的每个单词向量联系起来是一个非常不直观的想法。 我认为不同研究小组的想法在这些细节上不会相同。 如果我是作者,我会将用户特定的向量连接到最终投影层之前的层,因为这可以节省计算成本,并会导致更好的泛化。

作为信息检索领域的新人,我不确定这种情况是否应该被视为剽窃。 然而,我的教授告诉我,SIGIR会议是国际关系界的主要会议,我认为这篇论文永远不应该在像SIGIR这样的高层会议上发表。

让我感觉更糟的是,这篇论文的两位作者,荷兰马斯特里赫特大学的迪米特里斯拉菲迪斯和瑞士提契诺大学(USI)的法比奥克雷斯塔尼都是教授。 他们应该意识到剽窃在学术界是不可容忍的。

网友评论:我只想知道抄袭者最终会得到什么。

红迪网网友评论:

那家伙:嗯,他们的学术生涯结束了,太好了!但是有趣的是,怎么会没有自动找到它的方法呢?

恩塔尔科:我一直想知道抄袭者会怎么样。 我审查的第一篇论文是剽窃。我告诉了交流中心,但后来我什么也没听到。 据我所知,剽窃的论文将被列入黑名单 不一定是永久性的,通常是几年

杀戮者:是你吗,西拉伊?(互联网上的人工智能老师,因为涉嫌剽窃论文和黑人学生而受到攻击)

sid__:随着会议规模和提交论文数量的扩大,我想知道剽窃是否会成为(或已经成为)一个更严重的问题?使用机器学习来检查剽窃可能更可靠。

:他们甚至没有引用第一篇论文(增加了侮辱) 这是犯罪.

sparkkid1234:我认为他们不敢 真正的引用肯定会被视为剽窃。

hivesteel:我没有参加这个会议,但我认为我参加的所有会议和期刊都有自动检测剽窃的工具。 我肯定他们的效果并不令人满意,但理论上应该明确标出完全匹配。

参考链接:

本文从微信公众号:新智元开始 文章内容属于作者个人观点,不代表贺勋的立场。 投资者应根据这一原则自行承担风险。

(责任编辑:朱莉娅HN003)

-