KDD 2019 投稿要求出炉：结果出炉前不得发表 arXiv ，鼓励公开研究代码和数据

2019/01/17 09:30

雷锋网 AI 科技评论按：作为世界数据挖掘领域最高级别的国际会议，ACM SIGKDD 在近期发布了 2019 年度的征稿通知。通知表明会议今年采取双盲审制，结果出炉前投稿者不得擅自将论文发布于 arXiv 等平台上。此外，只有那些在文章中公开研究代码和数据的论文才有资格竞选「最佳论文」一奖。

KDD 2019 投稿要求出炉：结果出炉前不得发表 arXiv ，鼓励公开研究代码和数据

按官网最新发布的科研类（Research）征稿通知表明，今年的大会将采取双盲审核制，所有提交论文必须严格按照相关规定进行撰写，不得包含作者姓名和附属机构信息。通知中特别强调，在投稿截止以前或在投稿审核过程中以技术报告等形式对外公开（尤其是 arXiv）发表的文章，将会被大会拒稿。

KDD 2019 投稿要求出炉：结果出炉前不得发表 arXiv ，鼓励公开研究代码和数据

内容截自官网

至于偏重实际问题解决的应用数据科学类（Applied Data Science Track）征稿则不作此要求。

KDD 2019 投稿要求出炉：结果出炉前不得发表 arXiv ，鼓励公开研究代码和数据

内容截自官网

今年官网将「可重现性」作为重点列为「重要政策」的首条，鼓励作者们在文中公开研究代码和数据、汇报方法在公开数据集上的实验结果，并尽可能完整描述所使用的算法和资源。为了培养共享风气，KDD 2019 规定只有在文章最后额外提交两页体现「可重现性」内容的论文，才有资格竞选「最佳论文」一奖。

无独有偶，另一顶级人工智能会议 ICML 今年同样做了类似规定。

KDD 2019 投稿要求出炉：结果出炉前不得发表 arXiv ，鼓励公开研究代码和数据

内容截自官网

至于选题（科研类）方面，KDD 今年的推荐选题范围包括：

大数据：用于文本和图形分析、机器学习、优化、并行和分布式数据挖掘（云+map-reduce）系统、作用于大数据的新颖算法和统计技术等。
数据科学：分析科学和商业数据、社交网络、时间序列算法；挖掘序列、流、文本、网络、图形、规则、模式、日志数据、时空数据、生物数据；推荐系统、广告计算、多媒体、金融和生物信息学等。
基础研究：模型和算法、渐近分析；模型选择、降维、关系/结构化学习、矩阵和张量方法、概率和统计方法；深度学习；流形学习、分类、聚类、回归、半监督和无监督学习；个性化、安全和隐私和可视化等。

那些在新兴主题上富有灼见的论文以及在推动技术研究上具有重大贡献的应用型论文，也同样受到科研类征稿委员会的欢迎。

有投稿 & 参会需求的同学划重点了，今年的 KDD 大会将于 2019 年 8 月 4 日——8 日在美国阿拉斯加州安克雷奇市举行，具体投稿时间安排如下：

投稿截止日期：2019 年 2 月 3 日
投稿接收通知：2019 年 4 月 28 日
论文定稿提交：2019 年 5 月 17 日

更多详尽的 KDD 2019 征稿要求，可自行参阅：

征稿要求
https://www.kdd.org/kdd2019/calls/view/kdd-2019-call-for-research-papers
论文提交网址
https://easychair.org/conferences/?conf=kdd19

最后，为了让大家能够更直观地了解 KDD 大会在科研类论文接收上的喜好，进而提高投稿命中率，雷锋网 AI 科技评论在此为大家整理了一份包含 KDD 大会历年（2016——2018）科研类论文录用情况、论文主题分布以及最佳论文的信息清单。此外，我们还转载了一篇伊利诺伊香槟大学在读博士生 Bihan Wen 关于顶会投稿写作技巧的知乎回答，希望能对大家有所帮助。

附录1：KDD 历年接收论文情况

【2016年】

科研类论文录用情况：

审核总数为 784 篇，收录 142 篇。

接收论文主题分布：

内容整体更偏重实际应用中所产生的大规模数据和非结构化数据，偏重解决实际问题。

Research Track 最佳论文：

FRAUDAR: Bounding Graph Fraud in the Face of Camouflage

作者：Bryan Hooi, Hyun Ah Song, Alex Beutel, Neil Shah, Kijung Shin, Christos Faloutsos（全来自 Carnegie Mellon University）

论文链接：http://www.cs.cmu.edu/~christos/PUBLICATIONS/kdd16-fraudar.pdf

摘要：根据用户和他们评论的产品，或跟随者与被跟随者的偶图信息，我们应当如何识别虚假评论或跟风评论？现存的欺诈检测方法（谱检测等）试图识别结点的密集子图表，这些结点与保留下来的图表保持较少的联系。这些欺诈者能够使用「伪装」手段，即通过用真诚的目标增添评论或跟随评论，并使得这些评论看起来「常态化」来规避这些检测方法。更为糟糕的是，有些欺诈者利用诚实用户的「黑客账户」，这种伪装手段确实是有组织的。我们研究的聚焦点在于发现以伪装手段或黑客账户存在的欺诈者。我们提出 FRAUDAR，一种用于 (a) 抵制伪装手段，(b) 提供欺诈者有效性的上限，(c) 能够有效应用于真实数据的算法。各种各样攻击条件下获得的实验结果表明，FRAUDAR 在检测伪装性欺诈和非伪装性欺诈的精度方面都优于其最大竞争算法。此外，在运用推特跟随者-被跟随者 14.7 亿边缘图表的真实实验中，FRAUDAR 成功地检测出一个包括 4000 多被检测账户的子图表，其中大多数拥有推特账户的人表示他们用的是跟随者购买的服务。

【2017年】

科研类论文录用情况：

审核总数为 748 篇，收录 130 篇，包括 64 篇 oral，66 篇 poster，录用率分别占 8.6% 及 8.8%。

接收论文主题分布：

论文中最受欢迎的话题是：时间与时序数据（temporal and time-series data），图算法（graph algorithms）。

Research Track 最佳论文：

Accelerating Innovation Through Analogy Mining

作者：Tom Hope (Hebrew University of Jerusalem);Joel Chan (Carnegie Mellon University);Aniket Kittur (Carnegie Mellon University);Dafna Shahaf (Hebrew University of Jerusalem)

论文链接：https://arxiv.org/pdf/1706.05585.pdf

摘要：大型概念资源库（如美国专利数据库）可以向人们提供类似问题的解决方案的灵感，从而加速创新和发现。然而在这些庞大而凌乱的资源库中发现有用的信息，对于人类或自动化技术来说仍是一个挑战。传统的解决方法有，具有高度关系结构（如谓词演算表征）但非常稀疏，且成本很高的人工创建的数据库。更为简单的机器学习/信息检索相似性度量可以扩展到大型的自然语言数据集，但很难解释结构相似性，而这又是类比的核心。这篇论文探讨了学习更简单的结构表征的可行性和价值，特别是「问题模式」，它规定了产品的目的，以及实现该目的的机制。论文中的方法结合众包和 CNN，提取产品描述中的目的和机制向量表示。论文表明，这些学习到的向量能比传统的信息检索方法，以更高精度和更快速度找到类比。在一个思想实验中，模型检索的类比能力提升了产生创意的可能性。研究结果表明，学习和利用较弱的结构表征，是大规模计算类比的有效方法。

【2018年】

论文录用情况：

审核总数为 983 篇，收录 178 篇，包括 104 篇 oral，74 篇 poster，录用率分别占 10.9% 及 7.5%。

接收论文主题分布：

深度学习仍占主流，不过监督及无监督学习和迁移学习等领域呈现新高。

KDD 2019 投稿要求出炉：结果出炉前不得发表 arXiv ，鼓励公开研究代码和数据

Research Track 最佳论文：

Adversarial Attacks on Neural Networks for Graph Data

作者：Daniel Zügner (Technical University of Munich); Amir Akbarnejad (Technical University of Munich); Stephan Günnemann (Technical University of Munich)

论文链接：https://arxiv.org/pdf/1805.07984.pdf

摘要：应用到图的深度学习模型已经在节点分类任务上实现了强大的性能。尽管此类模型数量激增，但目前仍未有研究涉及它们在对抗攻击下的鲁棒性。而在它们可能被应用的领域（例如网页），对抗攻击是很常见的。图深度学习模型会轻易地被欺骗吗？在这篇论文中，我们介绍了首个在属性图上的对抗攻击研究，具体而言，我们聚焦于图卷积模型。除了测试时的攻击以外，我们还解决了更具挑战性的投毒/诱发型（poisoning/causative）攻击，其中我们聚焦于机器学习模型的训练阶段。

附录 2 ：《如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?》

@ Bihan Wen（知乎 ID）

其他作者都说得很好，我认为他们说的都是很正确地写作之「道」。

我这里再补充几点我的体会，可以说是一些写作之「术」。

虽然说只是一些技巧，但亲测是对最后文章中与不中密切相关。在首先掌握了正确的「道」以后，其实成败往往就在「术」上面。

首先声明，我的研究领域是图像/视频/视觉/机器学习这一类，所以我的经验有些可能仅仅适用于这个圈子。

这些内容，我是同时从当作者和当审稿人两边的经验总结而来的。

兵法讲，打仗需要知己知彼。投稿中与不中，其实是取决于与审稿人的博弈。诸君切记....

"If you know the enemy and know yourself, you need not fear the result of a hundred battles.

If you know yourself but not the enemy, for every victory gained you will also suffer a defeat.

If you know neither the enemy nor yourself, you will succumb in every battle.」

-- Sun Tzu, The Art of War, 500bc

第一个术，是写作思路的正确认识和调整。

我认为计算机顶会，和 IEEE TRANS 的投稿思路，其实略微有所不同：

投计算机领域顶会的思路，之所以会不同于 IEEE TRANS，这里面的区别主要是因为审稿制度不太一样：顶会的审稿人一般会要求在很短时间内，提交很多份稿件的审稿意见。这就意味着，他们可能很难非常仔细地去读你文章的内容，甚至更可能出现审稿人的专业并不是十分匹配文章领域这种现象。而 IEEE TRANS 一般会给审稿人相对宽松一点的审稿时间，我有时候在 deadline 前没审完，还可以找 AE 要求延期。而且 IEEE TRANS 的审稿人，在看完文章的 abstract 之后如果发现研究兴趣不想关，是可以拒绝审稿的。所以我感觉这样找到匹配的审稿人的概率更大，一般出来的 comment 也就更可能说中你文章的要害。
基于此，我认为投顶会更需要注意，把你想要表达的 message，要简洁、直接、突出，在最显眼的地方总结并告诉审稿人，甚至要做到 spoon feeding。之后你整篇文章的正文都是要为了这几个主要 message（你的 novelty, contribution, highlight 等等）而服务，做说明，或者是提供证据支持。把文章做得直接了当，因为顶会在投稿之后，就一轮 rebuttal 你可以和审稿人交流，而且很大概率审稿人不太会修改之前的意见。所以第一轮审稿人是不是能很快抓到你的文章主旨，对他们的印象分非常重要。你方便审稿人，审稿人也就方便你。
投 IEEE TRANS 这类就有点不太一样，因为大多数时候，你初投稿只要质量过关有干货，都不太会被直接 rej，拿到 major rev 还是有机会通过修改最后被接受。所以你的侧重点是要尽量让内容充实，这也可以增加你文章的分量以及影响力。本来期刊的意义，就是需要把你的工作做完整做透，然后再总结出一套系统化的结论，所以刊物论文允许你自由发挥的空间就更多，你可以表达更加复杂更全面的 message。而会议论文，你需要做取舍，多余的东西不行就扔 supp，不要什么都往正文放，正文需要突出重点。

第二个术，是对自己这个工作的定位，以决定要去投哪一个级别的刊物。

我一般会从三个纬度来衡量一个工作的质量：（1）创新性，（2）理论证明度，（3）实验效果。
如果是一般 IEEE TRANS 这个档次，比如 TIP, TSP 这类的接受论文，我认为这三点要占两点才有中的希望。如果三点都有都很强，那么恭喜你，你可以很充容悠然地写一篇 paper，然后期待 review 期间和审稿人谈笑风生了。如果这三点只有两点很强，那么你就需要注意一下写作技巧了：要不你就要把你的这两个主要卖点给做强，比如你的实验结果是 state-of-the-art，你就要搞到 superior result；要不你的创新性开天辟地，但是效果不足，那你就要说明这个 idea 在未来的工作中有很强的潜力；要不你的理论性很强，那么你就要说明，很多应用类的工作都需要你这个理论的支持，用以奠定基础。
基本上，如果你在创新性，理论证明度和实验效果中，能有两点很强，你都可以博一把 IEEE TRANS 这个级别的。如果你只有一点站得住脚，那么我觉得你还是应该理智地放弃，target 一个低级别的刊物比较好，因为面对无尽的 review，一方面会占用你大量时间，一方面你的工作迟迟不能发表也会打击你的士气。
如果你的 target 是一些比较难中的 IEEE TRANS，比如 TPAMI，IJCV 这一类；或者你是打算投 CVPR，NIPS，ICML，KDD 这一类很难中的会，那么我认为一个合格应该需要占据我提到的全部三点。或者就算其中某一点可能比较弱，那么其他两点就需要很强，再外加一点运气。

第三个术，是关于实验部分：

我所在的领域，是很重视实验的可重复性。所以一般我审稿都会更 trust 那些在论文中，承诺会把代码公开的工作。
如果你的工作，对应的是一个在领域内的标准应用，比如图像分类，图像超分辨，等等，你一定要确保

你的对比算法 cover 了这个领域内最新，最流行，和效果最好的那几个。
你所用的数据库和实验设定，一定要是领域内大家所认定标准的。
你衡量结果的 metric 一定要是这个领域广泛接受的。
你的算法一定要在 fair 的情况下和其他算法对比。

因为这四点任何一个没做对，都会有机会被 reviewer 质疑，然后要求修改实验。我认为修改实验可能是文章修改里面最痛苦的一部分。。。所以千万要一开始就防患于未然。

个人认为这些都是很适用的技巧，希望对你有帮助。

先写这些，如果大家感兴趣，我再来补充。

GL 勇士们！

链接：https://www.zhihu.com/question/22790506/answer/316005175

来源：知乎

附录 3 ：ACM SIGKDD 简介

ACM SIGKDD（国际数据挖掘与知识发现大会，Conference on Knowledge Discovery and Data Mining,，简称 KDD）是世界数据挖掘领域的最高级别的国际会议，由 ACM（Association of Computing Machinery，计算机学会）的数据挖掘及知识发现专委会（SIGKDD）负责协调筹办，被中国计算机协会荐为 A 类会议。自 1995 年以来，KDD 已经以大会的形式连续举办了二十余届全球峰会，作为数据挖掘领域最顶级的学术会议，KDD 大会以论文接收严格闻名，每年的接收率不超过 20%，因此颇受行业关注。

雷锋网 AI 科技评论