如何更快地获取一线论文及寻得科研灵感免费论文阅读渠道、arxiv-sanity简介、论文分区简介

十二月 03, 2019

随笔

当前设备屏幕尺寸过小，推荐使用PC模式浏览。

成文动机

科研的一大要点就是能够高效地获取论文，保持良好的论文阅读习惯才能在自己灵感枯竭时获得新的IDEA。

但是由于语言和本科教学等问题，实际上我发现我当初在这方面并没有得到过多的指导且举步维艰，和一些老师接触时，他们也只是反复跟我说——“去图书馆搜”、“自己搜”、“灵感你自己多看看就有了”、“IEEE或者EI”、“知网都有”…

一晃多年过去，现在回想起本科时这些老师的说法，总觉得滑稽而可笑：我知道要看啥？我知道要上哪找？知网的论文有多少算是前沿成果？怎么鉴别论文的质量？我什么都不知道，我只是一个小菜鸡啊。

我总想着，有没有更简单的渠道让我获得有质量又处于前沿的论文呢？最好还能免费，毕竟毕业之后很难再享受到学校的免费资源了。

—— 还真有，而且不难找。

论文获取渠道

相比于传统的IEEE、EI、中国知网、Google Scholar等，对于CV、人工智能、计算机和深度学习等领域，还有一个由康奈尔大学接管的 Open Access and pre-print 数据库——arxiv.org。

划重点：该数据库有两个关键词Open Access和 pre-print。用中文来说就是“免费”和“新”。

简单解释一下pre-print——词如其意，预印制；一篇论文从投稿到面世其实是一个很漫长的过程，你在ICCV等会议上看到的文章，很可能是别人半年前的成果。而“预印制”指的就是某篇已被某期刊或会议接受的论文(显然该论文还没有被正式确定将在哪一期刊物上刊出)，提前在一些科学数据库上发布。

你可能暂时无法给出该文章的引用，因为它还没被正式发表，但是作为科研成果的共享和你IDEA的来源，它是非常新的且有质量保证的(毕竟已被某个大刊审核接受了，刊出也只是时间问题)。

为什么推荐 arxiv 而不是 Google Scholar

上文中推荐了arxiv和Google Scholar，它们都是非常棒的引擎。但是我个人更偏向于arxiv。理由有三：

由于众所周知的原因，对arxiv的访问会更简单，虽然有时也会出现访问较慢的情形，但总体来说好过完全无法直接访问。
arxiv主打“预印制”，要知道论文哪怕是被正式接受之后也会有一些小修小改。在预印制阶段的论文可能会附带一些“奇奇怪怪”的东西，比如可以复现论文成果的代码的Github-URL等，在正式发布到纸质刊物上时有可能这部分内容因为排版等原因会被删去。我们搞CS的，最信奉的就是"talk is cheap, show me the code"。是驴子是马拉出来溜溜，有时候一些论文没有附带代码或者代码无法复现的，基本就可以不用细看了，论文数据美化造假是科研界共识，不可复现的论文成果都是垃圾成果。
够新，甚至有时比Google Scholar搜到的内容还要新。不过话说回来，后者更全，如果搞生物土木等专业的，也许Google Scholar会更实用一点。

arxiv-sanity

实际使用arxiv时，你会发现你虽然有了免费的优质论文获取渠道，但你依旧无法从论文的海洋中找到你要的内容。这时候就要用到arxiv-sanity了。

Github: https://github.com/karpathy/arxiv-sanity-preserver

你可以简单把它当作一个微信公众号，你在上面可以聚合你需要的内容、阅读流行的文章、ML模型基于SVM对你进行相似性文章推荐。

比起“机器之心”等真·微信公众号——二道信息贩子，你在这里拿到的都是未经过人工筛选和加工的一手资料，又新又香，想看啥全凭你的喜好。另外，注册极其简单，不需要手机不需要邮箱，仿佛回到2000年时两个字符串就能注册一个账号的美好开源时代。

目前，arxiv-sanity原生支持和收录了以下领域的文章，其它领域的文章可以参考上文给出的Github中的解决方案自己构建服务器。

cs.CV： Computer Vision and Pattern Recognition 计算机视觉与模式识别；
cs.CL：Computation and Language 计算语言学；
cs.LG：Learning 机器学习（计算机科学）；
cs.AI：Artificial Intelligence 人工智能；
cs.NE：Neural and Evolutionary Computing 神经与演化计算；
stat.ML：Machine Learning 机器学习（统计学）

论文|期刊分区

看论文时，论文的质量也是需要考虑的一大因素，在上文中简单介绍了arxiv-sanity，知道了它可以基于ML模型给你推荐相似和“流行”的论文。但有时候论文的“流行”并不等价于“高价值”，所以我们还需要借助IF(影响因子)来鉴别论文的水分。

我所接触比较多的，是JCR(Journal Citation Reports)中科院分区，也是国内高校的主要参考指标，常说的一区\二区\三区就是指这个中科院的分区表。而Q1\Q2等指的是汤森路透期刊分区，二者区别还是较大的。

计算机领域还有个CCF分区，也是国内高校的一个参考指标，当我们说A\B\C区时，指的就是它。

总的来说，目前来看中科院的一区论文质量还是要略胜于Q1论文。

Anyway，我较常用的是中国科学院文献情报中心，可能需要校内图书馆账号，但总体来说获取难度不大，比起知网良心太多。

当然还有以下网站：(时效性肯定比不上上面那个官网，但是胜在免注册和访问方便)

Last but not least，不是很推荐知网，尤其是CV/ML方向，最新成果往往都不会发布到中文期刊中自然也不那么容易被检索到——这点还是要怪“唯分区论”，明明机器学习领域有很多中国团队做得是非常顶尖的。

查看评论

1. 成文动机
2. 论文获取渠道
1. 2.1. 为什么推荐 arxiv 而不是 Google Scholar
2. 2.2. arxiv-sanity
3. 论文|期刊分区