如果你是一个学术达人,经常搜索学术论文,那你一定知道 arXiv 这个网站。如果你爱好数据科学,专注于机器学习,Kaggle 就会是一个非常好的选择。

arXiv 是一个始于 1991 年、目前用于收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本网站。arXiv 的存在是造就科学出版业中所谓开放获取运动的因素之一。现今的一些数学家及科学家习惯先将其论文上传至 arXiv,再提交予专业的学术期刊。无论你是在自身研究领域迅速成长的研究生,还是致力于用科研为公众提供服务的研究者,arXiv 这一丰富的信息库都可以为你提供重要、甚至难以置信的帮助。

Kaggle 则是全球最大的数据竞赛平台,也是一个主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,创建于 2010 年,并于 2017 年被谷歌母公司 Alphabet 收购。在 Kaggle 这个平台上,不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)和想要解决的问题丢上去,请平台上的数据专家来帮忙解答。Kaggle 允许用户查找和发布数据集,在数据科学环境中开发和构建模型,用户也可以与其他数据科学家和机器学习工程师合作或一起参加竞赛。

如今,为使得 arXiv 上的资源更易访问和获取,arXiv 和 Kaggle 要 “强强联合” 了。近日,康奈尔大学的研究人员在 Kaggle 上创建了一个免费、开放的 arXiv 数据集,该数据集含有 170 多万篇学术论文,用户可以从中获取论文标题、作者、类别、摘要和 PDF 版全文等。

打开网易新闻 查看精彩图片

(来源:Kaggle)

“将完整的 arXiv 数据集放在 Kaggle 上,可以在很大程度上增加 arXiv 上论文的阅读可及性,” arXiv 执行董事奥诺拉·普里萨尼(Eleonora Presani)在 arXiv.org 官方博客上表示,“公众也可以获取这些论文之外更多的知识,这些论文也将以机器可读的格式将 arXiv 背后的数据和信息向公众开放。”

此外,普里萨尼还表示,“arXiv 不仅仅是一个论文资料库,它还是一个知识共享平台。我们需要在呈现和解释这些知识的方式上不断进行创新,在这一点上,Kaggle 用户可以提供帮助。”

据 Kaggle 上的相关界面显示,arXiv 元数据集(Metadata)存储量已经高达 1.1 TB,且还在持续增长。在 JSON 格式的文件中,包含 arXiv ID、论文提交者、论文作者、论文标题、数字对象唯一标识符、论文摘要和版本等信息。

打开网易新闻 查看精彩图片

(来源:Kaggle)

这是一个包含 170 多万篇学术论文的 arXiv 数据集。开发者希望借此可以促进机器学习领域的发展,引导探索更丰富的机器学习技术,将多模态特性结合到趋势分析、推荐引擎、类别预测、共引网络、知识图谱构建和语义搜索接口等应用中。

目前,开发者已经更新了 5 个版本,arXiv 数据集内包含的论文数量正在逐步增长,涉及范围也越来越广。据 arXiv 官方博客显示,arXiv 数据将会以每周一次的频率进行更新。