雷锋网 AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作?雷锋网 AI科技评论将文章编译整理如下:
目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加。虽说Kaggle是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,或许能帮到你!
从“Datasets”页面搜索
大多数时候,我更喜欢打开“Datasets”页面搜索数据集。你可以点击Kaggle主页顶部的Datasets标签直达这个页面。
数据集搜索
在Datasets页面用搜索框搜索和在页面顶部搜索不同,你将能在页面上看到所有的搜索结果。
搜索小技巧
我写这篇文章的时候,Kaggle上的搜索已经支持一些额外的语法了,你可以通过下面的一些限定进行更精确的搜索。
“”:用双引号把搜索文本括住之后就可以进行精准搜索。例如搜索“巧克力蛋糕”,将会得到关于巧克力蛋糕的结果,而不会出现巧克力棒或红丝绒蛋糕。
+:将两个搜索词用加号连接,中间不要出现空格,将得到含有第一个词和第二个词的搜索结果。搜索“巧克力+蛋糕”将会得到同时包含巧克力和蛋糕的结果,而不会非得是巧克力蛋糕。
|:在两个搜索词之间插入这个符号,将得到有第一个词或第二个词的搜索结果,例如搜索“蛋糕|巧克力”将会得到有蛋糕或巧克力的结果。
*:如果你正在搜索的东西具有多种拼写方式,可以使用*进行搜索。例如搜索“choc*”,结果中将会出现以"choc"开头的关键词,比如"choclate"、"chocked"或是"chockablock"。
-:在搜索词前面加上减号将得到不包含该词的结果。例如搜索"蛋糕-巧克力"将会得到与蛋糕相关的结果,但会屏蔽掉所有带有巧克力的结果。
在搜索结果中进行更细致的查找
如果你搜索出来的结果太多了,这时浏览器中的页面搜索功能将起到很大作用。在大多数web浏览器中,你可以键入ctrl+f(在Mac上是cmd+f),然后在出现的方框中输入你想要更进一步搜索的文本。
将结果分类
你可以通过不同的方式将搜索结果分类:
热度:这是默认的排序方式。热度取决于很多因素,包括在一段时间内总的受欢迎程度和活跃度的增长情况。
得票数:这个排序取决于搜索结果的得票情况。
更新时间(我比较推荐这种排序方式):这种排序是基于最近更新(创建或增加新版本)的时间,这是我个人最喜欢的排序方式。其他人可能更倾向于流行的、比较老的数据集,而我更想找到一些新的数据集。而且,我还发现了一点,近期更新过数据集的发布者更有可能回复大家的提问、对kernel作出评论。
近期活跃度:这种排序方式取决于近期用户是否与数据集有过交互,比如对数据集进行评价、启动或运行kernel。
相关度:这种排序方式取决于搜索结果与查询词的相关程度。
精选数据集与所有数据集
默认情况下,Datasets页面只会显示精选数据集,精选数据集是由Kaggle团队成员手工挑选的,有良好的文件记录、已经被清洗过并且随时可以使用。不过,并不是所有的数据集都是精选数据集,一些高质量的数据集可能还没有被精选。如果你想看到所有数据集,可以点击页面上“精选”旁边的“所有”选项卡。在选择所有数据集之后,可以通过数据集的标题旁是否有灰色的精选标签来分辨是否为精选数据集。
数据集标签
另一种查找数据集的方法是使用标签(相对较新的特性)。你可以通过两种方式搜索特定的标签。第一种方法是单击数据集列表或数据集页面上的标签,这将返回一系列带有匹配标签的数据集列表。第二种是在搜索框中搜索标签。你可以在你搜索的词后面加上用单引号括住的tag:标签名,即搜索词tag:标签名的形式,如果标签中有空格,记得打出来。
tag:'食物和饮品':搜索带有食物和饮品标签的数据集
tag:'因特网'::搜索带有因特网标签的数据集
有一些标签涵盖了很广泛的主题,数据发布者给自己的数据贴上这些标签,让它们更容易被发现。现在用户还没有办法添加自己的独一无二的标签,我建议大家可以通过点击搜索结果中的标签来进行搜索,而不是自己输入文本来进行搜索,试图猜测某个标签是否存在。
使用Kaggle主页顶部的搜索框来搜索
只有在这种情况下我才会使用Kaggle页面顶部的搜索框:搜索那些我知道已经存在的数据时。顶部的搜索框很方便,但在进行更深入的搜索时,我还是更倾向于在Datasets页面。
使用Kaggle页面顶部的搜索栏,你将不会得到包含所有搜索结果的页面,只会得到排名前十的搜索结果列表。如果你想快速查找一些东西,这还是很方便的。如果你搜索的是数据集,你可以在关键词之后加上in:datasets,这样会使你的搜索更精确。
这些差不多就是我给大家在kaggle上找数据的建议!如果你想在kaggle上找一种特定类型的数据,但是一直找不到,记住,你随时可以把自己的数据传上去。
雷锋网 AI科技评论