大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能够找到合适的的数据源是一件非常重要的事情,获取数据的方式有很多种,不必局限。下面将从公开的数据集、爬虫、数据采集工具、付费API等等介绍。给大家推荐一些能够用得上的数据获取方式,后续也会不断补充、更新。
一、公开数据库
1.常用数据公开网站
2.政府开放数据
3.数据竞赛网站
竞赛的数据集通常干净且科研究性非常高。
二、利用爬虫可以获得有价值数据
这里给出了一些网站平台,我们可以使用爬虫爬取网站上的数据,某些网站上也给出获取数据的API接口,但需要付费。
1.财经数据
2.网贷数据
3.公司年报
4.创投数据
5.社交平台
6.就业招聘
7.餐饮食品
8.交通旅游
类似的还有同程、驴妈妈、途家等
9.电商平台
类似的唯品会、聚美优品、1号店等。
10.影音数据
11.房屋信息
12.购车租车
13.新媒体数据
14.分类信息
三、数据交易平台
由于现在数据的需求很大,也催生了很多做数据交易的平台,当然,出去付费购买的数据,在这些平台,也有很多免费的数据可以获取。
四、网络指数
五、网络采集器
网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。