开放数据源-社会、经济、地理、空间,数据科学家的宝库

开放数据源(一),全球地理、自然、经济数据等。

开放数据源(二),科研、论文,生物、网址、机器学习等。

编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/
  • Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
  • Common crawl:建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
  • EDRM File Formats Data Set:由381个文件夹200种文件格式组成。

  • Apache Mahout TLP:项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

  • StatLib,卡内基梅隆大学数据档案。
  • STATOO Datasets part 1和 STATOO Datasets part 2,Time Series Data Library。
  • Visual Analytics Benchmark Repository。
  • UCI KDD Database Repository:适用于机器学习和知识发现研究的大数据集。
  • UCI Machine Learning Repository.
  • UCR Time Series Data Archive:提供数据集、论文、链接和代码。

  • EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

  • ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
  • DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
  • theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
  • Project Gutenberg:提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
  • Million song data set:与tracks 和艺术家有关的数据。
  • AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
  • GeoDa Center:地理和空间数据。
BigML big list of public data sources.
  • Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。
  • Bitly 1.usa.gov data:匿名点击链接。
  • Canada Open Data:有许多政府和地理空间的数据集的试点项目。
  • Causality Workbench:数据存储库。
  • Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。
Data Source Handbook:公开数据指南。
  • Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。
  • DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
  • Datamob:可以很好利用的公开数据。
  • DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心。
  • DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。

  • EconData:大量经济学的时间序列,由许多美国政府机构编制。

  • Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员。
  • Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
  • Europeana Data:FEDSTATS:一个美国统计资料的综合资源以及更多。
  • FIMI repository for frequent itemset mining:工具和数据集。
  • Financial Data Finder at OSU:大型财务数据集目录。
  • GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”。
  • GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,用于基因表达数据的浏览,查询和检索。
  • Google ngrams datasets:来自数Google扫描的百万书籍文本。
  • Grain Market Research:财务数据,包括股票、期货等。
  • Hilary Mason research-quality Big Data sets: 收集许多文本和图片数据集.

  • HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

  • ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文。
  • Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
  • Investor Links:包含财物数据。
  • KDD Cup center:数据、工作表和结果。
  • Kevin Chai list of datasets:文本、SNA和其他领域。
  • KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
  • Linking Open Data 工程,免费向所有人提供数据。
  • MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究。
  • ML Data:欧盟Pascal2网络数据储存库。
  • National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
  • National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
  • Open Data Census:评估世界各地的开放数据的状态。
  • OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐。

  • Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。

  • Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库。
  • Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
  • qunb:一个用来发现和可视化的数据资料的平台。
  • Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
  • SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据。
  • Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据。
  • SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

  • Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。

  • Wolfram Alpha disease and patient level dat.
  • Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛。
  • Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究。

开放数据源(三),中国,经济为主。

一、政府类

  • 1、国家统计局,如果你需要一应俱全的最新宏观经济数据,一个宝贵的来源是国家统计局提供的《进度统计数据》,网址是http://www.stats.gov.cn/tjsj/。 如果想要从数据收集之日起的完整国民经济核算资料,权威的来源是国家统计局国民经济核算司出版的《中国国内生产总值核算历史资料》(1952-1995) 和《中国国内生产总值核算历史资料》(1996-2002)。在这两本年鉴里,提供了核算中国GDP的详实数据。特别是《中国国内生产总值核算历史资料》 (1996-2002)提供了电子版,电子版数据不仅提供1996-2002年的详实数据,还大致回溯了1952-1995年间的数据,非常好用。如果你想要从数据收集之日起的较为完整的宏观经济数据,《新中国五十年统计资料汇编》和《新中国55年统计资料汇编》是一个不错的选择。遗憾的是,它们都没有提供电子版,但后者可以在中国资讯行下载。
  • 2、工业和信息化部, 较多数据在此发布,尤其是有关工业运行及信息化相关数据。
  • 3、中国人民银行, 中国金融市场政策及运行相关数据。
  • 4、银监会,银行金融相关数据。
  • 5、中国海关,中国进出口相关数据。
  • 6、国家知识产权局,专利相关查询。
  • 7、中国证监会,相关政策及招股书披露平台,以及拟上市公司排队每周披露。
  • 8、上海市政府数据服务网, 上海市政府数据服务网(dataShanghai)集中发布政府部门及第三方机构的数据产品以及数据应用,数据将涉及经济、教育、卫生、交通、地理、法 律、规划等。上海市政府数据服务网(dataShanghai)中,政府部门提供的数据产品目前都是免费的,保留收费的权利。所有的数据与服务都是无需注册可以直接使用的。搜索到需要的数据标题后,点击进入详细页面,可以看到下载图标。就可以按照需求来下载。
  • 9、上海公共研发平台,可以注册,人工审核,内包含较多数据库。

二、综合类

  • 1、中国经济数据库,司尔亚司数据信息有限公司(CEIC)成立于1992年,由经济学家和分析师组成,提供有关世界发达经济和发展中经济的最广泛、最精确的信息。作为欧洲货币机构投资公司的一个产物,我们已经成为世界各地经济学家、分析师、投资者、企业以及院校经济和投资研究的首选。
  • 2、中国经济信息网,行业研究报告,宏观数据较全。中国经济信息网简称中经网,是国家信息中心组建的、以提供经济信息为主要业务的专业性信息服务网络。
  • 3、中国资讯行数据库,收费宏观经济数据。
  • 4、国研网, 数据较为权威,有些报告可以一看。
  • 5、中国国家图书馆

三、金融类

证券

金融

  • 1、万德数据库(金融) 中国大陆领先的金融数据、信息和软件服务企业,Wind资讯的客户包括超过90%的中国证券公司、基金管理公司、保险公司、银行和投资公司等金融企业;在 国际市场,已经被中国证监会批准的合格境外机构投资者(QFII)中75%的机构是Wind资讯的客户。同时国内多数知名的金融学术研究机构和权威的监管 机构也是我们的客户,大量中英文媒体、研究报告、学术论文等经常引用Wind资讯提供的数据。 定位:高端机构客户 机构市场占有率:80%
    优势:(1)数据表结构还是比较科学,而且还有很多不同工具,例如WACC计算小插件、贝塔计算小插件、另外还有直接在EXCEL估值的模版。 (2)用户体现非常好,界面体验一流,符合中国人的使用习惯。 (3)特色数据库有中国A\B股数据、基金数据、债券数据和期货数据都非常突出。 (4)资讯内容结构严重模仿BLOOMBERG (5)支持API插件 缺点 (1)其实我想突出数据质量只是一般,有一些还是很多错误、例如指数的数据库的错误和雅虎Finance几乎是一样的。 (2)世界指数等国际数据库还是一般。 (3)主要是提供资讯,下单通道没有Bloomberg没有那么强大。 (4)行业数据严重缺乏,而且质量真的不太好。
  • 2、恒生聚缘(金融) 这个数据库其实也是定位为机构的,还有一套完全的信息技术系统解决方法。但是这个数据库不太出名,但是这是我用过价格便宜然后质量非常高的数据库。 优点:
    (1)界面设计虽然没有万德那么花哨,但是非常实在,非常实用,而且很方便。数据结构也科学,不会出现过多冗余的状况。 (2)价格比万德便宜,但是性价比挺高的。 (3)A\B股数据是强项 (4)研究报告更新速度比较快,比较全面、质量比万德好。 (5)数据质量过硬。
  • 3、CSMAR数据库(金融) 定位:中国80%的学术机构和香港高校都是使用CSMAR,美国大部分的大学例如沃顿等是使用CSMAR数据库 优点 (1)公司金融数据是强项,非常强大和齐全,我经常使用哈哈。 (2)数据库做学术还是比较全面的。年份比较早的数据都会有收录。 (3)高频数据是全国第二好。 (4)公司治理数据比较好,详细,包括公司控制链图均有收录。 缺点: (1)由于是学术数据库关系,更新速度不够快。机构是绝对不会使用的。 (2)数据结构有些设计是有问题。 (3)缺乏资讯类的数据。 (4)行业数据是更新速度是所有数据库中最慢的,建议不要使用行业数据库。
  • 4、锐思数据库(金融) 定位:学术机构 特点: 基本上是Copy外国的数据库结构,而且数据字段不够丰富,建议不要使用。
  • 5、巨潮数据库(金融) 深交所旗下的一个数据库公司,有这个得天独厚的优势. (1)交易所的公告、董事会决议总是最快可以知道。 (2)异动数据库中的异动记录肯定不止前十名,获取还能看到前15名,哈哈! 缺点 (1)数据结构太老的了,严重有问题,见过5个字段来做表主键的,无语。 (2)好像异动数据库,把所有的债券、股票、衍生证、涡轮全部放在一起,结果有一次踩地雷,把债券和股票都提了出来,原因是股票的代码=债券的代码,真的囧死了。 (3)异动数据中的计算方法严重不正确,如果你查阅交易所对涨跌幅偏离值的计算方法,你会发现在2006年8月4日前后会非常不同。结果又一次让我踩到地雷。 (4)数据质量一般,算不上好。
  • 6、清科数据库(金融) 清科研究数据库包含风险投资,私募股权,创业者相关投资,私募,并购,上市数据库,范围涉及投资机构,企业,投资人物相关TMT、传统行业、清洁技术、生技健康等行业市场事件用的比较少,专做Pe,风险投资数据的。
  • 7、人大经济论坛 http://bbs.pinggu.org/forum-55-1.html 有许多数据叫卖,提供大量的可供下载的经济学资源,而且还有许多有用的连接。当然,这是一个免费的网站,但下载某些资源时,说不定要求一定的所谓积分限制。这个强力推荐~~

四、互联网类

五、自然卫生类

开放数据源(四),遥感、地理信息