盘点76个当下全球免费、优质机器学习数据集获取资源

一、通用数据集平台（多领域多类型）

Kaggle Datasets
https://www.kaggle.com/datasets
- 大型社区平台，海量公开数据，竞赛用数据集丰富
Google Dataset Search
https://datasetsearch.research.google.com/
- Google推出的数据集搜索引擎，覆盖各领域
UCI Machine Learning Repository
https://archive.ics.uci.edu/ml/index.php
- 经典机器学习数据集仓库，结构化数据丰富
AWS Open Data Registry
https://registry.opendata.aws/
- 亚马逊开放数据平台，含气象、基因组等大数据集
Data.gov
https://www.data.gov/
- 美国政府开放数据门户，涵盖社会、经济、健康等领域
Microsoft Research Open Data
https://msropendata.com/
- 微软研究院发布的多领域数据集
OpenML
https://www.openml.org/
- 机器学习数据集、任务及实验管理平台

ImageNet
http://www.image-net.org/
- 1400万+标注图片，常用于图像识别训练
COCO (Common Objects in Context)
https://cocodataset.org/
- 目标检测与分割常用大规模数据集
Open Images Dataset
https://storage.googleapis.com/openimages/web/index.html
- Google开源，包含900万张带标签图片
CIFAR-10 / CIFAR-100
https://www.cs.toronto.edu/~kriz/cifar.html
- 小型图像分类数据集，10类或100类
MNIST
http://yann.lecun.com/exdb/mnist/
- 手写数字识别经典数据集
Fashion-MNIST
https://github.com/zalandoresearch/fashion-mnist
- 衣物类别图像数据集，替代MNIST的时尚版
LFW (Labeled Faces in the Wild)
http://vis-www.cs.umass.edu/lfw/
- 人脸识别数据集
Stanford Dogs Dataset
http://vision.stanford.edu/aditya86/ImageNetDogs/
- 120个犬种的狗图片
CelebA
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- 名人脸部属性数据集

Wikipedia Dumps
https://dumps.wikimedia.org/
- 维基百科全文数据，用于预训练模型
Common Crawl
https://commoncrawl.org/
- 大规模网页抓取数据
GLUE Benchmark
https://gluebenchmark.com/
- 多任务语言理解评测数据集
SQuAD (Stanford Question Answering Dataset)
https://rajpurkar.github.io/SQuAD-explorer/
- 问答系统数据集
IMDB Movie Reviews
https://ai.stanford.edu/~amaas/data/sentiment/
- 影评情感分析数据集
Yelp Reviews
https://www.yelp.com/dataset
- 商业评论数据集
TREC Question Classification
https://cogcomp.seas.upenn.edu/Data/QA/QC/
- 问题分类任务数据集

Awesome Public Datasets
https://github.com/awesomedata/awesome-public-datasets
Papers with Code Datasets
https://paperswithcode.com/datasets
Data World
https://data.world/
Figshare
https://figshare.com/
Zenodo
https://zenodo.org/
Open Data on AWS
https://registry.opendata.aws/

……（根据需求可进一步详细补充）