一、通用数据集平台(多领域多类型)
- Kaggle Datasets
https://www.kaggle.com/datasets- 大型社区平台,海量公开数据,竞赛用数据集丰富
- Google Dataset Search
https://datasetsearch.research.google.com/- Google推出的数据集搜索引擎,覆盖各领域
- UCI Machine Learning Repository
https://archive.ics.uci.edu/ml/index.php- 经典机器学习数据集仓库,结构化数据丰富
- AWS Open Data Registry
https://registry.opendata.aws/- 亚马逊开放数据平台,含气象、基因组等大数据集
- Data.gov
https://www.data.gov/- 美国政府开放数据门户,涵盖社会、经济、健康等领域
- Microsoft Research Open Data
https://msropendata.com/- 微软研究院发布的多领域数据集
- OpenML
https://www.openml.org/- 机器学习数据集、任务及实验管理平台
二、图像数据集
- ImageNet
http://www.image-net.org/- 1400万+标注图片,常用于图像识别训练
- COCO (Common Objects in Context)
https://cocodataset.org/- 目标检测与分割常用大规模数据集
- Open Images Dataset
https://storage.googleapis.com/openimages/web/index.html- Google开源,包含900万张带标签图片
- CIFAR-10 / CIFAR-100
https://www.cs.toronto.edu/~kriz/cifar.html- 小型图像分类数据集,10类或100类
- MNIST
http://yann.lecun.com/exdb/mnist/- 手写数字识别经典数据集
- Fashion-MNIST
https://github.com/zalandoresearch/fashion-mnist- 衣物类别图像数据集,替代MNIST的时尚版
- LFW (Labeled Faces in the Wild)
http://vis-www.cs.umass.edu/lfw/- 人脸识别数据集
- Stanford Dogs Dataset
http://vision.stanford.edu/aditya86/ImageNetDogs/- 120个犬种的狗图片
- CelebA
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html- 名人脸部属性数据集
三、文本与自然语言处理数据集
- Wikipedia Dumps
https://dumps.wikimedia.org/- 维基百科全文数据,用于预训练模型
- Common Crawl
https://commoncrawl.org/- 大规模网页抓取数据
- GLUE Benchmark
https://gluebenchmark.com/- 多任务语言理解评测数据集
- SQuAD (Stanford Question Answering Dataset)
https://rajpurkar.github.io/SQuAD-explorer/- 问答系统数据集
- IMDB Movie Reviews
https://ai.stanford.edu/~amaas/data/sentiment/- 影评情感分析数据集
- Yelp Reviews
https://www.yelp.com/dataset- 商业评论数据集
- TREC Question Classification
https://cogcomp.seas.upenn.edu/Data/QA/QC/- 问题分类任务数据集
四、语音与音频数据集
- LibriSpeech
http://www.openslr.org/12/- 朗读英语音频语料库
- VCTK Corpus
https://datashare.ed.ac.uk/handle/10283/2651- 多说话人英语语音数据
- TED-LIUM
https://www.openslr.org/51/- TED演讲音频数据集
- Google AudioSet
https://research.google.com/audioset/- 大规模声音事件数据集
五、视频数据集
- YouTube-8M
https://research.google.com/youtube8m/- 视频分类大型数据集
- UCF101
https://www.crcv.ucf.edu/data/UCF101.php- 动作识别视频数据集
- Kinetics
https://deepmind.com/research/open-source/kinetics- 多类别视频动作识别数据集
六、结构化数据与其他类型
- Titanic Dataset (Kaggle)
- 经典分类问题数据集
- Adult Income Dataset (UCI)
- 收入预测数据
- MNIST Fashion
- 服装图片数据
- COCO Captions
- 图像对应描述文本
七、其他推荐数据集资源网站(共40+)
- Awesome Public Datasets
https://github.com/awesomedata/awesome-public-datasets - Papers with Code Datasets
https://paperswithcode.com/datasets - Data World
https://data.world/ - Figshare
https://figshare.com/ - Zenodo
https://zenodo.org/ - Open Data on AWS
https://registry.opendata.aws/
……(根据需求可进一步详细补充)
八、获取与使用建议
- 遵守数据许可协议,确保合法合规
- 根据任务需求选择合适数据集,避免过拟合
- 预处理与清洗数据,提高模型效果
- 结合数据增强技术,扩展训练样本
发表回复