一、通用数据集平台(多领域多类型)

  1. Kaggle Datasets
    https://www.kaggle.com/datasets
    • 大型社区平台,海量公开数据,竞赛用数据集丰富
  2. Google Dataset Search
    https://datasetsearch.research.google.com/
    • Google推出的数据集搜索引擎,覆盖各领域
  3. UCI Machine Learning Repository
    https://archive.ics.uci.edu/ml/index.php
    • 经典机器学习数据集仓库,结构化数据丰富
  4. AWS Open Data Registry
    https://registry.opendata.aws/
    • 亚马逊开放数据平台,含气象、基因组等大数据集
  5. Data.gov
    https://www.data.gov/
    • 美国政府开放数据门户,涵盖社会、经济、健康等领域
  6. Microsoft Research Open Data
    https://msropendata.com/
    • 微软研究院发布的多领域数据集
  7. OpenML
    https://www.openml.org/
    • 机器学习数据集、任务及实验管理平台

二、图像数据集

  1. ImageNet
    http://www.image-net.org/
    • 1400万+标注图片,常用于图像识别训练
  2. COCO (Common Objects in Context)
    https://cocodataset.org/
    • 目标检测与分割常用大规模数据集
  3. Open Images Dataset
    https://storage.googleapis.com/openimages/web/index.html
    • Google开源,包含900万张带标签图片
  4. CIFAR-10 / CIFAR-100
    https://www.cs.toronto.edu/~kriz/cifar.html
    • 小型图像分类数据集,10类或100类
  5. MNIST
    http://yann.lecun.com/exdb/mnist/
    • 手写数字识别经典数据集
  6. Fashion-MNIST
    https://github.com/zalandoresearch/fashion-mnist
    • 衣物类别图像数据集,替代MNIST的时尚版
  7. LFW (Labeled Faces in the Wild)
    http://vis-www.cs.umass.edu/lfw/
    • 人脸识别数据集
  8. Stanford Dogs Dataset
    http://vision.stanford.edu/aditya86/ImageNetDogs/
    • 120个犬种的狗图片
  9. CelebA
    http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
    • 名人脸部属性数据集

三、文本与自然语言处理数据集

  1. Wikipedia Dumps
    https://dumps.wikimedia.org/
    • 维基百科全文数据,用于预训练模型
  2. Common Crawl
    https://commoncrawl.org/
    • 大规模网页抓取数据
  3. GLUE Benchmark
    https://gluebenchmark.com/
    • 多任务语言理解评测数据集
  4. SQuAD (Stanford Question Answering Dataset)
    https://rajpurkar.github.io/SQuAD-explorer/
    • 问答系统数据集
  5. IMDB Movie Reviews
    https://ai.stanford.edu/~amaas/data/sentiment/
    • 影评情感分析数据集
  6. Yelp Reviews
    https://www.yelp.com/dataset
    • 商业评论数据集
  7. TREC Question Classification
    https://cogcomp.seas.upenn.edu/Data/QA/QC/
    • 问题分类任务数据集

四、语音与音频数据集

  1. LibriSpeech
    http://www.openslr.org/12/
    • 朗读英语音频语料库
  2. VCTK Corpus
    https://datashare.ed.ac.uk/handle/10283/2651
    • 多说话人英语语音数据
  3. TED-LIUM
    https://www.openslr.org/51/
    • TED演讲音频数据集
  4. Google AudioSet
    https://research.google.com/audioset/
    • 大规模声音事件数据集

五、视频数据集

  1. YouTube-8M
    https://research.google.com/youtube8m/
    • 视频分类大型数据集
  2. UCF101
    https://www.crcv.ucf.edu/data/UCF101.php
    • 动作识别视频数据集
  3. Kinetics
    https://deepmind.com/research/open-source/kinetics
    • 多类别视频动作识别数据集

六、结构化数据与其他类型

  1. Titanic Dataset (Kaggle)
    • 经典分类问题数据集
  2. Adult Income Dataset (UCI)
    • 收入预测数据
  3. MNIST Fashion
    • 服装图片数据
  4. COCO Captions
    • 图像对应描述文本

七、其他推荐数据集资源网站(共40+)

  1. Awesome Public Datasets
    https://github.com/awesomedata/awesome-public-datasets
  2. Papers with Code Datasets
    https://paperswithcode.com/datasets
  3. Data World
    https://data.world/
  4. Figshare
    https://figshare.com/
  5. Zenodo
    https://zenodo.org/
  6. Open Data on AWS
    https://registry.opendata.aws/

……(根据需求可进一步详细补充)


八、获取与使用建议

  • 遵守数据许可协议,确保合法合规
  • 根据任务需求选择合适数据集,避免过拟合
  • 预处理与清洗数据,提高模型效果
  • 结合数据增强技术,扩展训练样本