Skip to content

Datasets

Maria Khodorchenko edited this page Oct 22, 2021 · 3 revisions

Варианты наборов данных

OpenML benchmark

  • Плюсы: удобный и стандартизированный фреймворк
  • Минусы: максимальное количество наблюдений - 581 012

Синтетические данные

  • Плюсы: легко сгенерировать (например, с помощью библиотеки SDV)
  • Минусы: возможно возникновение проблемы со сходимостью решения

Доступные большие наборы данных (вектора изображений)

  • Плюсы: можно заинферить вектора любой размерности
  • Минусы: специфика самих векторов, отличается от табличных данных

Большие наборы данных

  1. https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page
  2. https://docs.microsoft.com/en-us/azure/open-datasets/dataset-1000-genomes
  3. https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/
  4. https://research.yandex.com/datasets/biganns
Clone this wiki locally