Datasets

Jump to bottom

Maria Khodorchenko edited this page Oct 22, 2021 · 3 revisions

Варианты наборов данных

OpenML benchmark

Плюсы: удобный и стандартизированный фреймворк
Минусы: максимальное количество наблюдений - 581 012

Синтетические данные

Плюсы: легко сгенерировать (например, с помощью библиотеки SDV)
Минусы: возможно возникновение проблемы со сходимостью решения

Доступные большие наборы данных (вектора изображений)

Плюсы: можно заинферить вектора любой размерности
Минусы: специфика самих векторов, отличается от табличных данных

Большие наборы данных