Датасеты для машинного обучения | OTUS

Датасеты для машинного обучения

Для машинного обучения надо очень много данных. Их можно собирать самому (что крайне утомительно) или использовать уже готовые (что гораздо быстрее). В этой статье вы найдёте уже готовые датасеты по самым разным категориям.

Датасеты по финансам и экономике:

Quandl. Прекрасный источник финансово-экономических данных. Пригодится для построения моделей прогнозирования экономических показателей; • World Bank Open Data. Эти наборы данных охватывают демографическую ситуацию и включают в себя большое число индикаторов развития и экономических показателей со всего мира; • IMF Data. МВФ публикует данные о международных финансах, валютных резервах, инвестициях, показателях долга, ценах на сырьё; • Financial Times Market Data. Здесь вы найдёте актуальную информацию о мировых финансовых рынках, включая индексы цен на акции, валюту и товары; • American Economic Association (AEA). Неплохой источник данных об американской макроэкономике.

Датасеты по компьютерному зрению:

xView. Самый большой общедоступный набор воздушных снимков земли. Включает в себя изображения сцен со всего мира, аннотированные с помощью ограничительных рамок; • Labelme. Тоже большой датасет аннотированных изображений; • ImageNet. Датасет изображений, организованный в соответствии с иерархией WordNet; • LSUN. Здесь изображения разбиты по сценам и категориям с частичной разметкой данных; • MS COCO. Крупномасштабный датасет, который пригодится для обнаружения и сегментации объектов; • COIL100. Сто различных объектов, которые изображены под каждым углом и в круговом обороте; • Visual Genome. Здесь вы найдёте около 100 тыс. подробно аннотированных изображений; • Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, помеченных метками и охватывающих более 6000 категорий; • Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей. Пригодится для технологии распознавания лиц; • Stanford Dogs Dataset. Включено 20 580 изображений из 120 пород собак; • Indoor Scene Recognition. Датасет по распознаванию интерьера зданий. Включает 15 620 изображений и 67 категорий.

Датасеты для анализа тональности текста:

Multidomain sentiment analysis dataset. Чуть устаревший датасет, включающий отзывы на товары с Amazon; • IMDB reviews. Тоже не новый и относительно небольшой датасет для бинарного анализа тональности. Содержит 25 000 отзывов к фильмам; • Stanford Sentiment Treebank. Стэнфордский датасет; • Sentiment140. Популярный датасет, который содержит 160 000 твитов; • Twitter US Airline Sentiment. Набор данных из Twitter, включающий в себя негативные, положительные и нейтральные твиты об авиакомпаниях США.

Датасеты для обработки естественного языка:

HotspotQA Dataset. В этом датасете вы найдёте вопросы-ответы, позволяющие создавать системы для ответов на вопросы; • Amazon Reviews. Более 35 миллионов отзывов с Amazon за 18 лет. Включают информацию о продукте и пользователе, а также оценки и непосредственно текст отзыва; • Google Books Ngrams. Коллекция слов из Google Books; • Blogger Corpus. Коллекция постов с Blogger. Каждый блог включает не менее 200 вхождений наиболее часто применяемых английских слов. Всего — более 600 тысяч постов; • Wikipedia Links data. Этот датасет состоит из веб-страниц. Каждая из них включает хотя бы одну ссылку на Википедию, а текст её якоря совпадает либо похож на заголовок целевой страницы; • Hansards text chunks of Canadian Parliament. Содержатся более миллиона пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента; • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг»; • Jeopardy. Архив включает больше 200 тыс. вопросов с телевикторины Jeopardy; • Rotten Tomatoes Reviews. Больше 480 тыс. рецензий с Rotten Tomatoes; • SMS Spam Collection in English. Датасет из 5574 спам-смс на английском; • UCI’s Spambase. Тоже большой датасет спам-писем; • Yelp Reviews. Датасет от Yelp, включающий более 5 млн отзывов.

Датасет для автопилотов:

Berkeley DeepDrive BDD100k. Один из наибольших датасетов для автопилотов. Включает более 100 тыс. видео с более чем тысячью часами записей вождения в различное время суток и в разных погодных условиях; • Baidu Apolloscapes. Датасет для распознавания 26 семантически разных объектов типа машин, зданий, пешеходов, велосипедов уличных фонарей и т. п.; • Comma.ai. Больше 7 часов езды по шоссе. В датасете содержится информация о скорости машины, GPS-координатах, ускорении, угле поворота руля; • Oxford’s Robotic Car. Больше ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасете есть разные комбинации трафика, пешеходов, погодных условий, а также дорожные работы; • Cityscape Dataset. Записи ста уличных сцен в пятидесяти городах; • KUL Belgium Traffic Sign Dataset. Больше 10 тыс. аннотаций различных светофоров в Бельгии; • LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет со светофорами, дорожными знаками, распознанными средствами передвижения, а также траекториями движения; • WPI datasets. Датасет для распознавания светофоров, дорожной разметки, пешеходов.

Датасет с медицинскими данными:

MIMIC-III. В этом датасете хранятся обезличенные данные о состоянии здоровья более 40 тыс. пациентов, находящихся на интенсивной терапии. Вы найдёте демографические данные, лабораторные анализы, показатели жизнедеятельности, лекарства и многое другое.

Где ещё искать датасеты?

Поискать датасеты можно и самостоятельно, но нужно знать, где это делать. Вот несколько сервисов: • Google Dataset Search. Вы можете искать датасеты по всему интернету, используя ключевое слово; • Kaggle. Площадка, предназначенная для соревнований по ML, где вы найдёте множество интересных датасетов; • UCI Machine Learning Repository. Сюда нужно заглянуть в первую очередь, т. к. это старейший источник датасетов в Сети; • VisualData. Это датасеты для компьютерного зрения, которые разбиты по категориям. Есть возможность поиска; • Find Datasets | CMU Libraries. Эта коллекция датасетов представлена университетом Карнеги Меллон.

По материалам статьи «The Best Public Datasets for Machine Learning and Data Science».

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
Популярное
Сегодня тут пусто