Датасеты для машинного обучения
Для машинного обучения надо очень много данных. Их можно собирать самому (что крайне утомительно) или использовать уже готовые (что гораздо быстрее). В этой статье вы найдёте уже готовые датасеты по самым разным категориям.
Датасеты по финансам и экономике:
• Quandl. Прекрасный источник финансово-экономических данных. Пригодится для построения моделей прогнозирования экономических показателей; • World Bank Open Data. Эти наборы данных охватывают демографическую ситуацию и включают в себя большое число индикаторов развития и экономических показателей со всего мира; • IMF Data. МВФ публикует данные о международных финансах, валютных резервах, инвестициях, показателях долга, ценах на сырьё; • Financial Times Market Data. Здесь вы найдёте актуальную информацию о мировых финансовых рынках, включая индексы цен на акции, валюту и товары; • American Economic Association (AEA). Неплохой источник данных об американской макроэкономике.
Датасеты по компьютерному зрению:
• xView. Самый большой общедоступный набор воздушных снимков земли. Включает в себя изображения сцен со всего мира, аннотированные с помощью ограничительных рамок; • Labelme. Тоже большой датасет аннотированных изображений; • ImageNet. Датасет изображений, организованный в соответствии с иерархией WordNet; • LSUN. Здесь изображения разбиты по сценам и категориям с частичной разметкой данных; • MS COCO. Крупномасштабный датасет, который пригодится для обнаружения и сегментации объектов; • COIL100. Сто различных объектов, которые изображены под каждым углом и в круговом обороте; • Visual Genome. Здесь вы найдёте около 100 тыс. подробно аннотированных изображений; • Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, помеченных метками и охватывающих более 6000 категорий; • Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей. Пригодится для технологии распознавания лиц; • Stanford Dogs Dataset. Включено 20 580 изображений из 120 пород собак; • Indoor Scene Recognition. Датасет по распознаванию интерьера зданий. Включает 15 620 изображений и 67 категорий.
Датасеты для анализа тональности текста:
• Multidomain sentiment analysis dataset. Чуть устаревший датасет, включающий отзывы на товары с Amazon; • IMDB reviews. Тоже не новый и относительно небольшой датасет для бинарного анализа тональности. Содержит 25 000 отзывов к фильмам; • Stanford Sentiment Treebank. Стэнфордский датасет; • Sentiment140. Популярный датасет, который содержит 160 000 твитов; • Twitter US Airline Sentiment. Набор данных из Twitter, включающий в себя негативные, положительные и нейтральные твиты об авиакомпаниях США.
Датасеты для обработки естественного языка:
• HotspotQA Dataset. В этом датасете вы найдёте вопросы-ответы, позволяющие создавать системы для ответов на вопросы; • Amazon Reviews. Более 35 миллионов отзывов с Amazon за 18 лет. Включают информацию о продукте и пользователе, а также оценки и непосредственно текст отзыва; • Google Books Ngrams. Коллекция слов из Google Books; • Blogger Corpus. Коллекция постов с Blogger. Каждый блог включает не менее 200 вхождений наиболее часто применяемых английских слов. Всего — более 600 тысяч постов; • Wikipedia Links data. Этот датасет состоит из веб-страниц. Каждая из них включает хотя бы одну ссылку на Википедию, а текст её якоря совпадает либо похож на заголовок целевой страницы; • Hansards text chunks of Canadian Parliament. Содержатся более миллиона пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента; • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг»; • Jeopardy. Архив включает больше 200 тыс. вопросов с телевикторины Jeopardy; • Rotten Tomatoes Reviews. Больше 480 тыс. рецензий с Rotten Tomatoes; • SMS Spam Collection in English. Датасет из 5574 спам-смс на английском; • UCI’s Spambase. Тоже большой датасет спам-писем; • Yelp Reviews. Датасет от Yelp, включающий более 5 млн отзывов.
Датасет для автопилотов:
• Berkeley DeepDrive BDD100k. Один из наибольших датасетов для автопилотов. Включает более 100 тыс. видео с более чем тысячью часами записей вождения в различное время суток и в разных погодных условиях; • Baidu Apolloscapes. Датасет для распознавания 26 семантически разных объектов типа машин, зданий, пешеходов, велосипедов уличных фонарей и т. п.; • Comma.ai. Больше 7 часов езды по шоссе. В датасете содержится информация о скорости машины, GPS-координатах, ускорении, угле поворота руля; • Oxford’s Robotic Car. Больше ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасете есть разные комбинации трафика, пешеходов, погодных условий, а также дорожные работы; • Cityscape Dataset. Записи ста уличных сцен в пятидесяти городах; • KUL Belgium Traffic Sign Dataset. Больше 10 тыс. аннотаций различных светофоров в Бельгии; • LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет со светофорами, дорожными знаками, распознанными средствами передвижения, а также траекториями движения; • WPI datasets. Датасет для распознавания светофоров, дорожной разметки, пешеходов.
Датасет с медицинскими данными:
• MIMIC-III. В этом датасете хранятся обезличенные данные о состоянии здоровья более 40 тыс. пациентов, находящихся на интенсивной терапии. Вы найдёте демографические данные, лабораторные анализы, показатели жизнедеятельности, лекарства и многое другое.
Где ещё искать датасеты?
Поискать датасеты можно и самостоятельно, но нужно знать, где это делать. Вот несколько сервисов: • Google Dataset Search. Вы можете искать датасеты по всему интернету, используя ключевое слово; • Kaggle. Площадка, предназначенная для соревнований по ML, где вы найдёте множество интересных датасетов; • UCI Machine Learning Repository. Сюда нужно заглянуть в первую очередь, т. к. это старейший источник датасетов в Сети; • VisualData. Это датасеты для компьютерного зрения, которые разбиты по категориям. Есть возможность поиска; • Find Datasets | CMU Libraries. Эта коллекция датасетов представлена университетом Карнеги Меллон.
По материалам статьи «The Best Public Datasets for Machine Learning and Data Science».