Словарь современных терминов Data Science

Q0x64GkQjOs-5020-cabfab.jpg

Собрали небольшой словарик часто употребляемых терминов и сокращений специалистами Data Science.

Statistica — универсальная система анализа данных и Data Science, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме. Содержит более 10 000 аналитических и статистических процедур, включая машинн

Cross-Validation на временном ряду

DS_Deep_2.4_Site-5020-1a325c.png

Представьте, что мы построили модель для решения задачи по анализу временных рядов и хотим понять, хорошо ли она работает. Точнее, нам необходимо выбрать из некоторых моделей наилучшую.

Как бороться с мультиколлинеарностью?

DS_Deep_29.11_site-5020-d4f2a0.png

Как известно, уменьшение размерности применяется в машинном обучении в двух целях: для визуализации (чтобы данные с большим количеством признаков можно было отобразить в двух- или трёхмерном пространстве) и для уменьшения количества переменных.

Гессиан Vector-Product трюк

DS_Deep_21.08_site.png

В некоторых алгоритмах машинного обучения возникает необходимость в расчёте матрицы вторых производных функции Снимок экрана 2018-08-21 в 16.47.49.pngБудем называть её «гессиан»: Снимок экрана 2018-08-21 в 16.48.37.pngПримером может быть метод Ньютона для оптимизации.

Лучевой поиск для seq2seq модели

DS_Deep_16.08_Site.png

В задачах машинного перевода часто используется модель seq2seq (sequence-to-sequence). Данная модель в режиме тестирования последовательно выдаёт распределения по вероятностям слов на текущем шаге t. Более подробно можно прочитать в предыдущей заметке. Далее я буду предполагать знакомство с этой моделью.

Модель seq2seq в машинном переводе

DataScientist_Deep_26.07_Site.png

Ключевая идея модели заключается в том, что мы рассматриваем входные данные (предложение на языке А) и выходные данные (предложение на языке Б) как последовательности слов.

Как увеличить скорость исправления опечаток в 1000 раз?

BigData_Deep_19.07_Site.png

Концептуально логика работы спеллчекеров (программ для поиска и исправления ошибок в тексте) такова: слово, содержащее ошибку, нужно заменить на максимально похожее на него слово из числа правильных (в словаре).