Посты
Метод Box-Counting

Math_DS_Deep_16.7_site-5020-c97fc4.png

Это известный алгоритм, который позволяет оценить эффект входной информации на наблюдаемый выходной параметр. Пространство переменных X и Y разбивается на ячейки. Количество заполненных ячеек будет использоваться для оценки вероятностного распределения входных параметров.

Фрактальная размерность

Math_DS_Deep_9.07_site-5020-7339b7.png

Б. Мандельброт даёт следующее определение фракталам: «фракталом называется структура, состоящая из частей, которые в каком-то смысле подобны целому». Существуют различные способы расчёта размерности.

Словарь современных терминов Data Science

Q0x64GkQjOs-5020-cabfab.jpg

Собрали небольшой словарик часто употребляемых терминов и сокращений специалистами Data Science.

Statistica — универсальная система анализа данных и Data Science, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме. Содержит более 10 000 аналитических и статистических процедур, включая машинн

Cross-Validation на временном ряду

DS_Deep_2.4_Site-5020-1a325c.png

Представьте, что мы построили модель для решения задачи по анализу временных рядов и хотим понять, хорошо ли она работает. Точнее, нам необходимо выбрать из некоторых моделей наилучшую.

Как бороться с мультиколлинеарностью?

DS_Deep_29.11_site-5020-d4f2a0.png

Как известно, уменьшение размерности применяется в машинном обучении в двух целях: для визуализации (чтобы данные с большим количеством признаков можно было отобразить в двух- или трёхмерном пространстве) и для уменьшения количества переменных.

Гессиан Vector-Product трюк

DS_Deep_21.08_site.png

В некоторых алгоритмах машинного обучения возникает необходимость в расчёте матрицы вторых производных функции Снимок экрана 2018-08-21 в 16.47.49.pngБудем называть её «гессиан»: Снимок экрана 2018-08-21 в 16.48.37.pngПримером может быть метод Ньютона для оптимизации.

Лучевой поиск для seq2seq модели

DS_Deep_16.08_Site.png

В задачах машинного перевода часто используется модель seq2seq (sequence-to-sequence). Данная модель в режиме тестирования последовательно выдаёт распределения по вероятностям слов на текущем шаге t. Более подробно можно прочитать в предыдущей заметке. Далее я буду предполагать знакомство с этой моделью.