Словарь современных терминов Data Science

Q0x64GkQjOs-5020-cabfab.jpg

Собрали небольшой словарик часто употребляемых терминов и сокращений специалистами Data Science.

Statistica — универсальная система анализа данных и Data Science, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме. Содержит более 10 000 аналитических и статистических процедур, включая машинное обучение и нейронные сети, и имеет более миллиона пользователей во всём мире. Коннектор Statistica с R позволяет эффективно использовать библиотеки открытого ПО.

Apache Spark — мощный движок обработки исходного кода, основанный на скорости, простоте использования и сложной аналитике с API-интерфейсами в Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Может использоваться для создания приложений данных в виде библиотеки или для интерактивного анализа данных ad hoc.

Spark предоставляет стек библиотек, включая SQL, DataFrames и Datasets, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming. Вы можете объединить эти библиотеки в одном приложении. Кроме того, Spark работает на ноутбуке, Apache Hadoop, Apache Mesos, автономно или в облаке. Он может обращаться к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3.

CART (Classification and regression trees) — деревья классификации и регрессии. Алгоритм Classification and Regression Tree разработан Leo Breiman, Jerry Friedman, Charles Stone и Richard Olshen. Алгоритм строит бинарные деревья, имеющие двух потомков в каждом узле дерева. На каждом шаге построения дерева правило, формируемое в узле, делит заданную обучающую выборку на две части – часть, в которой выполняется правило (левый потомок) и часть, в которой правило не выполняется (правый потомок). Для выбора оптимального правила разбиения используется функция оценки качества разбиения. Функция оценки качества разбиения основана на идее уменьшения неопределенности в узле. Дерево решений с непрерывными выходными значениями называется деревом регрессии, деревья классификации выводят конкретные категориальные значения. В дереве имеется один особый узел, известный как корневой. Это основа дерева, от которой можно перейти по дереву к любому узлу. Ключевым моментом является иерархия разбиений. В результате последовательности проверок организуется процесс разбиения данных на непересекающиеся подмножества. Каждый листовой узел соответствует небольшой, но исключительной (неповторяющейся) части исходного множества.

F-распределение Фишера — вытянутое вправо непрерывное распределение, характеризующееся степенями свободы числителя и знаменателя. Используется в дисперсионном анализе.

P-значение — вероятность получения наших результатов или чего-либо большего, если нулевая гипотеза верна; уровень значимости.

R2 — коэффициент детерминации, доля общей дисперсии зависимой переменной в регрессионном анализе, которая объясняется моделью.

Structures Query Language (SQL) — язык программирования, разработанный для управления и извлечения данных из системы реляционных баз данных.

t-распределение — также называется распределением Стьюдента. Непрерывное распределение, чья форма подобна нормальному распределению и которое характеризуется своей степенью свободы. Используется для проверки гипотез о средних значениях выборки.

TensorFlow™ — программная библиотека с открытым исходным кодом для высокопроизводительных численных расчетов. Гибкая архитектура позволяет развертывать вычисления на различных платформах (процессорах, графических процессорах, TPU), от настольных компьютеров до кластеров серверов, мобильных и периферийных устройств. Обеспечивает поддержку машинного обучения и глубокого обучения, гибкое ядро для численных вычислений используется во многих других научных областях.

Алгоритм градиентного бустинга (boosting — улучшение, xgboost) — процедура последовательного построения композиции алгоритмов машинного обучения с целью улучшения качества классификации или предсказательной силы модели.

Асимметричное распределение — асимметричное распределение данных имеет длинный хвост справа с несколькими высокими значениями (положительно скошенное) или длинный хвост слева с несколькими низкими значениями (отрицательно скошенное).

Байесовский метод вывода — вывод на основе теоремы Байеса, использует не только текущую информацию, но и прежнее суждение о гипотезе для оценки апостериорной вероятности, оценивающей уровень доверия к гипотезе после наблюдаемых событий.

Большие данные (Big Data) — включает в себя стратегии, технологии и информационные системы, направленные на получение, обработку, хранение, анализ и визуализацию сложных структурированных и неструктурированных наборов данных с помощью пакетной обработки, потоковой обработки, NoSQL, HPC, MPP, In-Memory и других.

Вариация остатков — вариация переменной, которая остаётся после того, как удалена вариабельность, относящаяся к интересующим нас факторам. Это вариация, не объяснимая моделью, также называется «ошибочная, или необъяснённая, вариация».

Вероятностная модель — математическое представление случайного события. Определяется пространством элементарных событий и вероятностью событий.

Выборка обучающая (training sample) — выборка, на которой производится обучение алгоритма, в частности, нейронной сети с целью минимизации заданной функции потерь.

Выборка проверочная (validation sample) — выборка, на которой осуществляется проверка модели из множества моделей, построенных по обучающей выборке и выбирается лучшая модель.

Диаграмма «стебель-листья» — полуграфический метод, используемый для представления числовых данных, в котором первая (крайняя слева) цифра каждого значения данных является стеблем, а остальные цифры числа — это листья.

Интерквартильный размах — разница между первым и третьим квартилем (IQR).

Клетка таблицы сопряжённости — пересечение отдельной строки и отдельного столбца таблицы сопряженности. Матрица ошибочной классификации алгоритма машинного обучения является типичным примером таблицы сопряженности, в которой на диагонали указано число правильно классифицированных объектов, вне диагонали число ошибочно классифицированных объектов.

Коллинеарность — пары независимых переменных в регрессионном анализе высоко коррелируют, если их корреляции по модулю близки к единице.

Критерий отношения дисперсий — F-критерий Фишера-Снедекора, используется для проверки гипотез о равенстве дисперсий в популяции.

Критерий хи-квадрат Пирсона — используется в частотных данных, проверяет нулевую гипотезу, что нет связи между факторами, которые определяют таблицу сопряжённости. Также применяется для тестирования разницы в долях (пропорциях) данных.

Лог-нормальное распределение — вытянутое вправо распределение вероятности непрерывной случайной переменной, чей логарифм подчиняется нормальному распределению.

Метод наименьших квадратов (МНК) – метод оценки параметров в регрессионном анализе, основанный на минимизации суммы квадратов остатков.

Межквартильный размах – интервал между 25-й и 75-й процентилями; он содержит центральные 50% упорядоченных значений.

Непараметрический критерий – критерий проверки гипотез, который не делает предположений о распределении анализируемых данных. Иногда называется критерием, свободным от распределения.

Несмещённая оценка - для того чтобы оценка была несмещенной, требуется, чтобы в среднем оценка дала истинное значение неизвестного параметра. Формально оценка X является несмещенной оценкой параметра θ, если E(X) = θ.

Номограмма Альтмана – диаграмма, которая устанавливает связь размера выборки, мощности статистического критерия, уровень значимости и стандартизированную разность.

Перекрёстные исследования – исследования, в которых каждый исследуемых пациент получает более одного вида лечения, одно за другим в случайном порядке.

Пересечение множеств — пересечение множеств A и B, обозначаемых A B, является множеством элементы, которые находятся как в A, так и в B.

Пуассоновская регрессия — в пуассоновской регрессии предполагается, что зависимая переменная распределена по закону Пуассона, где μ = E( Y | X ) – среднее значение зависимой переменной Y при известных значениях независимых переменных X. В качестве функции связи обычно используется логарифм, также степенную и тождественную функцию.

Размер выборки — количество элементов в выборке. Размер выборки является важной величиной, при увеличении размера выборок точность оценок увеличивается. Однако мы не можем увеличивать размер выборки до бесконечности, так это связано с временными и финансовыми затратами.

Разнообразие Больших Данных (Big Data Variety) — относится к типу и характеру данных. Это помогает людям, которые анализируют его, эффективно использовать полученную информацию.

Сезонная вариация – значение интересующей нас переменной систематически изменяются согласно времени года.

Сериальная корреляция – корреляция между наблюдениями во временных сериях и наблюдениями, отделёнными между собой фиксированным временным интервалом.

Событие — подмножество пространства выборки. Например, пространство для эксперимента, в котором дважды бросается монета, определяется {ОО, ОР, РО, РР} и A = {ОР, ОО}, тогда A событие, в котором Орёл встречается в первую очередь.

Статистический критерий Вальда — применяется в логистической регрессии для проверки вклада отдельного коэффициента регрессии.

Форест-график – диаграмма, применяемая в метаанализе и показывающая оценённый эффект в каждом исследовании и их среднее с доверительными интервалами.

Хи-квадрат критерий — используется для проверки гипотезы об отсутствии между факторами в таблице сопряжённости. Также используется для проверки различий между пропорциями (долями) в данных, проверки однородности.

Цензурированные (неполные) данные — используются в анализе выживаемости, поскольку имеется неполная информация об исходе лечения. Также используются в оценке надежности технических систем.

«Ящик с усами» — диаграмма, построенная из набора числовых данных, в центре которой находится медиана, по сторонам ящика – квартили (максимальные и минимальные значения).

Автор
1 комментарий
1

Владислав, спасибо.

Для комментирования необходимо авторизоваться