Словарь современных терминов Data Science
Собрали небольшой словарик часто употребляемых терминов и сокращений специалистами Data Science.
Statistica — универсальная система анализа данных и Data Science, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме. Содержит более 10 000 аналитических и статистических процедур, включая машинное обучение и нейронные сети, и имеет более миллиона пользователей во всём мире. Коннектор Statistica с R позволяет эффективно использовать библиотеки открытого ПО.
Apache Spark — мощный движок обработки исходного кода, основанный на скорости, простоте использования и сложной аналитике с API-интерфейсами в Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Может использоваться для создания приложений данных в виде библиотеки или для интерактивного анализа данных ad hoc.
Spark предоставляет стек библиотек, включая SQL, DataFrames и Datasets, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming. Вы можете объединить эти библиотеки в одном приложении. Кроме того, Spark работает на ноутбуке, Apache Hadoop, Apache Mesos, автономно или в облаке. Он может обращаться к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3.
CART (Classification and regression trees) — деревья классификации и регрессии. Алгоритм Classification and Regression Tree разработан Leo Breiman, Jerry Friedman, Charles Stone и Richard Olshen. Алгоритм строит бинарные деревья, имеющие двух потомков в каждом узле дерева. На каждом шаге построения дерева правило, формируемое в узле, делит заданную обучающую выборку на две части – часть, в которой выполняется правило (левый потомок) и часть, в которой правило не выполняется (правый потомок). Для выбора оптимального правила разбиения используется функция оценки качества разбиения. Функция оценки качества разбиения основана на идее уменьшения неопределенности в узле. Дерево решений с непрерывными выходными значениями называется деревом регрессии, деревья классификации выводят конкретные категориальные значения. В дереве имеется один особый узел, известный как корневой. Это основа дерева, от которой можно перейти по дереву к любому узлу. Ключевым моментом является иерархия разбиений. В результате последовательности проверок организуется процесс разбиения данных на непересекающиеся подмножества. Каждый листовой узел соответствует небольшой, но исключительной (неповторяющейся) части исходного множества.
F-распределение Фишера — вытянутое вправо непрерывное распределение, характеризующееся степенями свободы числителя и знаменателя. Используется в дисперсионном анализе.
P-значение — вероятность получения наших результатов или чего-либо большего, если нулевая гипотеза верна; уровень значимости.
R2 — коэффициент детерминации, доля общей дисперсии зависимой переменной в регрессионном анализе, которая объясняется моделью.
Structures Query Language (SQL) — язык программирования, разработанный для управления и извлечения данных из системы реляционных баз данных.
t-распределение — также называется распределением Стьюдента. Непрерывное распределение, чья форма подобна нормальному распределению и которое характеризуется своей степенью свободы. Используется для проверки гипотез о средних значениях выборки.
TensorFlow™ — программная библиотека с открытым исходным кодом для высокопроизводительных численных расчетов. Гибкая архитектура позволяет развертывать вычисления на различных платформах (процессорах, графических процессорах, TPU), от настольных компьютеров до кластеров серверов, мобильных и периферийных устройств. Обеспечивает поддержку машинного обучения и глубокого обучения, гибкое ядро для численных вычислений используется во многих других научных областях.
Алгоритм градиентного бустинга (boosting — улучшение, xgboost) — процедура последовательного построения композиции алгоритмов машинного обучения с целью улучшения качества классификации или предсказательной силы модели.
Асимметричное распределение — асимметричное распределение данных имеет длинный хвост справа с несколькими высокими значениями (положительно скошенное) или длинный хвост слева с несколькими низкими значениями (отрицательно скошенное).
Байесовский метод вывода — вывод на основе теоремы Байеса, использует не только текущую информацию, но и прежнее суждение о гипотезе для оценки апостериорной вероятности, оценивающей уровень доверия к гипотезе после наблюдаемых событий.
Большие данные (Big Data) — включает в себя стратегии, технологии и информационные системы, направленные на получение, обработку, хранение, анализ и визуализацию сложных структурированных и неструктурированных наборов данных с помощью пакетной обработки, потоковой обработки, NoSQL, HPC, MPP, In-Memory и других.
Вариация остатков — вариация переменной, которая остаётся после того, как удалена вариабельность, относящаяся к интересующим нас факторам. Это вариация, не объяснимая моделью, также называется «ошибочная, или необъяснённая, вариация».
Вероятностная модель — математическое представление случайного события. Определяется пространством элементарных событий и вероятностью событий.
Выборка обучающая (training sample) — выборка, на которой производится обучение алгоритма, в частности, нейронной сети с целью минимизации заданной функции потерь.
Выборка проверочная (validation sample) — выборка, на которой осуществляется проверка модели из множества моделей, построенных по обучающей выборке и выбирается лучшая модель.
Диаграмма «стебель-листья» — полуграфический метод, используемый для представления числовых данных, в котором первая (крайняя слева) цифра каждого значения данных является стеблем, а остальные цифры числа — это листья.
Интерквартильный размах — разница между первым и третьим квартилем (IQR).
Клетка таблицы сопряжённости — пересечение отдельной строки и отдельного столбца таблицы сопряженности. Матрица ошибочной классификации алгоритма машинного обучения является типичным примером таблицы сопряженности, в которой на диагонали указано число правильно классифицированных объектов, вне диагонали число ошибочно классифицированных объектов.
Коллинеарность — пары независимых переменных в регрессионном анализе высоко коррелируют, если их корреляции по модулю близки к единице.
Критерий отношения дисперсий — F-критерий Фишера-Снедекора, используется для проверки гипотез о равенстве дисперсий в популяции.
Критерий хи-квадрат Пирсона — используется в частотных данных, проверяет нулевую гипотезу, что нет связи между факторами, которые определяют таблицу сопряжённости. Также применяется для тестирования разницы в долях (пропорциях) данных.
Лог-нормальное распределение — вытянутое вправо распределение вероятности непрерывной случайной переменной, чей логарифм подчиняется нормальному распределению.
Метод наименьших квадратов (МНК) – метод оценки параметров в регрессионном анализе, основанный на минимизации суммы квадратов остатков.
Межквартильный размах – интервал между 25-й и 75-й процентилями; он содержит центральные 50% упорядоченных значений.
Непараметрический критерий – критерий проверки гипотез, который не делает предположений о распределении анализируемых данных. Иногда называется критерием, свободным от распределения.
Несмещённая оценка - для того чтобы оценка была несмещенной, требуется, чтобы в среднем оценка дала истинное значение неизвестного параметра. Формально оценка X является несмещенной оценкой параметра θ, если E(X) = θ.
Номограмма Альтмана – диаграмма, которая устанавливает связь размера выборки, мощности статистического критерия, уровень значимости и стандартизированную разность.
Перекрёстные исследования – исследования, в которых каждый исследуемых пациент получает более одного вида лечения, одно за другим в случайном порядке.
Пересечение множеств — пересечение множеств A и B, обозначаемых A B, является множеством элементы, которые находятся как в A, так и в B.
Пуассоновская регрессия — в пуассоновской регрессии предполагается, что зависимая переменная распределена по закону Пуассона, где μ = E( Y | X ) – среднее значение зависимой переменной Y при известных значениях независимых переменных X. В качестве функции связи обычно используется логарифм, также степенную и тождественную функцию.
Размер выборки — количество элементов в выборке. Размер выборки является важной величиной, при увеличении размера выборок точность оценок увеличивается. Однако мы не можем увеличивать размер выборки до бесконечности, так это связано с временными и финансовыми затратами.
Разнообразие Больших Данных (Big Data Variety) — относится к типу и характеру данных. Это помогает людям, которые анализируют его, эффективно использовать полученную информацию.
Сезонная вариация – значение интересующей нас переменной систематически изменяются согласно времени года.
Сериальная корреляция – корреляция между наблюдениями во временных сериях и наблюдениями, отделёнными между собой фиксированным временным интервалом.
Событие — подмножество пространства выборки. Например, пространство для эксперимента, в котором дважды бросается монета, определяется {ОО, ОР, РО, РР} и A = {ОР, ОО}, тогда A событие, в котором Орёл встречается в первую очередь.
Статистический критерий Вальда — применяется в логистической регрессии для проверки вклада отдельного коэффициента регрессии.
Форест-график – диаграмма, применяемая в метаанализе и показывающая оценённый эффект в каждом исследовании и их среднее с доверительными интервалами.
Хи-квадрат критерий — используется для проверки гипотезы об отсутствии между факторами в таблице сопряжённости. Также используется для проверки различий между пропорциями (долями) в данных, проверки однородности.
Цензурированные (неполные) данные — используются в анализе выживаемости, поскольку имеется неполная информация об исходе лечения. Также используются в оценке надежности технических систем.
«Ящик с усами» — диаграмма, построенная из набора числовых данных, в центре которой находится медиана, по сторонам ящика – квартили (максимальные и минимальные значения).