05.04.19 в 07:53

Словарь современных терминов Data Science

Data Science → Полезные материалы по Data Science

Теги: data science, statistica, apache spark, cart — classification and regression trees, f-распределение фишера, p-значение, r2, structures query language (sql), t-распределение, tensorflow, алгоритм градиентного бустинга, асимметричное распределение, байесовский метод вывода, большие данные (big data), вариация остатков, вероятностные модели, выборка обучающая (training sample), выборка проверочная (validation sample), диаграмма «стебель-листья», интерквартильный размах, клетка таблицы сопряжённости, коллинеарность, критерий отношения дисперсий, критерий хи-квадрат пирсона, лог-нормальное распределение, метод наименьших квадратов (мнк), межквартильный размах, непараметрический критерий, несмещённая оценка, номограмма альтмана, перекрёстные исследования, пересечение множеств, пуассоновская регрессия, размер выборки, разнообразие больших данных (big data variety), сезонная вариация, сериальная корреляция, событие, словарь терминов, статистический критерий вальда, форест-график, хи-квадрат критерий, цензурированные (неполные) данные, «ящик с усами»

Собрали небольшой словарик часто употребляемых терминов и сокращений специалистами Data Science.

Statistica — универсальная система анализа данных и Data Science, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме. Содержит более 10 000 аналитических и статистических процедур, включая машинное обучение и нейронные сети, и имеет более миллиона пользователей во всём мире. Коннектор Statistica с R позволяет эффективно использовать библиотеки открытого ПО.

Apache Spark — мощный движок обработки исходного кода, основанный на скорости, простоте использования и сложной аналитике с API-интерфейсами в Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Может использоваться для создания приложений данных в виде библиотеки или для интерактивного анализа данных ad hoc.

Spark предоставляет стек библиотек, включая SQL, DataFrames и Datasets, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming. Вы можете объединить эти библиотеки в одном приложении. Кроме того, Spark работает на ноутбуке, Apache Hadoop, Apache Mesos, автономно или в облаке. Он может обращаться к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3.

CART (Classification and regression trees) — деревья классификации и регрессии. Алгоритм Classification and Regression Tree разработан Leo Breiman, Jerry Friedman, Charles Stone и Richard Olshen. Алгоритм строит бинарные деревья, имеющие двух потомков в каждом узле дерева. На каждом шаге построения дерева правило, формируемое в узле, делит заданную обучающую выборку на две части – часть, в которой выполняется правило (левый потомок) и часть, в которой правило не выполняется (правый потомок). Для выбора оптимального правила разбиения используется функция оценки качества разбиения. Функция оценки качества разбиения основана на идее уменьшения неопределенности в узле. Дерево решений с непрерывными выходными значениями называется деревом регрессии, деревья классификации выводят конкретные категориальные значения. В дереве имеется один особый узел, известный как корневой. Это основа дерева, от которой можно перейти по дереву к любому узлу. Ключевым моментом является иерархия разбиений. В результате последовательности проверок организуется процесс разбиения данных на непересекающиеся подмножества. Каждый листовой узел соответствует небольшой, но исключительной (неповторяющейся) части исходного множества.

F-распределение Фишера — вытянутое вправо непрерывное распределение, характеризующееся степенями свободы числителя и знаменателя. Используется в дисперсионном анализе.

P-значение — вероятность получения наших результатов или чего-либо большего, если нулевая гипотеза верна; уровень значимости.

R2 — коэффициент детерминации, доля общей дисперсии зависимой переменной в регрессионном анализе, которая объясняется моделью.

Structures Query Language (SQL) — язык программирования, разработанный для управления и извлечения данных из системы реляционных баз данных.

t-распределение — также называется распределением Стьюдента. Непрерывное распределение, чья форма подобна нормальному распределению и которое характеризуется своей степенью свободы. Используется для проверки гипотез о средних значениях выборки.

TensorFlow™ — программная библиотека с открытым исходным кодом для высокопроизводительных численных расчетов. Гибкая архитектура позволяет развертывать вычисления на различных платформах (процессорах, графических процессорах, TPU), от настольных компьютеров до кластеров серверов, мобильных и периферийных устройств. Обеспечивает поддержку машинного обучения и глубокого обучения, гибкое ядро для численных вычислений используется во многих других научных областях.

Алгоритм градиентного бустинга (boosting — улучшение, xgboost) — процедура последовательного построения композиции алгоритмов машинного обучения с целью улучшения качества классификации или предсказательной силы модели.

Асимметричное распределение — асимметричное распределение данных имеет длинный хвост справа с несколькими высокими значениями (положительно скошенное) или длинный хвост слева с несколькими низкими значениями (отрицательно скошенное).

Байесовский метод вывода — вывод на основе теоремы Байеса, использует не только текущую информацию, но и прежнее суждение о гипотезе для оценки апостериорной вероятности, оценивающей уровень доверия к гипотезе после наблюдаемых событий.

Большие данные (Big Data) — включает в себя стратегии, технологии и информационные системы, направленные на получение, обработку, хранение, анализ и визуализацию сложных структурированных и неструктурированных наборов данных с помощью пакетной обработки, потоковой обработки, NoSQL, HPC, MPP, In-Memory и других.

Вариация остатков — вариация переменной, которая остаётся после того, как удалена вариабельность, относящаяся к интересующим нас факторам. Это вариация, не объяснимая моделью, также называется «ошибочная, или необъяснённая, вариация».

Вероятностная модель — математическое представление случайного события. Определяется пространством элементарных событий и вероятностью событий.

Выборка обучающая (training sample) — выборка, на которой производится обучение алгоритма, в частности, нейронной сети с целью минимизации заданной функции потерь.

Выборка проверочная (validation sample) — выборка, на которой осуществляется проверка модели из множества моделей, построенных по обучающей выборке и выбирается лучшая модель.

Диаграмма «стебель-листья» — полуграфический метод, используемый для представления числовых данных, в котором первая (крайняя слева) цифра каждого значения данных является стеблем, а остальные цифры числа — это листья.

Интерквартильный размах — разница между первым и третьим квартилем (IQR).

Клетка таблицы сопряжённости — пересечение отдельной строки и отдельного столбца таблицы сопряженности. Матрица ошибочной классификации алгоритма машинного обучения является типичным примером таблицы сопряженности, в которой на диагонали указано число правильно классифицированных объектов, вне диагонали число ошибочно классифицированных объектов.

Коллинеарность — пары независимых переменных в регрессионном анализе высоко коррелируют, если их корреляции по модулю близки к единице.

Критерий отношения дисперсий — F-критерий Фишера-Снедекора, используется для проверки гипотез о равенстве дисперсий в популяции.

Критерий хи-квадрат Пирсона — используется в частотных данных, проверяет нулевую гипотезу, что нет связи между факторами, которые определяют таблицу сопряжённости. Также применяется для тестирования разницы в долях (пропорциях) данных.

Лог-нормальное распределение — вытянутое вправо распределение вероятности непрерывной случайной переменной, чей логарифм подчиняется нормальному распределению.

Метод наименьших квадратов (МНК) – метод оценки параметров в регрессионном анализе, основанный на минимизации суммы квадратов остатков.

Межквартильный размах – интервал между 25-й и 75-й процентилями; он содержит центральные 50% упорядоченных значений.

Непараметрический критерий – критерий проверки гипотез, который не делает предположений о распределении анализируемых данных. Иногда называется критерием, свободным от распределения.

Несмещённая оценка - для того чтобы оценка была несмещенной, требуется, чтобы в среднем оценка дала истинное значение неизвестного параметра. Формально оценка X является несмещенной оценкой параметра θ, если E(X) = θ.

Номограмма Альтмана – диаграмма, которая устанавливает связь размера выборки, мощности статистического критерия, уровень значимости и стандартизированную разность.

Перекрёстные исследования – исследования, в которых каждый исследуемых пациент получает более одного вида лечения, одно за другим в случайном порядке.

Пересечение множеств — пересечение множеств A и B, обозначаемых A B, является множеством элементы, которые находятся как в A, так и в B.

Пуассоновская регрессия — в пуассоновской регрессии предполагается, что зависимая переменная распределена по закону Пуассона, где μ = E( Y | X ) – среднее значение зависимой переменной Y при известных значениях независимых переменных X. В качестве функции связи обычно используется логарифм, также степенную и тождественную функцию.

Размер выборки — количество элементов в выборке. Размер выборки является важной величиной, при увеличении размера выборок точность оценок увеличивается. Однако мы не можем увеличивать размер выборки до бесконечности, так это связано с временными и финансовыми затратами.

Разнообразие Больших Данных (Big Data Variety) — относится к типу и характеру данных. Это помогает людям, которые анализируют его, эффективно использовать полученную информацию.

Сезонная вариация – значение интересующей нас переменной систематически изменяются согласно времени года.

Сериальная корреляция – корреляция между наблюдениями во временных сериях и наблюдениями, отделёнными между собой фиксированным временным интервалом.

Событие — подмножество пространства выборки. Например, пространство для эксперимента, в котором дважды бросается монета, определяется {ОО, ОР, РО, РР} и A = {ОР, ОО}, тогда A событие, в котором Орёл встречается в первую очередь.

Статистический критерий Вальда — применяется в логистической регрессии для проверки вклада отдельного коэффициента регрессии.

Форест-график – диаграмма, применяемая в метаанализе и показывающая оценённый эффект в каждом исследовании и их среднее с доверительными интервалами.

Хи-квадрат критерий — используется для проверки гипотезы об отсутствии между факторами в таблице сопряжённости. Также используется для проверки различий между пропорциями (долями) в данных, проверки однородности.

Цензурированные (неполные) данные — используются в анализе выживаемости, поскольку имеется неполная информация об исходе лечения. Также используются в оценке надежности технических систем.

«Ящик с усами» — диаграмма, построенная из набора числовых данных, в центре которой находится медиана, по сторонам ящика – квартили (максимальные и минимальные значения).

Технический директор / CTO

Технический директор / CTO

Словарь современных терминов Data Science