Каждый программист должен хорошо разбираться не только в языках разработки, но и в некоторых точных науках. Примеры – статистика, информатика, математика. За счет этого получается не только логически рассуждать и делать грамотные выводы, но и решать большое количество разнообразных бизнес-задач.

В данной статье речь зайдет о моделях регрессии. Предстоит разобраться в определении соответствующего термина, целях применения регрессионного анализа, а также рассмотреть виды упомянутого компонента. Все это поможет разбираться лучше в наиболее вероятных характеристиках имеющихся факторов, случайных ошибках моделей.

Что это такое

Регрессия – метод, используемый для моделирования и анализа отношений между переменными. Позволяет просматривать влияние этих самых переменных на получение того или иного результата.

В теории вероятностей и математической статистике это:

  • обратное движение (от латинского regressio);
  • односторонняя стохастическая зависимость, устанавливающая соответствие между переменными (математическое выражение, отвечающее за связи зависимой переменной y и независимыми x при условии статистической значимости).

Существуют различные модели регрессии. Особое внимание уделяется линейной. Именно она встречается на практике чаще остальных. Далее акцент тоже будет сделан на линейных регрессиях, но и примеры остальных видов изучаемого компонента тоже изучим.

Линейный тип

Линейная регрессия – регрессионная модель одной переменной y от другой или нескольких переменных x. В процессе используется зависимость линейной функции. Отсюда и произошло соответствующее «название».

Пусть будут даны две непрерывные функции (это – переменные):

x = (x1, x2, x3,…,xn);

y = (y1, y2, y3,…,yn).

Нужно провести построение графика – разместить соответствующие точки на двумерном графике рассеяния. Данный прием позволяет получать линейные соотношения. Картина актуальна для ситуаций, при которых информация аппроксимируется прямой линией.

Если y зависит от x, а изменения в первой переменной вызваны корректировками во второй, можно определить линию регрессии. В данном случае целесообразно говорить о том, что имеет место регрессия y на x. Полученная линия лучшим образом опишет прямолинейное соотношение между указанными компонентами.

Простая классическая регрессия – способ выбора из заданного семейства функции той, что минимизирует функцию потерь. Последняя подчеркнет степень отклонения функции от заданных в точках значений. Это – основная задача линейной модели. Построить соответствующий ситуации график достаточно просто. Обычно он представляет собой линию.

Допущения

Простая классическая регрессия представляется зависимостью одной величины от другой. Ее элементарный вариант предусматривает такие требования (условия):

  • значения зависимой переменной определяются без ошибок;
  • модель имеет всего два параметра, которые будут задаваться заранее (предварительно);
  • ошибки распределения стремятся к нулю и имеют постоянное отклонение;
  • значения параметров неизвестны и не могут быть ясны заранее – их получают путем подбора.

В простой линейной ре грес сии параметры иногда выбирают самостоятельно, вручную. Но чаще всего для этого используют специальное программное обеспечение. Также существуют специальные формулы, которые позволяют провести необходимые вычисления и расчета собственноручно.

Нюансы расчетов

Простая регрессионная модель включает в себя функции. Если соответствующая информация имеет линейный вид, то и регрессия окажется линейной. Ее вычисление заключается в том, чтобы подобрать выборку по результатам анализа вычислений, информация в которых отвечает установленным правилам.

Данные в linear regression model должны соответствовать следующим критериям:

  • результаты являются адекватными;
  • используются статические гипотезы в параметрах модели;
  • оптимальные точечные и интервальные оценки.

Все это требуется принимать во внимание при прогнозировании и анализе, а также расчете линейной регрессии.

Регрессионная линия

Регрессионный анализ – это набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую. Это – ключевая задача соответствующего процесса.

Если нужно построить график линейной регрессии, придется иметь дело с одноименной линией. Простая модель описывается формулой: Y = a+bx. Здесь:

  • Y – переменная отклика (зависимая);
  • b – градиент оцененной линии (угловой коэффициент);
  • a – свободный член линии оценки (пересечение, значение Y в x = 0);
  • x – предиктор (независимое значение).
Что нужно знать о регрессии

Выше – примеры того, как можно построить график регрессионной линии. Расширить соответствующую интерпретацию можно путем включения в функции новых независимых переменных. В подобной ситуации целесообразно говорить не о простой вариации. Она будет множественной линейной регрессией. Оба варианта активно используются при прогнозировании в статистике и программировании.

Метод наименьших квадратов

Для того, чтобы определить в рассмотренной линейной формуле a и b, нужно использовать различные программы и приложения. Это позволит быстрее организовать не только расчеты, но и сопутствующее построение графиков.

Математики и статистики стараются пользоваться специальными формулами для реализации поставленной задачи. Лучше всего использовать выбор наблюдений. Здесь a и b – выборочные оценки генеральный параметров α и β. Они будут определять линию регрессионного компонента в совокупности. Такой подход носит название «метод наименьших квадратов» — МНК.

Здесь подборка оценивается путем рассмотрения остатков. Под последними подразумеваются вертикальные расстояния каждой точки от линии. Лучшая подгонка – такая, в которой сумма квадратов остатков является минимальной.

Что нужно знать о регрессии

Вот – пример линейных соответствующих расчетов. При помощи такого графического представления удается лучше понять метод наименьших квадратов в действии.

Полиноминальный тип

Модели регрессии бывают разными. Линейный тип – самый простой и распространенный, но есть и другие варианты. Пример – полиноминальный. Используется для нелинейных данных.

Метод предусматривает проведение кривой линии, которая зависит от точек на заданной плоскости. Степень независимых переменных больше единицы. Формула: Y = a1 * x1 + (a2)2 * x2 + (a3)4 * x3 + … + an*xn + b.

У некоторых переменных тут есть степень, а у некоторых – нет. Можно также выбрать определенную степень для каждого компонента. Для этого потребуются определенные знания о связи входных данных с выходными.

Что нужно знать о регрессии

Выше – построение линейной, а также полиноминальной регрессионной линии. О втором изучаемом типе необходимо запомнить следующее:

  1. Она моделирует нелинейно разделенные сведения. Является более гибкой в сравнении с линейной. Помогает при прогнозировании и моделировании сложных взаимосвязей.
  2. Предоставляет полнейший контроль над моделированием значений объекта. Подразумевается выбор степени.
  3. При работе с моделью нужно быть внимательными. Требуется учесть некоторые знания о данных для выбора наиболее приемлемой степени.

Если степень выбрана неправильно, модель перенасыщается. Соответствующая ситуация сильно искажает сформированный прогноз.

Гребневый тип

Задачи регрессий – это помощь при прогнозировании и моделировании различных ситуаций. Есть ридж-регрессия. Она добавляет небольшой фактор квадратичного смещения для того, чтобы уменьшить дисперсию: min ||Xw-y||2+z||w||2.

Этот фактор смещения выводит коэффициенты переменных из строго установленных ограничений. Происходит это за счет введения в модель небольшого смещения. Ситуация влечет за значительное снижение дисперсии.

Тут рекомендуется запомнить следующее:

  1. Допущения будут такими же, как и в методе наименьших квадратов. Разница заключается в том, что нормальное распределение в гребневой модели не предусматривается.
  2. Соответствующий примет направлен на уменьшение значения коэффициентов.

Коэффициенты здесь оказываются ненулевыми. Признаки отбора будут отсутствовать.

Метод «лассо»

Напоминает предыдущий вариант. Тут тоже нужно добавить условие смещения в функции оптимизации. Это необходимо для уменьшения коллинеарности и дисперсии. Вместо квадратичного смещения концепция предусматривает смешение абсолютного значения: min ||Xw-y||2+z||w||.

Существуют различия между гребневой моделью и «лассо». Они восстанавливают различия в свойствах регуляризации L2 и L1:

  1. Встроенный отбор признаков. Содержится в норме в L1 и отсутствует в L2. Отбор признаков – результат нормы L1, которая производит разреженные коэффициенты.
  2. Разряженность – это наличие незначительного количества входных данных в матрицах и векторах, которые имеют значения, отличные от нуля. Норма L1 производит большое количество коэффициентов «с нулями». Связано это с предыдущим пунктом.
  3. Вычислительная эффективность. Норма L1 не имеет аналитического решения, чего нельзя сказать об L2. Но решения L1 не имеют свойств разряженности. Это позволяет задействовать их с разряженными алгоритмами для получения наиболее результативных итогов.

Вся эта информация пригодится каждому программисту, математику и аналитику.

Эластичная сеть

Последняя модель регрессии – это «эластичная сеть». Представляет собой связь методов «лассо» и «гребневой». Использует L1 и L2 с учетом эффективности обоих концепций: min ||Xw-y||2+z1||w||+z2||w||2.

Преимущество эластичной сети заключается в том, что она позволяет наследовать некоторую стабильность гребневой регрессии при вращении. Тут рекомендуется помнить следующее:

  1. Модель создает условия для группового эффекта при высокой корреляции «параметров».
  2. Обнуление некоторых переменных, как в «лассо», не предусматривается.
  3. Ограничений по количестве переменных для выборки нет.

Теперь создание графиков и проведение анализа информации не доставит существенных проблем. При помощи регрессии может быть построен не только график, но и диаграмма. Здесь и здесь можно узнать больше о рассмотренной теме.

Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в Otus!


Также вам может быть интересен следующий курс:

Что нужно знать о регрессии