Gocapital.ru

Мировой кризис и Я
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Линейный регрессионный анализ

Линейная регрессия

Создавайте прогнозы с помощью простой для понимания математической формулы

Что такое линейная регрессия?

Линейный регрессионный анализ используется для прогнозирования значения переменной на основе значения другой переменной. Переменная, которую требуется предсказать, называется зависимой переменной. Переменная, которая используется для предсказания значения другой переменной, называется независимой переменной.

Эта форма анализа заключается в подборе таких коэффициентов линейного уравнения с одной или несколькими независимыми переменными, чтобы это уравнение наилучшим образом предсказывало значение зависимой переменной. Результат линейной регрессии может быть представлен в виде прямой на плоскости, минимизирующей расхождение между прогнозируемыми и фактическими значениями. Существуют простые калькуляторы линейной регрессии, в которых для расчета оптимальной прямой для аппроксимации набора данных используется метод наименьших квадратов. После этого выполняется оценка величины X (зависимой переменной) по величине Y (независимой переменной).

Простота прогнозирования

Расчет линейной регрессии с помощью Microsoft Excel или статистических пакетов, например IBM SPSS® Statistics, значительно упрощает работу с уравнениями, моделями и формулами линейной регрессии. SPSS Statistics может применяться для расчета простой и множественной линейной регрессии.

Линейной регрессией можно пользоваться в разнообразных программах и средах, например:

  • Линейная регрессия в R
  • Линейная регрессия в MATLAB
  • Линейная регрессия в Sklearn
  • Линейная регрессия в Python
  • Линейная регрессия в Excel

Почему линейная регрессия важна

Модели линейной регрессии сравнительно просты и предлагают простые для понимания математические формулы прогнозирования. Линейная регрессия может применяться в разных областях науки и бизнеса.

Линейная регрессия используется повсюду: в биологии, исследованиях поведения и окружающей среды, в обществознании и бизнесе. Модели линейной регрессии зарекомендовали себя в качестве надежного научного метода прогнозирования будущего. Поскольку линейная регрессия представляет собой хорошо изученную статистическую процедуру, свойства моделей линейной регрессии хорошо понятны и просты в обучении.

Надежный научный метод прогнозирования будущего.

Руководители могут пользоваться линейной регрессией для повышения качества принимаемых решений. Организации собирают большие объемы данных, и линейная регрессия помогает им пользоваться этими данными вместо опыта и интуиции для оптимизации взаимодействия с окружающей реальностью. Таким образом, появляется возможность трансформировать большие объемы данных в полезную информацию.

Линейной регрессией также можно пользоваться для повышения качества информации путем анализа закономерностей и взаимосвязей, которые ваши коллеги уже видели и думают, что понимают. Например, анализ данных о продажах и закупках помогает выявить закономерности в покупках в определенные дни недели или время суток. Информация, полученная с помощью регрессионного анализа, помогает прогнозировать периоды времени, когда продукция их компании будет пользоваться высоким спросом.

Читать еще:  Анализ кадрового потенциала организации

Основные допущения эффективной линейной регрессии

Допущения, которые следует принимать во внимание в ходе линейного регрессионного анализа:

  • Для каждой переменной: Примите во внимание количество допустимых случаев, среднее значение и стандартное отклонение.
  • Для каждой модели: Примите во внимание коэффициенты регрессии, матрицу корреляции, частичные корреляции, множественный коэффициент корреляции, коэффициент детерминации, скорректированный коэффициент детерминации, изменение коэффициента детерминации, стандартную ошибку оценки, таблицу анализа дисперсии, спрогнозированные значения и ошибки. Также следует принять во внимание 95%-е доверительные интервалы для каждого коэффициента регрессии, матрицы дисперсии и ковариации, фактор роста дисперсии, толерантность, критерий Дарбина-Уотсона, меры расстояния (Махаланобис, Кук и значения рычагов), DfBeta, DfFit, интервалы прогнозирования и диагностическую информацию по каждому конкретному случаю.
  • Диаграммы: Примите во внимание диаграммы рассеяния, частичные диаграммы, гистограммы и диаграммы нормального распределения.
  • Данные: Зависимые и независимые переменные должны быть числовыми. Категорийные данные, например религия, профильное образование или регион проживания, должны сохраняться в двоичных переменных или других переменных, допускающих сравнение.
  • Другие предположения: Для каждого значения независимой переменной распределение зависимой переменной должно быть нормальным. Дисперсия распределения зависимой переменной должна быть постоянной для всех значений независимой переменной. Связь между зависимой переменной и каждой независимой переменной должна быть линейной, и все наблюдения должны быть независимыми.

Регрессионный анализ

Материал из MachineLearning.

Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Содержание

Определение регрессионного анализа

Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть . Регрессионным анализом называется поиск такой функции , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

Читать еще:  Анализ ценовой политики организации

где — функция регрессионной зависимости, а — аддитивная случайная величина с нулевым матожиданием. Предположение о характере распределения этой величины называется гипотезой порождения данных. Обычно предполагается, что величина имеет гауссово распределение с нулевым средним и дисперсией .

Задача нахождения регрессионной модели нескольких свободных переменных ставится следующим образом. Задана выборка — множество значений свободных переменных и множество соответствующих им значений зависимой переменной. Эти множества обозначаются как , множество исходных данных . Задана регрессионная модель — параметрическое семейство функций зависящая от параметров и свободных переменных . Требуется найти наиболее вероятные параметры :

Функция вероятности зависит от гипотезы порождения данных и задается Байесовским выводом или методом наибольшего правдоподобия.

Линейная регрессия

Линейная регрессия предполагает, что функция зависит от параметров линейно. При этом линейная зависимость от свободной переменной необязательна,

В случае, когда функция линейная регрессия имеет вид

здесь — компоненты вектора .

Значения параметров в случае линейной регрессии находят с помощью метода наименьших квадратов. Использование этого метода обосновано предположением о гауссовском распределении случайной переменной.

Разности между фактическими значениями зависимой переменной и восстановленными называются регрессионными остатками (residuals). В литературе используются также синонимы: невязки и ошибки. Одной из важных оценок критерия качества полученной зависимости является сумма квадратов остатков:

Здесь — Sum of Squared Errors.

Дисперсия остатков вычисляется по формуле

Здесь — Mean Square Error, среднеквадратичная ошибка.

На графиках представлены выборки, обозначенные синими точками, и регрессионные зависимости, обозначенные сплошными линиями. По оси абсцисс отложена свободная переменная, а по оси ординат — зависимая. Все три зависимости линейны относительно параметров.

Нелинейная регрессия

Нелинейные регрессионные модели — модели вида

которые не могут быть представлены в виде скалярного произведения

где — параметры регрессионной модели, — свободная переменная из пространства , — зависимая переменная, — случайная величина и — функция из некоторого заданного множества.

Значения параметров в случае нелинейной регрессии находят с помощью одного из методов градиентного спуска, например алгоритма Левенберга-Марквардта.

О терминах

Термин «регрессия» был введён Фрэнсисом Гальтоном в конце 19-го века. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен «регрессия к посредственности». Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.

В статистической литературе различают регрессию с участием одной свободной переменной и с несколькими свободными переменными — одномерную и многомерную регрессию. Предполагается, что мы используем несколько свободных переменных, то есть, свободная переменная — вектор . В частных случаях, когда свободная переменная является скаляром, она будет обозначаться . Различают линейную и нелинейную регрессию. Если регрессионную модель не является линейной комбинацией функций от параметров, то говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией функций из некоторого набора. Нелинейными моделями являются, экспоненциальные, тригонометрические и другие (например, радиальные базисные функции или персептрон Розенблатта), полагающие зависимость между параметрами и зависимой переменной нелинейной.

Читать еще:  Функции отдела анализа

Различают параметрическую и непараметрическую регрессию. Строгую границу между этими двумя типами регрессий провести сложно. Сейчас не существует общепринятого критерия отличия одного типа моделей от другого. Например, считается, что линейные модели являются параметрическими, а модели, включающие усреднение зависимой переменной по пространству свободной переменной —непараметрическими. Пример параметрической регресионной модели: линейный предиктор, многослойный персептрон. Примеры смешанной регрессионной модели: функции радиального базиса. Непараметрическая модель — скользящее усреднение в окне некоторой ширины. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.

Есть различие между терминами: «приближение функций», «аппроксимация», «интерполяция», и «регрессия». Оно заключается в следующем.

Приближение функций. Дана функция дискретного или непрерывного аргумента. Требуется найти функцию из некоторого параметрическую семейства, например, среди алгебраических полиномов заданной степени. Параметры функции должны доставлять минимум некоторому функционалу, например,

Термин аппроксимация — синоним термина «приближение функций». Чаще используется тогда, когда речь идет о заданной функции, как о функции дискретного аргумента. Здесь также требуется отыскать такую функцию , которая проходит наиболее близко ко всем точкам заданной функции. При этом вводится понятие невязки — расстояния между точками непрерывной функции и соответствующими точками функции дискретного аргумента.

Интерполяция функций — частный случай задачи приближения, когда требуется, чтобы в определенных точках, называемых узлами интерполяции совпадали значения функции и приближающей ее функции . В более общем случае накладываются ограничения на значения некоторых производных производных. То есть, дана функция дискретного аргумента. Требуется отыскать такую функцию , которая проходит через все точки . При этом метрика обычно не используется, однако часто вводится понятие «гладкости» искомой функции.

Регрессия и классификация тесно связаны друг с другом. Термин алгоритм в классификации мог бы стать синонимом термина модель в регрессии, если бы алгоритм не оперировал с дискретным множеством ответов-классов, а модель — с непрерывно-определенной свободной переменной.

Ссылка на основную публикацию
Adblock
detector
×
×