Gocapital.ru

Мировой кризис и Я
6 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Множественный регрессионный анализ это

Множественный регрессионный анализ

1) изучение взаимосвязи одной переменной («зависимой», результирующей) от нескольких других («независимых», исходных);

2) выявление среди «независимых» переменных наиболее существенных, важных для предсказания «зависимой», а также тех, которыми можно пренебречь, исключить в дальнейшем их из анализа.

Обычно множественный регрессионный анализ (МРА) применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик. При этом предполагается, что связь между значениями метрической «зависимой» переменной Y и несколькими «независимыми» переменными X, измеренных у множества объектов (испытуемых), можно выразить линейным уравнением:

где Y — зависимая переменная; x1, x2, …. xр — независимые переменные; b, b1, b2, … bр — параметры модели; e — ошибка предсказания.

Требования к исходным данным:

1) Строгих указаний о соотношении количества испытуемых N и количества признаков m нет, но в некоторых источниках рекомендуется следующее соотношение N>m в 3 раза.

2) Признаки должны быть измерены по количественным шкалам (интервальной или пропорциональной) и иметь нормальное распределение.

3) Для анализа отбираются независимые переменные сильно коррелирующие с зависимой и слабо — друг с другом.

Дискриминантный анализ («классификация с обучением») предсказывает принадлежность объектов (испытуемых) к одному из известных классов (шкала наименований) по измеренным метрическим (дискриминантным) переменным. Дискриминантные переменные должны быть измерены в количественной шкале, зависимая переменная — в шкале наименований. Рекомендуется двукратное превышение числа испытуемых над числом переменных.

Требования к исходным данным:

1) В отношении количества признаков m строгих ограничений нет, но часто рекомендуется следующее соотношение количества испытуемых N и количества признаков m: N>m в 2 раза.

2) Признаки должны быть измерены по количественным шкалам ( интервальной или пропорциональной) и иметь нормальное распределение.

3) Между переменными должны отсутствовать линейные зависимости (коэффициенты корреляции, близкие к 1,00).

Кластерный анализ («классификация без обучения») по измеренным характеристикам у множества объектов (испытуемых) либо по данным об их попарном сходстве (различии) разбивает это множество объектов на группы, в каждой из которых находятся объекты, более похожие друг на друга, чем на объекты других групп.

Требования к исходным данным: Ограничений в использовании нет. Может применяться даже для признаков, измеренных по шкале наименований, лишь бы между ними возможно было определить сходство/различие.

Многомерное шкалирование выявляет шкалы как критерии, по которым поляризуются объекты при их субъективном попарном сравнении.

Факторный анализ направлен на выявление структуры переменных как совокупности факторов, каждый из которых — это скрытая, обобщающая причина взаимосвязи группы переменных. Надежные результаты получаются, если переменные измерены в количественной шкале. Число испытуемых должно превышать число переменных (или, по крайней мере, должно быть равно ему).

Требования к исходным данным:

1) Признаки должны быть измерены по количественным шкалам ( интервальной или пропорциональной) и иметь нормальное распределение. Включение в анализ порядковых или бинарных данных допустимо, но исследователь должен отдавать себе отчет в том, что искажения факторной структуры будут соответствовать искажениям коэффициентов корреляций и характер искажений неизвестен. В общем случае — желательно перейти к единой шкале для всех признаков (либо ранговой, либо бинарной), затем вычислять матрицу интеркорреляций, выбирая соответствующие меры взаимосвязи.

2) Соотношение количества признаков m и количества испытуемых N зависит от целей исследования.

А) Если цель анализа — уменьшение исходного количества переменных путем перехода к новым переменным-факторам, то строгих ограничений нет. Желательно лишь, чтобы N было не меньше m.

Б) Если исследователь хочет обнаружить и обосновать наличие факторов за взаимосвязями признаков, то N должно быть больше m не менее чем в 3 раза.

В) Если исследователь хочет обосновать существование выявленной факторной структуры для генеральной совокупности, то испытуемых N должно быть еще больше.

3) Недопустимы функциональные зависимости между признаками и не желательны корреляции, близкие к 1,00.

Возникновение и развитие факторного анализа тесно связано с измерени­ями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начи­ная с 50-х годов XX столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К на­стоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описа­нием изучаемых объектов, таких, как социология, экономика, биология, ме­дицина и другие.

Основная идея факторного анализа была сформулирована еще Ф. Гальтоном, ос­новоположником измерений индивидуальных различий. Она сводится к тому, что если несколько признаков, измеренных на группе индивидов, изменяются согла­сованно, то можно предположить существование одной общей причины этой со­вместной изменчивости — фактора как скрытой (латентной), непосредственно не доступной измерению переменной. При этом фактор является скрытой причиной согласованной изменчивости наблюдаемых переменных

Далее К. Пирсон в 1901 году выдвигает идею «метода главных осей», а Ч. Спирмен, отстаивая свою однофакторную концепцию интеллекта, разрабатывает математический аппарат для оценки этого фактора, ис­ходя из множества измерений способнос­тей. В своей работе, опубликованной в 1904 году, Ч. Спирмен показал, что если ряд признаков попарно коррелируют друг с другом, то может быть составлена система линей­ных уравнений, связывающих все эти при­знаки, один общий фактор «общей ода­ренности» и по одному специфическому фактору «специальных способностей» для каждой переменной. В 1930-х годах Л. Терстоун впервые предлагает «многофакторный анализ» для описания многочислен­ных измеренных способностей меньшим числом общих факторов интеллекта, яв­ляющихся линейной комбинацией этих исходных способностей.

С 1950-х годов, с появлением компьютеров, факторный анализ начинает очень широко использоваться в психологии при разработке тестов, обоснования струк­турных теорий интеллекта и личности. При этом исследователь начинает с множе­ства измеренных эмпирических показателей, которые при помощи факторного анализа группируются по факторам (изучаемым свойствам). Факторы получают интерпретацию по входящим в них переменным, затем отбираются наиболее «ве­сомые» показатели этих факторов, отсеиваются малозначимые переменные, вы­числяются значения факторов для испытуемых и сопоставляются с внешними эм­пирическими показателями изучаемых свойств.

В дальнейшем, по мере развития математического обеспечения факторного анали­за, накопления опыта его использования, прежде всего в психологии, задача фак­торного анализа обобщается. Как общенаучный метод, факторный анализ стано­вится средством для замены набора коррелирующих измерений существенно меньшим числом новых переменных (факторов). При этом основными требовани­ями являются: а) минимальная потеря информации, содержащейся в исходных дан­ных, и б) возможность представления (интерпретации) факторов через исходные переменные.

Таким образом, главная цель факторного анализа уменьшение размерно­сти исходных данных с целью их экономного описания при условии мини­мальных потерь исходной информации. Результатомфакторного анализа является переход от множества исходных переменных к существенно мень­шему числу новых переменных — факторов. Факторпри этом интерпретиру­ется как причина совместной изменчивости нескольких исходных перемен­ных.

Если исходить из предположения о том, что корреляции могут быть объ­яснены влиянием скрытых причин — факторов, то основное назначение фак­торного анализа — анализ корреляций множества признаков.

Рассмотрим результаты факторного анализа на простом примере. Предположим, исследователь измерил на выборке из 50 испытуемых 5 показателей интеллекта: счет в уме, продолжение числовых рядов, осведомленность, словарный запас, установ­ление сходства. Все показатели статистически значимо взаимосвязаны на уровне р

Регрессионный анализ. Множественная линейная регрессия.

Регрессионный анализ. Простая линейная регрессия.

Регрессионный анализ – статистический метод исследования зависимости между зависимой переменной и одной или несколькими независимыми переменными. Независимые переменные иначе называют регрессорами или предикторами, а зависимые

переменные – критериальными. Существую различные виды регрессионного анализа – одномерная и многомерная, линейная и нелинейная, параметрическая и непараметрическая. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия.

Порядковую регрессию можно использовать, когда зависимые переменные относятся к порядковой шкале. И, конечно же, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

Читать еще:  Метод функционального анализа

Рассмотрим линейные модели простую и множественную регрессию.

Простая линейная регрессия.

Простой регрессионный анализ предназначен для выявления взаимосвязи одной зависимой переменной и одной независимой переменной. Аналогом простой регрессии является однофакторный ANOVA при условии, что независимая переменная будет измерена в номинальной шкале.

Основные требования к простому регрессионному анализу:

— переменные должны быть измерены в шкале интервалов или отношений;

— предположительно нормальное распределение переменных;

— отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной; исходя из этого, следует избегать включения в анализ переменных, корреляции между которыми больше 0,8.

— число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

Основными показателями простого регрессионного анализа являются:

β-коэффициенты (Beta) – стандартизированные __________коэффициенты регрессии, знак которых

соответствует знаку корреляции независимой и зависимой переменной;

B – коэффициенты регрессии;

R – коэффициент множественной корреляции;

R2 – коэффициент множественной детерминации (чем он выше, тем больше процентов

дисперсии зависимой переменной объясняет данная модель);

F – критерий Фишера и его достоверность;

В простом линейном регрессионном анализе квадратный корень из коэффициента

детерминации, обозначаемый «R», равен корреляционному коэффициенту Пирсона. При

множественном анализе эта величина менее наглядна, нежели сам коэффициент детерминации. Величина «смещенный R-квадрат» всегда меньше, чем несмещенный.

Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными

рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии.

Регрессионный анализ. Множественная линейная регрессия.

Множественная регрессия состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Во множественной линейной регрессии предпосылки регрессионного анализа и его проведение полностью совпадают с простой линейной регрессией. Особенностью множественной регрессии является корреляция независимых переменных. Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной.

Основные требования и показатели множественного регрессионного анализа такие же, как и для простой регрессии.

Требования — отсутствие линейных взаимосвязей между переменными, переменные должны быть измерены в шкале интервалов или отношений и предположительно должны иметь нормальное распределение.

Показатели — стандартизированные коэффициенты регрессии, коэффициенты регрессии, коэффициент множественной корреляции, коэффициент множественной детерминации, критерий Фишера и его достоверность.

Желательно отбирать для множественного регрессионного анализа те независимые

переменные, которые сильно коррелируют с зависимой переменной, в то же время, они должны слабо коррелировать друг с другом. Если независимых переменных много, то целесообразно перед множественным регрессионным анализом провести факторный анализ (направлен на редукцию данных).

Существует 3 вида методов множественной регрессии. Стандартный метод – учитывает все зависимые переменные. Пошаговые методы (прямой и обратный) позволяют подобрать наиболее оптимальную комбинацию независимых переменных. Поэтому, на мой взгляд, для множественного анализа следует выбрать один из пошаговых методов.

При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной пошагово увязываются в регрессионное уравнение.

При обратном методе начинают с результата, содержащего все независимые переменные и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым.

Необходимо отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому Вы можете применить каждый из них, а потом выбрать более подходящий конечный результат.

Множественный регрессионный анализ может применяться как в исследовательских целях, так и для решения прикладных задач. Обычно множественная регрессия применяется для изучения возможности предсказания некоторого результата по ряду предварительно измеренных характеристик.

Также помимо предсказания и определения степени его точности множественная регрессия позволяет определить и то, какие показатели, или независимые переменные, наиболее существенны и важны для предсказания, а какие переменные можно просто исключить из анализа.

Аналогом множественной регрессии является многофакторный дисперсионный анализ в том случае, когда независимые переменные измерены в номинальной шкале.

К тому же, если зависимая переменная измерена в номинальной шкале, то стоит воспользоваться вторым аналогом множественной регрессии – дискриминантным анализом.

Однако, дискриминантный анализ это не просто аналог множественной регрессии, он выполняет не только функцию поиска предикторов, но еще и позволяет оптимально точно классифицировать объекты на группы, соответствующие разным градациям зависимой переменной, предсказать с какой точностью были разделены объекты исследователем (например, исследователем были выделены группы испытуемых с высокой, средней и низкой ответственностью), а также научить данный метод самостоятельно классифицировать последующие объекты по выявленной модели переменных. Поэтому дискриминантный анализ еще называется классификационный анализ с обучением.

Основными целями множественного линейного регрессионного анализа являются:

1) Определение того, в какой мере зависимая переменная связана с совокупностью

независимых переменных и, какова статистическая значимость этой взаимосвязи. Рассматриваемые показатели – коэффициент множественной корреляции и его статистическаязначимость по критерию F (Фишера).

2) Определение существенности вклада каждой независимой переменной в оценку зависимой переменной, отсев несущественных для предсказания независимых переменных. Рассматриваемые показатели – регрессионные β-коэффициенты и их статистическая значимость по t-критерию Стьюдента.

3) Анализ точности предсказания и вероятных ошибок оценки зависимой переменной. Рассматриваемые показатели – коэффициент множественной детерминации.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос о том, «что является лучшим предиктором для. ». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида.

Множественный регрессионный анализ

Множественный регрессионный анализ (МРА) предназначен для изучения взаимосвязи одной переменной (зависимой) и нескольких других переменных (независимых). Обычно применяется для изучения возможностей предсказания некоторого результата по ряду предварительно измеренных характеристик. При этом предполагается, что связь между одной зависимей переменной и несколькими независимыми переменными можно выразить линейным уравнением (что позволяет осуществлять предсказание).

Множественный регрессионный анализ может применяться как для решения прикладных задач, так и для изучения возможностей предсказания некоторого результата по ряду предварительно измеренных характеристик.

Помимо предсказания и определения его точности, множественный регрессионный анализ позволяет определить, какие показатели наиболее существенны, важны для предсказания, а какими переменными можно пренебречь, исключив их из анализа. Например, психолога может интересовать вопрос о том, какие психологические характеристики в наибольшей степени влияют на проявление исследуемой формы поведения или какие индивидуальные особенности лучше предсказывают успешность деятельности.

Ограничение: переменные должны быть измерены в метрической шкале и иметь нормальное распределение. При нарушении этого требования результаты также могут быть полезны.

Для МРА желательно отбирать «независимые» переменные, сильно коррелирующие с «зависимой» переменной и слабо — друг с другом. Если независимых переменных много и наблюдается множество связей между ними, то целесообразно провести факторный анализ этих независимых переменных с вычислением значений факторов для объектов. Таким образом, основными целями МРА являются:

1. Определение того, в какой мере «зависимая» переменная связана с совокупностью «независимых» переменных, какова статистическая значимость этой взаимосвязи. Показатель — коэффициент множественной корреляции и его статистическая значимость по критерию Фишера.

2. Определение существенности вклада каждой «независимой» переменной в оценку «зависимой» переменной, отсев несущественных для предсказания «независимых» переменных. Показатели — регрессионные коэффициенты и их статистическая значимость.

3. Анализ точности предсказания и вероятностных ошибок оценки «зависимой» переменной. Показатель — коэффициент детерминации, интерпретируемый как доля дисперсии «зависимой» переменной, объясняемая совокупностью «независимых» переменных. Вероятностные ошибки предсказания анализируются по расхождению действительных значений «зависимой» переменной и оцененных при помощи модели МРА.

Читать еще:  Основные приемы экономического анализа

4. Оценка (предсказание) неизвестных значений «зависимой» переменной по известным значениям «независимых» переменных. Осуществляется по вычисленным параметрам множественной регрессии.

Нелинейная регрессия

Иногда, при проведении анализа линейной модели, исследователь получает данные о ее неадекватности. В этом случае его по-прежнему интересует зависимость между предикторными переменными и откликом, но для уточнения модели в ее уравнение добавляются некоторые нелинейные члены. Самым удобным способом оценивания параметров полученной регрес­сии является нелинейное оценивание. Например, его можно использовать для уточнения зависимости между стажем работы и производительностью труда, стоимостью дома и временем, необходимым для его продажи и т.д.

Нелинейное оценивание оставляет выбор характера зависимости за исследователем. Например, вы можете определить зависимую переменную как логарифмическую функцию от предикторной переменной, как степенную функцию или как любую другую композицию элементарных функций от предикторов.

Если позволить рассмотрение любого типа зависимости между предикторами и переменной отклика, возникают два вопроса.
Во-первых, как истолковать найденную зависимость в виде простых практических рекомендаций. С этой точки зрения линейная зависимость очень удобна, так как позволяет дать простое пояснение: чем больше X (т.е. чем больше цена дома), тем больше У (тем больше времени нужно, чтобы его продать), и, задавая конкретные приращения X, можно ожидать пропорциональное приращение У. Нелинейные соотношения обычно нельзя так просто проинтерпретировать и выразить словами. Второй вопрос — как проверить, имеется ли на самом деле предсказанная нелинейная зависимость.

Формально говоря, нелинейное оценивание является универсальном аппроксимирующей процедурой, оценивающей любой вид зависимостимежду переменной отклика и набором независимых переменных.

В общем случае, все регрессионные модели могут быть записаны в виде формулы:

При проведении регрессионного, а в частности нелинейного регрес­сионного анализа, исследователя интересует, связана ли и если да. то как, зависимая переменная и набор независимых переменных. Выражение F(x) в выписанном выше выражении означает, что переменная отклика у является функцией от независимой переменной х.

Множественный регрессионный анализ;

Предназначен для изучения взаимосвязи одной переменной (зависимой, результирующей) и нескольких других переменных (независимых, исходных). Исходные данные для множественного регрессионного анализа представляют собой таблицу, строки которой соответствуют испытуемым, столбцы – переменным.

Все переменные должны быть измерены в количественной шкале. Допускается наличие «фиктивных» переменных, измеренных в дихотомической шкале. Одна из переменных определяется исследователем как зависимая, остальные (или часть их) как независимые. Допускается, что для некоторых объектов значения независимой переменной неизвестны, а их определение (оценка) может составлять важный результат анализа.

МРА может применяться как для решения прикладных задач, так и в исследовательских целях. Обычно МРА применяется для изучения возможности предсказания некоторого результата по ряду измеренных характеристик. При этом предполагается, что связь между одной зависимой переменной (Y) и несколькими независимыми переменными (X) можно выразить линейным уравнением: , где Y – зависимая переменная, х1, х2, …, хР – независимые переменные, b2, …, bР – параметры модели, е – ошибка предсказания.

Например:

МРА позволяет определить, какие показатели важны для предсказания, а какие можно исключить.

Если зависимая переменная Y является номинативной, то модель множественной регрессии неприменима, вместо нее может быть применен дискриминантный анализ, который решает те же задачи и позволяет получить сходные результаты.

МРА может применяться и в том случае, если переменная Y является причиной изменении нескольких переменных х1, х2, …, хР. Так, зависимой переменной может быть скрытая причина, фактор, например личностное свойство, а независимыми переменными — пункты теста, измеряющие различные проявления этого свойства. Таким образом, понятия «зависимая» и «независимая» переменные в МРА являются условными, а определение направления причинно-следственной связи выходит за рамки применения самого метода.

МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ИДЕИ МЕТОДА

Исходным положением линейного МРА является возможность представления значений «зависимой» переменной Y через значения «независимых» переменных х1, х2, …, хР в виде линейного уравнения: , где b — свободный член, b1, b2, …, bР коэффициенты регрессии, е — ошибка оценки. Коэффициенты регрессии вычисляются методом наименьших квадратов при решении системы из линейных уравнений, с минимизацией ошибки е.

После вычисления регрессионных коэффициентов по значениям независимых переменных для каждого из объектов могут быть вычислены оценки зависимой переменной Ŷ: .

Сопоставление значений зависимой переменной Y с их оценками Ŷ по выборке испытуемых, для которых значения Y известны, называется анализом остатков или ошибок. Он позволяет оценить возможные погрешности предсказания. Значения оценок Y могут быть вычислены и для испытуемых, истинные значения зависимой переменной для которых неизвестны.

Далее можно вычислить коэффициент корреляции Пирсона (R) между известными значениями «зависимой» переменной Y и ее оценками. Это один из способов получения коэффициента множественной корреляции (КМК) между «зависимой» и «независимыми» переменными. Коэффициент множественной корреляции —это мера линейной связи одной переменной с множеством других переменных; принимает положительные значения от 0 (отсутствие связи) до 1 (строгая прямая связь). КМК наряду с разностями между исходными и оцененными значениями «зависимой» переменной (ошибки е) — основные показатели качества модели множественной регрессии.

Кроме коэффициента множественной корреляции может быть вычислен коэффициент множественной детерминации(КМД), который равен коэффициенту множественной корреляции в квадрате или: КМД = R 2 . Он показывает ту часть дисперсии «зависимой» переменной, которая обусловлена влиянием «независимых» переменных.

Например:

Основной показатель МРА – коэффициент множественной корреляции (R), который, подобно парному коэффициенту корреляции Пирсона, является мерой линейной взаимосвязи одной переменной с совокупностью других переменных. КМК «зависимой» переменной с набором «независимых» переменных, как и КМД, принимает только положительные значения, изменяясь в пределах от 0 до 1. Статистическая значимость КМК определяется по критерию F-Фишера для соответствующих степеней свободы.

Таким образом, основными целями МРА являются:

1. Определение того, в какой мере «зависимая» переменная связана с совокупностью «независимых» переменных, какова статистическая значимость этой взаимосвязи. Показатель — коэффициент множественной корреляции (КМК) и его статистическая значимость по критерию F-Фишера.

2. Определение существенности вклада каждой «независимой» переменной в оценку «зависимой» переменной, отсев несущественных для предсказания «независимых» переменных. Показатели — регрессионные коэффициенты bi, их статистическая значимость по критерию t-Стьюдента.

3. Анализ точности предсказания и вероятных ошибок оценки «зависимой» переменной. Показатель — квадрат КМК, интерпретируемый как доля дисперсии «зависимой» переменной, объясняемая совокупностью «независимых» переменных. Вероятные ошибки предсказания анализируются по расхождению (разности) действительных значений «зависимой» переменной и оцененных при помощи модели МРА.

4. Оценка (предсказание) неизвестных значений «зависимой» переменной по известным значениям «независимых» переменных. Осуществляется по вычисленным параметрам множественной регрессии.

Множественная линейная регрессия

16.2 Множественная линейная регрессия

В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. Это, конечно же, наносит ущерб наглядности получаемых результатов, так как подобные множественные связи в конце концов становится невозможно представить графически.

В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения

где n — количество независимых переменных, обозначенных как х1 и хn, а — некоторая константа.

Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.

В качестве примера рассмотрим стоматологическое обследование 1130 человек, в котором исследуется вопрос необходимости лечения зубного ряда, измеряемой при помощи так называемого показателя CPITN, в зависимости от набора различных переменных.

При этом зубной ряд был разделён на секстанты, для которых и происходило определение показателя CPITN. Этот показатель может принимать значения от 0 до 4, где 0 соответствует здоровому состоянию, а 4 наибольшей степени развития заболевания. Затем значения показателя CPITN для всех секстант были усреднены.

Файл zahn.sav содержит следующие переменные:

Переменные cpitn и alter принадлежат к интервальной шкале, а переменные s, pu и zb при более подробном рассмотрении можно отнести к порядковой (ранговой) шкале, так что они могут быть подвергнуты регрессионному анализу. Переменная g относится к номинальной шкале, но в то же время является дихотомической. Поэтому если при оценке результатов обратить внимание на полярность, то и эта переменная так же может быть вовлечена в регрессионный анализ. Однако, переменная beruf относится к номинальной шкале и имеет более двух (а именно четыре) категории. Поэтому, без дополнительной обработки ее нельзя применять в дальнейших расчётах.

Читать еще:  Анализ и оценка деятельности организации

В данном случае можно прибегнуть к специальному трюку: разложить переменную beruf на четыре, так называемых, фиктивных переменных, с кодировками отвечающими 0 (действительно) и 1 (ложно). В файл добавляются четыре новые переменные: beruf1beruf4, которые поочередно соответствуют четырём различным кодировкам переменной beruf. Так, к примеру, переменная beruf1 указывает на то, является ли данный респондент государственным служащим/работником (кодировка 1) или нет (кодировка 0).

Выберите в меню Analyze. (Анализ) ► Regression. (Регрессия) ► Linear. (Линейная)

Поместите переменную cpitn в поле для зависимых переменных, объявите переменные: alter, beraf1, bеruf2, beruf3, beruf4, g, pu, s и zb независимыми.

Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных (Enter), установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной. Для множественного анализа следует выбрать один из пошаговых методов.

В списке Method имеются следующие возможности:

  • Enter — простейший способ — все данные формируются в единую группу.
  • Remove — это метод, который позволяет отбрасывать переменные в процессе определения конечной модели.
  • Stepwise — это метод, который позволяет добавлять и удалять отдельные переменные в соответствии с параметрами, установленными в окне Options.
  • Backward — данный метод позволяет последовательно удалять переменные из модели в соответствии с параметрами в окне Options, до того момента, пока это возможно (например по критерию значимости).
  • Forward — данный метод позволяет последовательно добавлять переменные в модель в соответствии с параметрами в окне Options, до того момента, пока это возможно.

При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной пошагово увязываются в регрессионное уравнение. При обратном методе начинают с результата, содержащего все независимые переменные и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым (в данном случае уровень значимости равен 0,1).

Наиболее распространенным является пошаговый метод, который устроен так же, как и прямой метод, однако после каждого шага переменные, используемые в данный момент, исследуются по обратному методу. При пошаговом методе могут задаваться блоки независимых переменных; в этом случае заданные блоки на одном шаге обрабатываются совместно.

Выберите пошаговый метод, но воздержитесь от блочной формы ввода данных, не задавайте больше ни каких дополнительных расчётов и начните вычисление нажатием ОК.

Model Summary (Сводная таблица модели)

a. Predictors: (Constant), Alter (Влияющие переменные: (константа), возраст).
b. Predictors: (Constant), Alter, Putzhaeufigkeit (Влияющие переменные: (константа), возраст, периодичность чистки).
c. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки).
d. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование).
е. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung, Arbeiter/Facharbeiter (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование, рабочий/профессиональный работник).

Из первой таблице следует, что вовлечение переменных в расчет производилось за пять шагов, то есть переменные: возраст, периодичность чистки, смена зубной щётки, образование, рабочий/профессиональный работник поочерёдно внедрялись в уравнение регрессии. Для каждого шага происходит вывод коэффициентов множественной регрессии, меры определённости, смещенной меры определённости и стандартной ошибки.

К указанным результатам пошагово присоединяются результаты расчёта дисперсии, которые здесь не приводятся. Также, пошаговым образом, производится вывод соответствующих коэффициентов регрессии и значимость их отличия от нуля.

Coefficients (Коэффициенты) a

а. Dереnаdеnt variable: Mittlerer CPITN-Wert (Зависимая переменная: усреднённое значение CPITN)

Вдобавок ко всему для каждого шага анализируются исключённые переменные. В вышеприведенной таблице в объяснениях нуждаются лишь коэффициенты ß. Это — регрессионные коэффициенты, стандартизованные соответствующей области значений, они указывают на важность независимых переменных, вовлечённых в регрессионное уравнение.

Уравнение регрессии для прогнозирования значения CPITN выглядит следующим образом:

cpitn = 0,032 • alter — 0.379 • рu + 0,229 • zb — 0,083 • s + 0,143 • benuf2 + 2,022

Для 40-летнего рабочего с неполным школьным образованием, который ежедневно чистит зубы один раз в день и меняет щётку раз в полгода, с учётом соответствующих кодировок, получается следующее уравнение:

cpitn = 0,032 • 40 — 0,379 • 2 + 0,229 • 3 — 0,083 • 2 + 0,143 • 1 + 2,022 = 3,208

При помощи соответствующих опций можно организовать вывод большого числа дополнительных статистических характеристик и графиков, на которых мы здесь останавливаться не будем. Можно также создать много дополнительных переменных и добавить их в исходный файл данных.

Важным шагом перед запуском процедуры построения регрессионной модели может быть пункт Collinearity Diagnostics в диалоговом окне Statistics. . Установление требования провести диагностику наличия коллинеарности между независимыми переменными позволяет избежать эффекта мультиколлинеарности, при котором несколько независимых переменных могут иметь настолько сильную корреляцию, что в регрессионной модели обозначают, в принципе, одно и то же (это неприемлемо).

Результат диагностики коллинеарности показан в таблице Coefficients в колонках Collinearity Statistics. Если величина значения VIF (Variance Inflation Factor) возле каждой независимой переменной меньше 10 — значит, эффекта мультиколлинеарности не наблюдается и регрессионная модель приемлема для дальнейшей интерпретации. Чем выше показатель VIF, тем более связаны между собой переменные. Если какая-либо переменная превышает значение в 10 VIF, следует пересчитать регрессию без этой независимой переменной.

Важным моментом является анализ остатков, то есть отклонений наблюдаемых значений от теоретически ожидаемых. Остатки должны появляться случайно (то есть не систематически) и подчиняться нормальному распределению. Это можно проверить, если с помощью кнопки Charts. (Диаграммы) построить гистограмму остатков. В приведенном примере наблюдается довольно хорошее согласование гистограммы остатков с нормальным распределением.

Рис. 16.14: Гистограмма остатков

Автокорреляция остатков модели регрессии

Проверка на наличие систематических связей между остатками соседних случаев , может быть произведена при помощи теста Дарбина-Ватсона (Durbin-Watson) на автокорреляцию остатков. Остатки должны быть случайными, однако при моделировании нередко встречается ситуация, когда остатки содержат тенденцию или циклические колебания. Это свидетельствует о том, что каждое следующее значение остатков зависит от предшествующих. В этом случае говорят об автокорреляции остатков модели регрессии. Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу. Иногда причину автокорреляции остатков следует искать в формулировке модели. В модель может быть не включен фактор, оказывающий существенное воздействие на результат, но влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Зачастую этим фактором является фактор времени t. Либо модель не учитывает несколько второстепенных факторов, совместное влияние которых на результат существенно ввиду совпадения тенденций их изменения или фаз циклических колебаний.

Тест Дарбина-Ватсона вычисляет коэффициент, лежащий в диапазоне от 0 до 4. Если значение этого коэффициента находится вблизи 2, то это означает, что автокорреляция отсутствует. Этот тест можно активировать через кнопку Statistics (Статистические характеристики). В данном примере тест дает удовлетворительное значение коэффициента, равное 1,776.

Ещё одной дополнительной возможностью является задание переменной отбора в диалоговом окне Linear Regression (Линейная регрессия). Здесь, с помощью кнопки Rule. (Правило) в диалоговом окне Linear Regression: Define Selection Rule (Линейная регрессия: ввод условия отбора), Вы получаете возможность при помощи избирательного признака сформулировать условие, которое будет ограничивать количество случаев, вовлеченных в анализ.

Ссылка на основную публикацию
Adblock
detector