Gocapital.ru

Мировой кризис и Я
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Анализ главных компонент

Метод главных компонент: определение, применение, пример расчета

Метод главных компонентов (английский — principal component analysis, PCA) упрощает сложность высокоразмерных данных, сохраняя тенденции и шаблоны. Он делает это, преобразуя данные в меньшие размеры, которые действуют, как резюме функций. Такие данные очень распространены в разных отраслях науки и техники, и возникают, когда для каждого образца измеряются несколько признаков, например, таких как экспрессия многих видов. Подобный тип данных представляет проблемы, вызванные повышенной частотой ошибок из-за множественной коррекции данных.

Метод похож на кластеризацию — находит шаблоны без ссылок и анализирует их, проверяя, взяты ли образцы из разных групп исследования, и имеют ли они существенные различия. Как и во всех статистических методах, его можно применить неправильно. Масштабирование переменных может привести к разным результатам анализа, и очень важно, чтобы оно не корректировалось, на предмет соответствия предыдущему значению данных.

Цели анализа компонентов

Основная цель метода — обнаружить и уменьшить размерность набора данных, определить новые значимые базовые переменные. Для этого предлагается использовать специальные инструменты, например, собрать многомерные данные в матрице данных TableOfReal, в которой строки связаны со случаями и столбцами переменных. Поэтому TableOfReal интерпретируется как векторы данных numberOfRows, каждый вектор которых имеет число элементов Columns.

Традиционно метод главных компонентов выполняется по ковариационной матрице или по корреляционной матрице, которые можно вычислить из матрицы данных. Ковариационная матрица содержит масштабированные суммы квадратов и кросс-произведений. Корреляционная матрица подобна ковариационной матрице, но в ней сначала переменные, то есть столбцы, были стандартизованы. Вначале придется стандартизировать данные, если дисперсии или единицы измерения переменных сильно отличаются. Чтобы выполнить анализ, выбирают матрицу данных TabelOfReal в списке объектов и даже нажимают перейти.

Это приведет к появлению нового объекта в списке объектов по методу главных компонент. Теперь можно составить график кривых собственных значений, чтобы получить представление о важности каждого. И также программа может предложить действие: получить долю дисперсии или проверить равенство числа собственных значений и получить их равенство. Поскольку компоненты получены путем решения конкретной задачи оптимизации, у них есть некоторые «встроенные» свойства, например, максимальная изменчивость. Кроме того, существует ряд других их свойств, которые могут обеспечить факторный анализ:

  • дисперсию каждого, при этом доля полной дисперсии исходных переменных задается собственными значениями;
  • вычисления оценки, которые иллюстрируют значение каждого компонента при наблюдении;
  • получение нагрузок, которые описывают корреляцию между каждым компонентом и каждой переменной;
  • корреляцию между исходными переменными, воспроизведенными с помощью р–компонента;
  • воспроизведения исходных данных могут быть воспроизведены с р–компонентов;
  • «поворот» компонентов, чтобы повысить их интерпретируемость.

Выбор количества точек хранения

Существует два способа выбрать необходимое количество компонентов для хранения. Оба метода основаны на отношениях между собственными значениями. Для этого рекомендуется построить график значений. Если точки на графике имеют тенденцию выравниваться и достаточно близки к нулю, то их можно игнорировать. Ограничивают количество компонентов до числа, на которое приходится определенная доля общей дисперсии. Например, если пользователя удовлетворяет 95% от общей дисперсии — получают количество компонентов (VAF) 0.95.

Основные компоненты получают проектированием многомерного статистического анализа метода главных компонентов datavectors на пространстве собственных векторов. Это можно сделать двумя способами — непосредственно из TableOfReal без предварительного формирования PCA объекта и затем можно отобразить конфигурацию или ее номера. Выбрать объект и TableOfReal вместе и «Конфигурация», таким образом, выполняется анализ в собственном окружении компонентов.

Если стартовая точка оказывается симметричной матрицей, например, ковариационной, сначала выполняют сокращение до формы, а затем алгоритм QL с неявными сдвигами. Если же наоборот и отправная точка является матрица данных, то нельзя формировать матрицу с суммами квадратов. Вместо этого, переходят от численно более стабильного способа, и образуют разложения по сингулярным значениям. Тогда матрица будет содержать собственные векторы, а квадратные диагональные элементы — собственные значения.

Виды линейных комбинаций

Основным компонентом является нормализованная линейная комбинация исходных предикторов в наборе данных по методу главных компонент для чайников. На изображении выше PC1 и PC2 являются основными компонентами. Допустим, есть ряд предикторов, как X1, X2. Xp.

Основной компонент можно записать в виде: Z1 = 11X1 + 21X2 + 31X3 + . + p1Xp

  • Z1 — является первым главным компонентом;
  • p1 — является вектором нагрузки, состоящим из нагрузок (1, 2.) первого основного компонента.
Читать еще:  Многокритериальный анализ решений

Нагрузки ограничены суммой квадрата равного 1. Это связано с тем, что большая величина нагрузок может привести к большой дисперсии. Он также определяет направление основной компоненты (Z1), по которой данные больше всего различаются. Это приводит к тому, что линия в пространстве р-мер, ближе всего к n-наблюдениям.

Близость измеряется с использованием среднеквадратичного евклидова расстояния. X1..Xp являются нормированными предикторами. Нормализованные предикторы имеют среднее значение, равное нулю, а стандартное отклонение равно единице. Следовательно, первый главный компонент — это линейная комбинация исходных предикторных переменных, которая фиксирует максимальную дисперсию в наборе данных. Он определяет направление наибольшей изменчивости в данных. Чем больше изменчивость, зафиксированная в первом компоненте, тем больше информация, полученная им. Ни один другой не может иметь изменчивость выше первого основного.

Первый основной компонент приводит к строке, которая ближе всего к данным и сводит к минимуму сумму квадрата расстояния между точкой данных и линией. Второй главный компонент (Z2) также представляет собой линейную комбинацию исходных предикторов, которая фиксирует оставшуюся дисперсию в наборе данных и некоррелирована Z1. Другими словами, корреляция между первым и вторым компонентами должна равняться нулю. Он может быть представлен как: Z2 = 12X1 + 22X2 + 32X3 + . + p2Xp.

Если они некоррелированы, их направления должны быть ортогональными.

Процесс прогнозирования тестовых данных

После того как вычислены главные компоненты начинают процесс прогнозирования тестовых данных с их использованием. Процесс метода главных компонент для чайников прост.

Например, необходимо сделать преобразование в тестовый набор, включая функцию центра и масштабирования в языке R (вер.3.4.2) и его библиотеке rvest. R — свободный язык программирования для статистических вычислений и графики. Он был реконструирован в 1992 году для решения статистических задач пользователями. Это полный процесс моделирования после извлечения PCA.

Набор данных Python:

Для реализации PCA в python импортируют данные из библиотеки sklearn. Интерпретация остается такой же, как и пользователей R. Только набор данных, используемый для Python, представляет собой очищенную версию, в которой отсутствуют вмененные недостающие значения, а категориальные переменные преобразуются в числовые. Процесс моделирования остается таким же, как описано выше для пользователей R. Метод главных компонент, пример расчета:

Спектральное разложение

Идея метода основного компонента заключается в приближении этого выражения для выполнения факторного анализа. Вместо суммирования от 1 до p теперь суммируются от 1 до m, игнорируя последние p-m членов в сумме и получая третье выражение. Можно переписать это, как показано в выражении, которое используется для определения матрицы факторных нагрузок L, что дает окончательное выражение в матричной нотации. Если используются стандартизованные измерения, заменяют S на матрицу корреляционной выборки R.

Это формирует матрицу L фактор-нагрузки в факторном анализе и сопровождается транспонированной L. Для оценки конкретных дисперсий фактор-модель для матрицы дисперсии-ковариации.

Теперь будет равна матрице дисперсии-ковариации минус LL ‘ .

Основные компоненты определяются по формуле

  • Xi — вектор наблюдений для i-го субъекта.
  • S обозначает нашу выборочную дисперсионно-ковариационную матрицу.

Тогда p собственные значения для этой матрицы ковариации дисперсии, а также соответствующих собственных векторов для этой матрицы.

Собственные значения S:λ^1, λ^2, . , λ^п.

Собственные векторы S:е^1, e^2, . , e^п.

Анализ Excel в биоинформатике

Анализ PCA — это мощный и популярный метод многомерного анализа, который позволяет исследовать многомерные наборы данных с количественными переменными. По этой методике широко используется метод главных компонент в биоинформатике, маркетинге, социологии и многих других областях. XLSTAT предоставляет полную и гибкую функцию для изучения данных непосредственно в Excel и предлагает несколько стандартных и расширенных опций, которые позволят получить глубокое представление о пользовательских данных.

Можно запустить программу на необработанных данных или на матрицах различий, добавить дополнительные переменные или наблюдения, отфильтровать переменные в соответствии с различными критериями для оптимизации чтения карт. Кроме того, можно выполнять повороты. Легко настраивать корреляционный круг, график наблюдений в качестве стандартных диаграмм Excel. Достаточно перенести данные из отчета о результатах, чтобы использовать их в анализе.

XLSTAT предлагает несколько методов обработки данных, которые будут использоваться на входных данных до вычислений основного компонента:

  1. Pearson, классический PCA, который автоматически стандартизирует данные для вычислений, чтобы избежать раздутого влияния переменных с большими отклонениями от результата.
  2. Ковариация, которая работает с нестандартными отклонениями.
  3. Полихорические, для порядковых данных.
Читать еще:  Методы анализа эффективности использования трудовых ресурсов

Примеры анализа данных размерностей

Можно рассмотреть метод главных компонентов на примере выполнения симметричной корреляционной или ковариационной матрицы. Это означает, что матрица должна быть числовой и иметь стандартизованные данные. Допустим, есть набор данных размерностью 300 (n) × 50 (p). Где n — представляет количество наблюдений, а p — число предикторов.

Поскольку имеется большой p = 50, может быть p(p-1)/2 диаграмма рассеяния. В этом случае было бы хорошим подходом выбрать подмножество предиктора p (p 21 сентября, 2018

Анализ главных компонент

Данный пример иллюстрирует применение модуля Анализ главных компонент и классификация. Для набора переменных создается факторное пространство, затем направляющие полученного пространства интерпретируются. Затем, на карте этого пространства анализируются дополнительные наблюдения и переменные. В примере используется файл данных из работы Jambu (1991), которые представляются собой различные характеристики образа жизни для 28 (групп) людей.

А именно, каждая переменная соответствует одному из 10 изучаемых видов социальной активности, которому посвящают время представители одной из 28 групп. Показателем является общее время, посвященное данному виду активности представителями группы в часах. Некоторые данные отсутствуют. При анализе пропуски заменяются на соответствующие средние. В качестве вспомогательных переменных выступают три дополнительные переменные SLEEP — (СОН), TV — (ТЕЛЕВИЗОР) и LEISURE — (ДОСУГ). Для того, чтобы проиллюстрировать способ задания основных и вспомогательных переменных, в файл данных добавлена дополнительная группирующая переменная GENDER — (ПОЛ). Для присвоения меток точкам на графиках, добавлена переменная GEO.REGION — (РЕГИОН). Обратим внимание, что ввиду этих изменений в структуре данных, результаты не будут идентичными результатам, опубликованным в работе Jambu (1991).

Цель анализа. Целью данного анализа является изучение взаимосвязей между различными социальной активности, чтобы выявить скрытые факторы (направляющие факторного пространства минимально возможной размерности), которые упростили бы процесс классификации изучаемых групп населения, а так же сделали бы возможной визуализацию этих групп. То есть, хотелось бы нанести результаты на карту полученного пространства.

Откройте файл данных Activities.sta и запустите модуль Анализ главных компонент и классификация через меню Анализ — Многомерный разведочный анализ. Выберите вкладку Дополнительно, нажмите кнопку Переменные, чтобы Выбрать переменные для анализа. Переменные анализа: список WORK — РАБОТА — MEAL — ПРИЕМ ПИЩИ. Вспомогательные: SLEEP — СОН, TV — ТЕЛЕВИЗОР и LEISURE — ДОСУГ. С основными наблюдениями: GENDER — ПОЛ. Группирующая: GEO.REGION — РЕГИОН.

Так же выберите FEMALE — ЖЕН. в качестве кода для активных наблюдений в поле Код для основных наблюдений. После того, переменные заданы, важно принять решение будет ли анализ проводится на основе ковариаций, либо корреляций. В нашем случае анализ будет проводиться на основе корреляционной матрицы. Поэтому, выберите опцию Анализ основан на Корреляциях. Так же, в группе опций Удаление ПД установите Замена средним, для того, чтобы заменить пропуски на соответствующие значения средних.

Нажмите кнопку OK, чтобы провести начальные вычисления. Затем, в диалоге Результатов установите Число факторов равным 2. В результате, Качество представления будет равным 81%.

Давайте вначале просмотрим основные результаты: В информационном поле диалога Главные компоненты и результаты анализа классификаций представлена общая информация о текущем анализе. Это число активных и вспомогательных переменных и наблюдений и собственные значения. Другие результаты доступны во вкладке Переменные диалогового окна Результатов.

Собственные значения. Посмотрим на собственные значения. Нажмите на кнопку Собственные значения, чтобы построить таблицу собственных значений. В этой таблице для каждого собственного значения так же представлен процент объясненной дисперсии, кумулятивное собственное значение и кумулятивный процент объясненной дисперсии. Собственные значения представлены в порядке убывания, отражая тем самым степень важности соответствующих выделенных факторов для объяснения вариации исходных данных.

Фактор, соответствующий максимальному значению (3.976814), описывает приблизительно 56.8% общей вариации. Второй фактор, для значения (1.690162) отвечает за 25.77% общей вариации и т.д. Когда анализируются корреляционные матрицы, сумма собственных значений равна числу (активных) переменных, для которых выделены (рассчитаны) факторы, при этом «среднее ожидаемое» собственное значение равно 1.0. На практике применяется много критериев для правильного выбора размерности факторного пространства (см. так же раздел Электронного руководства Факторный анализ). Наиболее простой из них — оставить только те факторы, собственные значения которых больше 1. В данном примере, только первые два собственных значения больше 1 и они объясняют 82% общей вариации.

Читать еще:  Метод функционального анализа

График каменистой осыпи. Другой способ определения числа факторов — построение и анализ, так называемого графика каменистой осыпи (см. Cattell, 1966). Этот график является линейным и на нем отображается последовательность собственных значений. Чтобы построить такой график, нажмите кнопку График каменистой осыпи.

Cattell предложил определить на этом графике собственное значение, начиная с которого «горка» теряет свою кривизну и выходит на примерно постоянный уровень. Правая часть графика представляет собой лишь незначительные остатки «каменистую осыпь.» Осыпь — это геологический термин, означающий каменные осколки (лом), лежащие у подножия скалы. Таким образом, нужно оставить не более чем число факторов, расположенных слева от осыпи.

Факторные координаты переменных. Затем, нажмите кнопку Факторные координаты переменных, чтобы получить таблицу координат исходных факторов в пространстве новых, выделенных факторов. Координаты отображаются как для активных переменных, так и для вспомогательных. Так как текущий анализ производится на основе корреляционной матрицы, выводимые результаты можно интерпретировать как корреляции соответствующих переменных с каждым фактором.

В данном случае, первая ось, соответствующая собственному значению 3.976814, наиболее сильно коррелирует с переменными WORK — РАБОТА и TRANSPORT — ТРАНСПОРТ (большие отрицательные корреляции), HOUSEHOLD — ДОМАШНИЙ БЫТ и CHILDREN — ДЕТИ (большие положительные корреляции). На основе значений факторных координат (корреляций между переменными и факторами) для активных и вспомогательных переменных, а так же на основе знаков этих корреляций, можно субъективно обозначить первую выделенную ось как Социальная активность, связанная с работой и домом (большие отрицательные коэффициенты для WORK — РАБОТА, TRANSPORT — ТРАНСПОРТ и PERSONAL CARE — ЛИЧНАЯ БЕЗОПАСНОСТЬ в совокупности с HOUSEHOLD — ДОМАШНИЙ БЫТ, CHILDREN — ДЕТИ и т.д). Вторую же ось можно обозначить как социальная активность, связанная с типом работы, требующего современно организации жизни (SHOPPING — ПОКУПКИ, ЛИЧНАЯ БЕЗОПАСНОСТЬ). Однако, вы можете выбрать другие названия для выделенных факторов (при этом включение вспомогательных переменных и наблюдений может сделать интерпретацию второго фактора более ясной).

2М график факторных координат переменных. График факторных координат часто сильно упрощает процесс интерпретации факторов. Нажмите кнопку 2М график факторов перем., чтобы построить соответствующий график для двух выделенных факторов.

Заметим, что по умолчанию на этом графике будет показан единичный круг. Так как текущий анализ основан на корреляциях, максимальное значение факторной координаты не может превысить 1.0. Кроме того, квадраты всех факторных координат для всех переменных (т.е., квадраты корреляций между переменной и всеми факторами) не могут превысить значения 1.0. Таким образом, все факторные координаты должны попасть в единичный круг, выведенный на график. Этот круг является визуальным индикатором того, на сколько хорошо каждая переменная воспроизводится текущим набором выделенных факторов (чем ближе переменная к единичной окружности, тем лучше она воспроизведена в найденной системе координат).

Просмотр результатов и графиков для наблюдений. Выберите вкладку Наблюдения, чтобы просмотреть результаты для наблюдений (строк). В этой вкладке выберите Без имен/номеров, в группе опций Опции графиков, затем нажмите кнопку 2М графики факторные набл.

На этом графике изображаются все наблюдения в выделенном пространстве факторов. Изображаются как активные наблюдения, которые использовались при расчете факторов (а именно, Females — Женщины), так и вспомогательные наблюдения, которые только изображаются на факторной карте (Males — Мужчины). На этом графике заметен интересный результат кластеризации активных и вспомогательных наблюдений. Оказывается, что все вспомогательные наблюдения (Males — Мужчины, изображаются красными точками) смещены влево от центра первой оси (т.е., имеют отрицательные значения координат по первой, горизонтальной оси). При интерпретации этого фактора как Социальная активность, связанная с работой и домом, где переменные WORK — РАБОТА и TRANSPORT — ТРАНСПОРТ, как раз определяют отрицательную (левую) часть этой направляющей, оказывается, что Мужчины сгруппированы в области Work — Работа данной направляющей.

Цель данного примера — проиллюстрировать возможность применения модуля Анализ главных компонент и классификация для выявления ключевых факторов набора переменных, нанесения на карту выделенных осей других интересующих переменных и выявления кластеров наблюдений с общими характеристиками по отношению к полученным направляющим.

Ссылка на основную публикацию
Adblock
detector
×
×