Gocapital.ru

Мировой кризис и Я
5 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Анализ данных методом многомерного шкалирования

Анализ данных методом многомерного шкалирования

С появлением персональных компьютеров и стремительным ростом как компьютерной, так и программной индустрии в последние десятилетия все чаще и чаще человек начинает использовать новые методики в различных сферах жизни. Так, с появлением статистических пакетов, таких как Statistica, Spss, Stadia, появилась возможность оперативного решения статистических задач в медицине, экономике, зоологии, нефтегазовой отрасли и др. за считанные минуты.

В данной статье речь пойдет о двух статистических методах: многомерном методе шкалирования и кластеризации. В реальности эти методики в основном используются раздельно независимо друг от друга. В данной работе предлагается их использование совместно, так как именно это позволит получить больший эффект от реализации этих методов в исследовании.

Для начала дадим определения этим методам. Кластеризация – это классификация объектов на основе их сходства друг с другом, когда принадлежность обучающих объектов каким-либо классам не задаётся. Многомерное шкалирование – это математический инструмент, который позволяет изобразить сходства и различия объектов в пространственной карте. И тот, и другой метод объединяет графическое представление полученного решения. В этом и состоит привлекательность этих методов. А что будет, если их совместить? Для ответа на этот вопрос потребуется разобрать эти методы более детально.

Алгоритмы кластеризации очень похожи на алгоритмы классификации, но есть и принципиальные различия. Так, например, алгоритмы классификации позволяют отнести в определенный класс каждый объект с заранее известными параметрами, полученными на этапе обучения. В кластеризации разбиваются множества объектов на кластеры, параметры которых заранее неизвестны. В классификации количество классов строго ограничено, а в кластеризации число кластеров может быть как произвольным, так и фиксированным. Таким образом, отличием кластерного анализа от других методов классификации является отсутствие обучающей выборки (классификация без обучения), а его достоинством – возможность производить разбиение объектов не по одному параметру, а по ряду признаков.

Выделяют две группы методов кластерного анализа: иерархические и неиерархические. Различие состоит в выдаваемых на выходе данных. Иерархические алгоритмы (рис. 1) на выходе выдают некую иерархию кластеров, и мы вольны, выбрать любой уровень этой иерархии для того, чтобы интерпретировать результаты алгоритма. Неиерархические – это, фактически, все алгоритмы, которые на выходе иерархию не выдают (или выбор интерпретации происходит не по уровню иерархии).

В свою очередь иерархические методы подразделяются на агломеративные и итеративные дивизимные процедуры.

Агломеративные процедуры начинают свое выполнение с того, что каждый объект заносят в свой собственный кластер и по мере выполнения объединяют кластеры до тех пор, пока в конце не получается один кластер, включающий в себя все объекты набора.

Рис. 1. Иерархическая кластеризация

Итеративные дивизимные процедуры, напротив, сначала относят все объекты в один кластер и затем разделяют этот кластер до тех пор, пока каждый объект не окажется в своем собственном кластере, исходя из задаваемых условий разбиения, которые могут быть изменены пользователем для достижения желаемого качества.

Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда.

Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правилом формирования новых кластеров и правилом остановки. Чаще всего используется алгоритм К-средних. Он подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении.

Методы многомерного шкалирования

Для получения качественного результата многомерного шкалирования необходима информация обо всех или почти всех сходствах между различными комбинациями пар объектов и вычислительная техника. На выходе получается изображение точек, на графике близко расположенных относительно друг друга, если объекты похожи и соответственно далеко друг от друга в случае значительных различий между ними. Таким образом, входная информация для задачи многомерного шкалирования – сведения о попарных сходствах или связях анализируемых объектов (индивидуумов, семей, предприятий, отраслей и т.п.), а выходная – приписанные каждому из объектов числовые значения координат в некоторой вспомогательной (найденной в процессе решения) координатной системе.

Многомерное шкалирование по сути является альтернативой факторному и компонентному анализу. В многомерном шкалировании, так же как и в компонентном анализе, основными данными являются меры близости. При условии, что исходные данные были стандартизированы, корреляции являются значениями сходства, и расстояния вычислены с помощью евклидовой метрики по формуле (1), как метод многомерного шкалирования, так и компонентный анализ в результате воспроизведут идентичный график согласно исследованию Chatfield и Collins [3].

Как в кластер-анализе, так и в многомерном шкалировании используются меры близости. Существует большое количество мер близостей (более 25 разновидностей), и выбор той или иной из них обуславливается содержательными соображениями и спецификой имеющихся данных.

Одной из популярных мер близостей является Евклидово расстояние:

. (1)

Другой мерой близости может быть манхэттенское расстояние, или «расстояние городских кварталов» (city-block), которое является просто средним разностей по координатам. В большинстве случаев данная мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида, однако для нее влияние отдельных больших разностей (выбросов) уменьшается (т.к. они не возводятся в квадрат). Манхеттенское расстояние определяется следующим образом:

(2)

Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формуле:

(3)

Теперь для примера совместим результат, полученный на рис. 1, с многомерным методом шкалирования и представим на рис. 2.

Рис. 2. Многомерное шкалирование и кластер-анализ

Представим, что точки A, B, C, D, E, F и G – это предприятия. Ось x интерпретирована как выручка, а ось y ‒ как прибыль. Овалами точки объединены в кластеры. В результате можно сделать вывод о том, что данные поделены на два кластера: первый – это предприятия с большим объемом выручки (A, B, C и D), второй – с меньшим. В дальнейшем кластеры разбиваются на другие кластеры, которые также можно охарактеризовать следующим образом (таблица). Таким образом, с помощью многомерного шкалирования и кластеризации мы расположили в двумерном пространстве компании, разбили их на группы и описали.

Пространственные карты. Использование многомерного шкалирования в маркетинге

Многомерное шкалирование — это класс методов для представления восприятий и предпочтений респондентов в пространстве с помощью наглядного изображения.

Воспринимаемые (психологические) взаимосвязи между объектами представляют в виде геометрических связей между точками в многомерном пространстве. Эти геометрические представления часто называют пространственными картами. Оси координат на пространственной карте соответствуют психологическим факторам поведения человека или, иначе говоря, основным размерностям, которыми пользуются респонденты для формирования восприятия и предпочтения объектов.

Информация, полученная в результате многомерного шкалирования, используется для решения разнообразных задач в маркетинге.

1. Измерение имиджа. Восприятие фирмы потребителями и непотребителями ее продукции в сравнении с собственным восприятием фирмы самой себя.

2. Сегментация рынка. Расположение в одном и том же пространстве торговых марок и потребителей для выявления относительно однородных по восприятиям групп потребителей.

3. Разработка нового товара. Многомерное шкалирование позволяет увидеть пробелы на пространственной карте, которые указывают потенциальные возможности для размещения новых товаров. Кроме того, этот анализ используют, чтобы с помощью тестирования оценить новый товар и существующие торговые марки и таким образом определить, как потребители воспринимают новые идеи, заложенные в товаре. Доля предпочтений для каждого нового товара служит индикатором успеха этого изделия.

4. Оценка эффективности рекламы. Пространственные карты можно использовать для определения эффективности рекламы с точки зрения занятия торговой маркой желаемого положения на рынке.

5. Ценовой анализ. Сравнение пространственных карт, разработанных с учетом и без учета восприятия иены, позволяет определить влияние цены на поведение покупателей.

6. Решение о числе каналов сбыта. Мнения респондентов о сопоставимости торговых марок с различными торговыми точками могут привести к пространственным картам, полезным для принятия решения о количестве каналов сбыта.

7. Построение шкалы отношений. Методы многомерного шкалирования используются для разработки соответствующей по размерности и конфигурации шкалы отношений.

Понятия, применяемые в многомерном шкалировании:

Оценка сходства — рейтинги всех возможных пар торговых марок или других объектов, отражающие их сходство по шкале Лайкерта.

Ранги предпочтений — ранги торговых марок или других объектов в порядке их уменьшения (от большего к меньшему). Обычно эти данные получают при опросе респондентов.

Стресс — мера соответствия подогнанной модели исходным данным: чем выше значение стресса, тем ниже качество подгонки модели.

R-квадрат — квадрат коэффициента корреляции, который показывает долю дисперсии оптимально отображенных данных, которые могут быть учтены многомерным шкалированием, мера соответствия подогнанной модели исходным данным.

Координаты — указывают расположение торговых марок или объектов на пространственной карте.

Развертка — представление торговых марок и респондентов в виде точек в одном и том же пространстве.

Порядок выполнения многомерного шкалирования

Порядок выполнения многомерного шкалирования включает следующие этапы:

1. формулирование проблемы;

2. получение исходных данных;

4. принятие решения о числе размерностей;

5. обозначение размерностей и интерпретация конфигурации точек на пространственной карте;

6. оценка достоверности и надежности.

Формулирование проблемы.

При формулировании проблемы исследователю необходимо конкретизировать цель использования результатов многомерного шкалирования и выбрать торговые марки или другие объекты, которые предполагается проанализировать. Именно они определяют размерность шкалирования и получаемые конфигурации. Чтобы получить хорошо определяемую пространственную карту, следует включить как минимум 8 торговых марок или объектов. Включение свыше 25 торговых марок, вероятно, будет громоздким и утомит респондентов при опросе.

Очень внимательно надо подходить к выбору конкретных торговых марок или объектов. В основе выбора количества торговых марок и их конкретных наименований должна лежать проблема, маркетингового исследования, теоретические предпосылки и интуиция исследователя.

Многомерное шкалирование проиллюстрировано по этапам с позиции получения пространственной карты для 10 известных марок зубной пасты: Aqua-Fresh, Crest, Colgate, Aim, Gleem, Macleans, Ultra Brite, Close-Up, Pepsodent и Dentagard.

Получение исходных данных.

Как показано на рис.16.1, исходные данные, полученные от респондентов, должны быть связаны с восприятиями или предпочтениями.

Рис.16.1. Исходные данные для многомерного шкалирования

При использовании прямого подхода к сбору данных о восприятии респондентов просят оценить, используя их собственный критерий, насколько похожи или не похожи между собой различные известные торговые марки. От респондентов часто требуется оценить все возможные пары известных торговых марок, рассматривая сходство по шкале Лайкерта. Эти данные связаны с оценками респондентов о сходстве товаров. Например, оценки сходства по всем возможным парам марок зубной пасты можно получить в виде табл.16.1.

Число оцениваемых пар равно n*(n-1)/2, где n — число объектов.

Читать еще:  Множественный регрессионный анализ это

Существуют и другие методы сбора данных. Респондентов можно попросить проранжировать все возможные пары от наиболее похожих к наименее похожим. В другом методе респонденты ранжируют известные торговые марки по сравнению с определенной базовой торговой маркой. Каждая торговая марка, в свою очередь, служит такой базой.

В примере использован прямой метод. Респондентов попросили высказать свое мнение о сходстве для всех 45 (10 * 9/2) пар торговых марок зубной пасты, используя семибалльную шкалу. Данные, полученные от одного из респондентов, представлены в табл.16.2.

Непрямые подходы к сбору данных о восприятии основаны на характеристиках объектов и требуют, чтобы респонденты оценивали объекты, исходя из их определенных характеристик, используя семантическую дифференциальную шкалу или шкалу Лайкерта.

Например, различные марки зубной пасты можно оценить на основе следующих характеристик:

Предотвращает кариес ————————-Не предотвращает развитие кариеса

Иногда в набор объектов также включают идеальную торговую марку. Респондентов просят оценить гипотетическую идеальную торговую марку по одному и тому же набору характеристик. Если атрибутивные рейтинги получены, то для каждой пары торговых марок выводят меру сходства (евклидово расстояние).

Прямые методы по сравнению с непрямыми методами. Прямые методы имеют то преимущество, что исследователю не приходится определять набор явных характеристик. Респонденты оценивают сходство объектов, используя собственный критерий. К недостаткам прямого подхода можно отнести то, что на критерий влияют рассматриваемые торговые марки. Если различные известные марки автомобилей находятся в одном ценовом диапазоне, то цена не будет важным фактором. Достаточно сложно определить перед началом анализа, надо ли и если надо, то как объединять оценки респондентов. Более того, может быть затруднительно дать название размерностям на пространственной карте.

Преимущество непрямого подхода состоит в том, что легко разделить респондентов на однородные группы в соответствии с их отношением к объекту, т.е. исходя из оценок свойств объекта. Также легко обозначить размерности на пространственной карте. Недостатком метода считается то, что исследователь должен определить все явные характеристики, а это непростая задача. На основе идентифицированных характеристик получают пространственную карту.

Прямые подходы используют чаще, чем непрямые (атрибутивные). Однако лучше всего использовать оба подхода как взаимодополняющие. Суждения респондентов о сходстве объектов, полученные прямым методом, используются для получения пространственной карты, а атрибутивные оценки — для интерпретации размерностей карты восприятий. Аналогичные процедуры используют для данных, касающихся предпочтений респондентов.

Данные, касающиеся предпочтений респондентов. С помощью данных о предпочтениях маркетолог может увидеть порядок предпочтения объектов респондентами с точки зрения какого-либо их свойства. Обычный способ получения таких данных — ранжирование предпочтений. От респондентов требуется проранжировать торговые марки в порядке снижения их предпочтения (от наиболее предпочитаемого к наименее). Альтернативно, респондентов можно попросить выполнить попарное сравнение и указать, какую торговую марку они предпочитают в данной паре. Другой метод сбора данных о предпочтениях — получение оценок предпочтений для разных торговых марок. Если в основе пространственной карты лежат данные о предпочтениях, то расстояние означает различие в предпочтениях. Конфигурация, выведенная из данных о предпочтениях, может сильно отличаться от конфигурации, полученной на основе данных сходства объектов. Две торговые марки можно воспринимать как различные на карте восприятий, и как одинаковые на карте предпочтений, и наоборот.

Например, зубные пасты Crest и Pepsodent могут восприниматься группой респондентов как совершенно разные, и поэтому соответствующие им точки будут далеко отстоять друг от друга на карте восприятий. Однако респонденты могут в равной степени предпочитать эти две марки зубной пасты, и поэтому на карте предпочтений точки, соответствующие маркам этих зубных паст, находятся недалеко одна от другой. Чтобы проиллюстрировать процедуру многомерного шкалирования, мы используем данные восприятий, полученные в примере с зубной пастой, а затем рассмотрим шкалирование данных о предпочтениях.

Выбор метода.

Выбор конкретного метода многомерного шкалирования зависит от того, какие именно данные — о восприятиях или о предпочтениях, подлежат шкалированию, или необходимо проанализировать оба их вида.

Неметрические методы многомерного шкалирования предполагают, что исходные данные будут порядковыми, но в результате анализа они преобразуются в метрические. Предположим, что расстояния на полученной пространственной карте выражены в интервальной шкале. Неметрические методы многомерного шкалирования определяют, в заданной размерности, пространственную карту, на которой ранговые порядки оцененных расстояний между торговыми марками или объектами наилучшим образом сохраняют или воспроизводят ранговые порядки исходных данных.

В противоположность этому, метрические методы многомерного шкалирования предполагают, что исходные данные метрические. Поскольку выходные данные также метрические, между исходными и выходными данными сохраняется сильная взаимосвязь, а атрибуты исходных данных, выраженные в метрической шкале (интервальной или относительной), также сохраняются.

Метрические и неметрические методы приводят к одинаковым результатам.

Другой фактор, влияющий на выбор метода, определяет, проводится многомерное шкалирование на уровне отдельного респондента или на агрегатном уровне.

В анализе на уровне респондента данные анализируют отдельно для каждого респондента и получают пространственную карту также для каждого респондента. Хотя анализ на индивидуальном уровне полезен с точки зрения перспектив исследования, по мнению менеджмента, он не очень привлекателен.

Маркетинговые стратегии обычно формулируют на сегментном или агрегатном уровне, а не на индивидуальном. Если выполнять анализ на агрегатном уровне, то при объединении индивидуальных данных необходимо сделать некоторые допущения. Обычно принимают, что все респонденты используют одни и те же размерности для оценки торговых марок или объектов, но разные респонденты взвешивают эти общие размерности по-разному.

Данные в табл.16.2 представляют проранжированную оценку восприятия, для получения которой использовали порядковую шкалу. Поэтому маркетологи использовали неметрический метод многомерного шкалирования. Поскольку эти данные получены от одного респондента, исследователи выполнили анализ на индивидуальном уровне. Для построения пространственных карт использовали от одной до четырех размерностей, а затем приняли решение о соответствующем количестве размерностей. Это решение (о количестве размерностей) -это центральный пункт многомерного шкалирования.

Анализ данных методом многомерного шкалирования

Описываемый пример основан на файле Nations . sta . Эти данные обсуждались в работе Краскала и Виша ( Kruskal and Wish (1978, стр. 30)). Открыть этот файл можно с помощью меню Файл, выбрав команду Открыть; файл находится в директории / Examples / Datasets . Файл данных включает средние рейтинги сходств 18 студентов из 12 стран. Сравнивались студенты из Бразилии, Конго, Кубы, Египта, Франции, Индии, Израиля, Японии, Китая, России, США, и Югославии. Фрагмент полученной матрицы сходств приводится на рисунке ниже.

Заметим, что файл с матрицей сходства можно создать, просто вводя значения ее элементов в новой электронной таблице, следуя соглашениям по формату данных (они описаны в разделе Формат матричного файла).

Задание параметров анализа. Выберите команду Многомерное шкалирование в меню Анализ — Углубленные методы анализа, чтобы отобразить на экране стартовую панель модуля Многомерное шкалирование. Нажмите кнопку Переменные и в появившемся окне Выбор переменных выберите все переменные для анализа, нажмите кнопку OK .

Программа предполагает, что вы хотели бы найти двумерное решение для исходной матрицы сходств, и что стартовая конфигурация точек должна находится с помощью анализа главных компонент. Вы также можете задать стартовую конфигурацию во вкладке Опции указав файл данных системы STATISTICA , содержащий по строкам начальные координаты для точек.

Нажмите на кнопку OK , чтобы принять установки по умолчанию. Во-первых, будет вычислена стартовая конфигурация, и координаты ее точек будут отображены в электронной таблице в окне Оценивание параметров. (Заметим, что позже вы можете просмотреть эти начальные конфигурации, нажав на кнопку Запустить (начальную) конфигурацию во вкладке Просмотреть и сохранить диалогового окна Результаты.)

Выполнение анализа. Итерационный алгоритм поиска оптимальной конфигурации работает в два этапа: на первом, программа использует метод наискорейшего спуска. Соответствующее число итераций данного метода отображается в первой колонке (под заголовком итер. s 🙂 в окне Оценивание параметров.

На втором этапе, после каждой итерации метода наискорейшего спуска, программа будет выполнять до пяти дополнительных итераций, с тем чтобы «уточнить» найденную конфигурацию (см. раздел Технические замечания для более детального ознакомления). Соответствующее число таких итераций будет отображено во второй колонке окна Оценивание параметров (она помечена, как итер. s :). Кроме того, программа вычисляет значения стресса ( Kruskal , 1964) и коэффициента отчуждения Гутмана ( Guttman , 1968). Они отображаются на экране на каждом шаге (см. также Вводный обзор и Технические замечания). Детальное обсуждение этой итерационной процедуры можно найти в работе Shiffman , Reynolds , Young (1981, стр. 366-370).

После определения наилучшей двумерной конфигурации программа выведет на экран окончательное значение стресса. Для перехода к окну Результатов нажмите кнопку OK .

Результаты. Опции окна Результаты позволяют просмотреть параметры полученной конфигурации в виде таблиц результатов или на графиках.

Вначале проведем сравнение исходной таблицы расстояний (сходства, связей) с воспроизведенными в полученной конфигурации точками.

Расстояния: воспроизведенные и наблюдаемые. Чтобы оценить качество подгонки двумерного решения, нажмите кнопку Итоги во вкладке Дополнительно окна Результаты.

В полученной таблице результатов имеется четыре колонки. В колонках D -с крышечкой и D -со звездочкой включают в себя монотонные преобразования входных данных (см. раздел Вводный обзор): D -со звездочкой вычисляются как ранговые образы, описанные в работе Гутмана ( Guttman (1968)) (их еще называют «отклонениями»); значения из колонки D -с крышечкой являются оценками монотонной регрессии, вычисление которых описано в работе Краскала ( Kruskal (1964)).

Строки в электронной таблице отсортированы по величине D -с крышечкой или D -со звездочкой. Каждая строка представляет одно из расстояний, заданных воспроизведенной матрицей сходства. Второй столбец таблицы содержит расстояния, воспроизведенные в текущей конфигурации. Если модель хорошо согласуется с данными (выбранные отображение и размерность адекватны данным), то последовательность воспроизведенных расстояний должна быть та же, что и для преобразованных входных данных (т.е. D -с крышечкой и D -со звездочкой). Неупорядоченные элементы указывают на неточность подгонки модели. Первый столбец таблицы результатов содержит имена элементов исходной матрицы, в виде D ( X , Y ), где X соответствует номеру строки, а Y — номеру столбца исходной матрицы.

Например, D (2,1) соответствует элементу второй строки, первого столбца исходной матрицы (в нашем примере сравнение между Congo и Brazil ). Как видно из таблицы, исходная последовательность расстояний достаточно точно воспроизводится двумерной конфигурацией точек.

Диаграмма Шепарда. Теперь перейдем к исследованию диаграммы Шепарда. Как уже говорилось во Вводном обзоре, эта диаграмма рассеяния является графиком зависимости воспроизведенных расстояний от исходных расстояний. Она также содержит в виде ступенчатой функции монотонное преобразование D -с крышечкой исходных расстояний. Для построения графика нажмите кнопку Диаграмма Шепарда во вкладке Быстрый или Дополнительно диалогового окна Результаты.

Большинство точек на этом графике располагаются сгруппировано вблизи этой ступенчатой линии. Поэтому можно заключить, что найденная двумерная конфигурация вполне адекватна исходным данным.

Интерпретация полученной конфигурации. Чтобы проинтерпретировать полученное решение, можно изобразить данную конфигурацию рассматриваемых наций на плоскости (в двумерном пространстве). Для этого вернитесь во вкладку Дополнительно и нажмите кнопку График окончательной конфигурации. После этого откроется промежуточное диалоговое окно Выберите оси для диаграммы рассеяния, в котором можно выбрать координатные оси для построения на экране двумерной диаграммы рассеяния. Выберите Измерен. 1 в поле Первая ( X ), Измерен. 2 в поле Вторая ( Y ) и затем нажмите кнопку OK , чтобы построить график.

Читать еще:  Анализ и оценка внутренней среды организации

Как описано во Вводном обзоре, направление осей в методе МНШ можно выбрать любым, так же как и в методах Факторного анализа). Таким образом, можно вращать полученную конфигурацию, чтобы получить проще интерпретируемые данные. Краскал и Виш ( Kruskal и Wish (1978)) использовали программу KYST (реализующую несколько иной алгоритм МНШ) с тем, чтобы проанализировать рассматриваемые данные, и получили очень похожий результат. В дальнейшем они повернули найденное решение примерно на 45 градусов и проинтерпретировали повернутые оси координат как развитые и неразвитые страны, и страны с западной и коммунистической ориентацией. После изучения графика внизу, (повернутого на 45 градусов), эта интерпретация представляется вполне разумной (вспомним, что исследование проводилось в середине 1970’х).

Вообще, в дополнение к «осмысленным координатным осям», полезно также проверить наличие кластеров определенного вида (например, окружности, многообразия и т.п.). Подробнее интерпретация полученной конфигурации описана в работах Borg and Lingoes (1987), Borg and Shye (в печати) и Gutman (1968).

Продолжение анализа. Теперь нажмите кнопку Отмена в окне Результаты, чтобы вернуться в стартовую панель модуля Многомерное шкалирование.

Отметим, что установки программы по умолчанию во вкладке Опции отличаются от тех, что были при первом запуске программы. Модуль Многомерное шкалирование запоминает конфигурацию, найденную на предыдущем этапе анализа (до тех пор, пока вы не выберите новый файл или новые случаи). Кроме того, по умолчанию размерности образа для шкалирующего отображения во вкладке Быстрый равно 1. Сейчас можно нажать OK , чтобы вычислить одномерное решение, используя конфигурацию для первой координатной оси из предыдущего этапа анализа как начальную. Подобным способом можно эффективно построить несколько последовательных решений, начиная с нескольких координатных осей и постепенно продвигаясь к одномерному решению.

Критерий «каменистой осыпи»: Отображение величины стресса на экране. Мы начали этот пример с нахождения двумерного решения. В действительности, если нам заранее не известна структура матрицы расстояний, то желательно построить график зависимости стресса от размерности воспроизводящего пространства. Выбрав на нем абсциссу, правее которой график близок к прямой линии, получаем оптимальное значение для размерности. Факторы, добавляющиеся справа от этой точки, по существу представляют собой «факторную осыпь» (последний термин осыпь — от английского scree — является геологическим и относится к кускам породы, которые собираются в основании скалистого обрыва; обсуждение этого графика см., например, Kruskal and Wish , 1978, стр. 53-56). Показанный ниже график, был получен по таблице значений стресса для последовательности результирующих пространств (с размерностями от 1 до 6) в ходе анализа исследуемых данных.

Выберите команду Линейный график (для переменных) в меню Графика — 2М Графики, чтобы построить показанный ниже график.

Исходя из анализа этого графика, было выбрано именно двумерное решение. Возможен также выбор трехмерного решения. Однако вопрос о том, является ли трехмерное решение более значимым, чем двумерное, остается спорным. Показанное чуть ниже, на 3М диаграмме рассеяния, это решение было получено заданием трехмерного пространства решения во вкладке Быстрый стартовой панели модуля Многомерное шкалирование. Чтобы построить этот график, нажмите кнопку 3М график окончательной конфигурации во вкладке Быстрый диалогового окна Результаты (эта кнопка была «затененной» при анализе одно- и двумерного решения, и становится доступной начиная с размерности три; отметим, что после нажатия этой кнопки вы должны выбрать оси для графика в окне Выберите оси для диаграммы рассеяния).

Анализ социально-экономических данных средствами многомерного шкалирования Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Трусова Алла Юрьевна

В работе рассмотрены основные теоретические посылки метода метрического многомерного шкалирования , представлен анализ потребительских практик жителей г. Самары в ситуации структурных изменений потребительского рынка средствами метрического многомерного шкалирования . В качестве объектов исследования выступали группы населения, отличающиеся по возрасту и уровню дохода на одного члена семьи в месяц, в качестве признаков — индексы, отражающие степень соответствия той или иной потребительской практики обществу потребления. Средствами SPSS рассчитаны координаты стимулов теоретического пространства латентных факторов. Объекты исследования представлены в двумерном шкальном пространстве.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Трусова Алла Юрьевна

The investigation of consumption with the help of multidimensional scaling involves scientific value and practical interest. In this research work there are presented: basic theoretical sending of metrical multidimensional scaling and the analysis of consumption practice of people in Samara within the situation of structural changes of market by methods of metrical multidimensional scaling . The objects of examination are population groups which have differences in age and in income level of one family member in a month. The difference is presented with the help of the indices, reflecting the scale of correspondence of each consuming practice for society of consumption. Using the facilities of SPSS, there were estimated the positions of stimulus of theoretical space of latent factors. The objects of this research work are presented in two-dimensional scaling space.

Текст научной работы на тему «Анализ социально-экономических данных средствами многомерного шкалирования»

Анализ социально-экономических данных средствами многомерного шкалирования

Количественный анализ данных социологических исследований в настоящее время предполагает широкое использование информационных технологий. Применение статистических пакетов в исследовании способствует смещению акцента на более глубокую интерпретацию полученных результатов. Современные версии SPSS предоставляют исследователю уникальную возможность визуализации многомерных данных, в том числе полученных в разных шкалах.

Потребление как социально-экономический феномен является сложным явлением современного общества. Его изучение в контексте современной российской действительности представляется особенно важным и востребованным, что подтверждается многочисленными маркетинговыми исследованиями.

В настоящее время широко используется качественный анализ потребительских отношений, однако интерес представляет и количественный подход, использующий математические модели. Сочетание информационных технологий с аппаратом математического моделирования обеспечивает комплексный подход при изучении результатов социологических исследований.

Известно, что большинство используемых в маркетинге характеристик не являются одномерными: даже при решении простейшей задачи исследователь сталкивается с наличием множества критериев оценки некоего объекта.

Традиционные методы одномерного шкалирования позволяют работать только с одним признаком, ограничивая поле исследования. Методы многомерного анализа, к числу которых относятся кластерный анализ, факторный анализ, а также многомерное шкалирование (МШ), дают возможность учитывать многообразие объекта изучения и получать более полную картину. В настоящее время они нашли широкое применение в практике анализа данных только в связи с развитием

информационных технологий, а именно с появлением статистических пакетов анализа данных. SPSS — мощный инструмент в руках исследователя [4].

Такие сложные с точки зрения математических расчетов методы, как факторный анализ и многомерное шкалирование, стали доступны при использовании их в анализе многомерных данных.

Многомерное шкалирование как инструмент анализа данных

Характеризуя прикладную статистику (или анализ данных) как область исследований, можно отметить, что до последнего времени теория, методология и практика статистической информации развивались, по существу, в двух ключевых направлениях [1, 6]. Первое представлено методами, предусматривающими возможность вероятностной интерпретации обрабатываемых данных. Второе (логи-ко-алгебро-геометрическое) — методами, логическая схема которых строится на оптимизации некоторого заданного критерия (функционала) качества. МШ — инструментарий, развиваемый в рамках второго направления. МШ как метод опирается на весьма общую и распространенную идею о том, что наблюдаемые в эксперименте объекты можно адекватно описать (представить) точками в некотором координатном пространстве. Оси этого пространства соответствуют скрытым

(латентным) факторам, в совокупности адекватно описывающим экспериментальную ситуацию. От других методов анализа данных, опирающихся на подобные представления (например, факторного анализа), МШ отличается тем, что наблюдаемые отношения между объектами описываются некоторыми формулами — функциями близости, заданными для пар точек координатного пространства.

В ходе анализа методами МШ решаются следующие вопросы: поиск и интерпретация латентных переменных, сжатие исходного массива данных, визуализация геометрической конфигурации наблюдаемых объектов в координатном пространстве латентных факторов [2, 3, 5]. Независимо от типа решаемой задачи эти методы можно использовать как инструмент наглядного представления (визуализации) исходных данных. Поэтому многомерное шкалирование позволяет решать различные проблемы в социально-экономических исследованиях. В этой связи изучение потребительских отношений средствами МШ является актуальным.

Общий принцип построения модели МШ формулируется следующим образом. Пусть имеется некоторая характеристика. Респонденты используют определенный ограниченный набор признаков для ее оценки, а различия между объектами объясняются расхождениями по ним. Чем сильнее отличаются оценки двух объектов, тем больше должны быть различия между ними по набору латентных факторов. Следовательно, оцениваемые объекты можно расположить в пространстве факторов так, чтобы имелась зависимость между оценками объектов и расстояниями между объектами в пространстве восприятия. Чем больше сходство между объектами, тем меньше между ними расстояние в конструируемом пространстве факторов.

Таким образом, в основе МШ лежат два фундаментальных предположения: об объединенном психологическом пространстве (в одном пространстве латентных факторов описываются точками и объекты, и респонденты) и о зависимости между оценками объектов и расстоянием между ними в искомом пространстве факторов.

В наиболее общем виде процесс МШ можно представить как перевод исходных данных в некоторую монотонную функцию с последующим определением координат стимулов — объектов в пространстве факторов. Эти координаты называют «оценками координат стимулов». Для поиска координат («оценки параметров») используется «набор статистических методов». Стимулы размещаются в пространстве, осями которого являются искомые латентные факторы. Принципы построения этой пространственной модели могут быть различными: привычной является Евклидова модель пространства, но есть и другие модели (например, метрика города, метрика доминирования, которые, включая Евклидову, являются частными случаями метрики Минков-ского). Различие между ними заключается в том, как измеряется расстояние между двумя точками. В случае МШ от выбора метрики (а значит, от того, как будет подсчитано расстояние между стимулами), зависит результат оценки координат стимулов.

Поэтому существуют «различные пространственные дистанционные модели для данных».

Задача исследователя заключается в выборе функции, которая максимально соответствовала бы первичным данным, и поиске подходящей размерности координатного пространства. Для оценки отклонений координат стимулов от первичных данных используется мера соответствия полученных оценок исходным расстояниям, называемая «стрессом». «Стресс» рассчитывается с использованием специальных стресс-формул [2]. Кроме того, «стресс» помогает определить оптимальную размерность теоретического пространства. Помимо оценки соответствия, существуют другие критерии выбора размерности итогового пространства: интерпретируемость (выбор минимально возможной размерности с интерпретируемыми осями) и воспроизводимость результатов.

Читать еще:  Анализ бизнес плана предприятия

К настоящему времени не все виды МШ представлены в SPSS, что существенно ограничивает возможности применения МШ при обработке данных социологических исследований. Сочетание возможностей Excel и любо-

го математического пакета, например Maple, позволяет применять и те методы МШ, которые в настоящее время не представлены, в частности, в SPSS.

Среди методов МШ при обработке данных используются метрическое, неметрическое шкалирование, а также поиск индивидуальных различий [7-13]. Социологи в исследованиях используют данные, полученные в различных шкалах. Метрическое и неметрическое МШ различаются по уровню измерения исходных данных. Метрическое шкалирование требует метрических данных (получаемых в результате использования абсолютных шкал). Неметрическое шкалирование накладывает гораздо меньшие ограничения и позволяет использовать данные более низкого уровня измерения (порядковых шкал). Метрическое МШ при построении функции учитывает числовые отношения между объектами, а неметрическое — только их порядок. Модель индивидуальных различий применялась первоначально для изучения степени отличия оценок стимулов у различных людей, отсюда и ее название. Однако модели индивидуальных различий могут применяться не только для описания различий между индивидами, но и также позволяют определить вес координат и степень взаимодействия между координатами в субъективном пространстве.

Таким образом, методы МШ позволяют получить интегративную оценку исследуемой характеристики (а не ее отдельных аспектов), и определить, не навязывая собственного мнения испытуемым, какими же признаками они руководствовались в процессе оценивания. В результате МШ обеспечивает более легкую интерпретируемость решения в пространстве меньшей размерности.

Американским статистиком У. Торгерсоном в начале 50-х годов XX в. был предложен один из первых алгоритмов МШ, впоследствии известный как метрический метод Торгерсо-на [2].

Теоретически метод Торгерсона базируется на жестких теоретических предположениях:

• в некотором определенном шкальном пространстве X расстояния между наблюдае-

мыми объектами соответствуют величинам, характеризующим их различия, т. е. 8, =

• сами расстояния между объектами в теоретическом пространстве достаточно точно описываются метрикой Евклида:

Многомерное шкалирование: определение, цели, задачи и пример

Многомерное шкалирование (MDS) — это средство визуализации уровня сходства отдельных случаев набора данных. Он относится к набору связанных методов ординации, используемых при визуализации информации, в частности, для отображения информации, содержащейся в матрице расстояний. Это форма нелинейного уменьшения размерности. Алгоритм MDS направлен на размещение каждого объекта в N-мерном пространстве таким образом, чтобы расстояния между объектами сохранялись как можно лучше. Затем каждому объекту присваиваются координаты в каждом из N измерений.

Количество измерений графика MDS может превышать 2 и указывается априори. Выбор N = 2 оптимизирует расположение объектов для двумерной диаграммы рассеяния. Примеры многомерного шкалирования вы можете увидеть на картинках в статье. Особенно показательны примеры с обозначениями на русском языке.

Метод многомерного шкалирования (ММШ, MDS) — это расширенный набор классических инструментов, который обобщает процедуру оптимизации для множества функций потерь и входных матриц известных расстояний с весами и так далее. В этом контексте полезная функция потерь называется стрессом, который часто сводится к минимуму с помощью процедуры, называемой мажоризацией стресса.

Руководство

Существует несколько вариантов многомерного шкалирования. Программы MDS автоматически минимизируют нагрузку, чтобы получить решение. Ядро неметрического алгоритма MDS представляет собой двоякий процесс оптимизации. Во-первых, должно быть найдено оптимальное монотонное преобразование близости. Во-вторых, точки конфигурации должны быть расположены оптимально, чтобы их расстояния как можно ближе соответствовали масштабированным значениям близости.

Расширение

Расширение метрического многомерного шкалирования в статистике, в которой целевое пространство является произвольным гладким неевклидовым пространством. В тех случаях, когда отличия представляют собой расстояния на поверхности, а целевое пространство – это другая поверхность. Тематические программы позволяют находить вложение с минимальным искажением одной поверхности в другую.

Этапы

Есть несколько шагов в проведении исследования с помощью многомерного шкалирования:

  1. Формулировка проблемы. Какие переменные вы хотите сравнить? Сколько переменных вы хотите сравнить? Для какой цели будет использоваться исследование?
  2. Получение входных данных. Респондентам задают ряд вопросов. Для каждой пары продуктов их просят оценить сходство (обычно по 7-балльной шкале Лайкерта от очень похожих до очень разнородных). Первый вопрос может быть, например, для «Кока-Колы» / «Пепси», следующий для пива, следующий для «Доктора Пеппера» и т. д. Число вопросов зависит от количества брендов.

Альтернативные подходы

Есть два других подхода. Существует методика под названием «Данные восприятия: производный подход», в которой продукты разлагаются на атрибуты, и оценка происходит по семантической дифференциальной шкале. Еще один метод – это «подход к данным о предпочтениях», при котором респондентам задают вопрос о предпочтениях, а не о сходстве.

Он состоит из следующих этапов:

  1. Запуск статистической программы MDS. Программное обеспечение для выполнения процедуры доступно во многих статистических программных пакетах. Часто существует выбор между метрической MDS (которая имеет дело с данными об интервале или уровне отношения) и неметрической MDS (которая имеет дело с порядковыми данными).
  2. Определение количества измерений. Исследователь должен определить количество измерений, которое он хочет создать на компьютере. Чем больше измерений, тем лучше статистическое соответствие, но тем труднее интерпретировать результаты.
  3. Отображение результатов и определение измерений – статистическая программа (или связанный модуль) отобразит результаты. На карте будет отображаться каждый продукт (обычно в двухмерном пространстве). Близость продуктов друг к другу указывает либо на их сходство, либо на предпочтительность в зависимости от того, какой подход использовался. Однако то, как измерения в действительности соответствуют измерениям поведения системы, не всегда очевидно. Здесь может быть сделано субъективное суждение о соответствии.
  4. Проверьте результаты на надежность и достоверность – вычислите R-квадрат для определения доли дисперсии масштабированных данных, которая может быть учтена процедурой MDS. Квадрат R 0,6 считается минимально приемлемым уровнем. Квадрат R 0,8 считается хорошим для метрического масштабирования, а 0,9 считается хорошим для неметрического масштабирования.

Различные тесты

Другими возможными тестами являются стресс-тесты типа Kruskal, тесты на разделенные данные, тесты на стабильность данных и надежность повторного тестирования. Подробно пишите о результатах в тесте. Наряду с картированием должны быть указаны как минимум мера расстояния (например, индекс Соренсона, индекс Жакара) и надежность (например, значение напряжения).

Также очень желательно дать алгоритм (например, Kruskal, Mather), который часто определяется используемой программой (иногда заменяя отчет алгоритма), если вы дали стартовую конфигурацию или имели случайный выбор, количество прогонов размерности, результаты метода Монте-Карло, количество итераций, оценка устойчивости и пропорциональная дисперсия каждой оси (r-квадрат).

Визуальная информация и анализ данных методом многомерного шкалирования

Визуализация информации – это изучение интерактивных (визуальных) представлений абстрактных данных для усиления познания человека. Абстрактные данные включают как числовые, так и нечисловые данные, такие как текстовая и географическая информация. Однако информационная визуализация отличается от научной визуализации: «это информационный (информационная визуализация), когда выбрано пространственное представление, и scivis (научная визуализация), когда дано пространственное представление».

Область визуализации информации появилась в результате исследований в области взаимодействия человека с компьютером, прикладного использования информатики, графики, визуального дизайна, психологии и бизнес-методов. Она все чаще применяется в качестве важнейшего компонента в научных исследованиях, цифровых библиотеках, интеллектуальном анализе данных, финансовых данных, изучении рынка, контроле производства продукции и так далее.

Методы и принципы

Визуализация информации предполагает, что методы визуального представления и взаимодействия используют в своих интересах широкие возможности человеческого восприятия, позволяющие пользователям одновременно видеть, исследовать и понимать большие объемы информации. Визуализация информации направлена ​​на создание подходов для передачи абстрактных данных, информации интуитивно понятным образом.

Анализ данных является неотъемлемой частью всех прикладных исследований и решения проблем в промышленности. Наиболее фундаментальными подходами к анализу данных являются визуализация (гистограммы, точечные диаграммы, графики поверхности, древовидные карты, параллельные координатные диаграммы и т. д.), статистика (проверка гипотез, регрессия, PCA и т. д.), анализ данных (сопоставление и т. д.) и методы машинного обучения (кластеризация, классификация, деревья решений и т. д.).

Среди этих подходов визуализация информации или визуальный анализ данных наиболее зависят от когнитивных навыков аналитического персонала и позволяют обнаруживать неструктурированные действенные идеи, которые ограничены только человеческим воображением и творчеством. Аналитик не должен изучать какие-либо сложные методы, чтобы иметь возможность интерпретировать визуализации данных. Визуализация информации также является схемой генерации гипотез, которая может сопровождаться и обычно сопровождается более аналитическим или формальным анализом, таким как статистическая проверка гипотез.

Изучение

Современное изучение визуализации началось с компьютерной графики, которая «с самого начала использовалась для изучения научных проблем. Однако в первые годы недостаток графической мощности часто ограничивал ее полезность. Приоритет на визуализации начал развиваться в 1987 году, с выпуска особого ПО для компьютерной графики и визуализации в научных вычислениях. С тех пор было проведено несколько конференций и семинаров, совместно организованных IEEE Computer Society и ACM SIGGRAPH».

Они были посвящены общим темам визуализации данных, визуализации информации и научной визуализации, а также более конкретным областям, таким как визуализация объема.

Обобщение

Обобщенное многомерное шкалирование (ОМШ, GMDS) является расширением метрического многомерного масштабирования, в котором целевое пространство неевклидово. Когда различия представляют собой расстояния на поверхности, а целевое пространство – это другая поверхность, GMDS позволяет находить вложение с минимальным искажением одной поверхности в другую.

GMDS – это новое направление исследований. В настоящее время основными приложениями являются распознавание деформируемых объектов (например, для трехмерного распознавания лиц) и наложение текстуры.

Целью многомерного шкалирования является представление многомерных данных. Многомерные данные, то есть данные, для представления которых требуется более двух или трех измерений, бывает трудно интерпретировать. Один из подходов к упрощению состоит в том, чтобы предположить, что интересующие данные лежат на вложенном нелинейном многообразии в многомерном пространстве. Если коллектор имеет достаточно низкое измерение, данные могут быть визуализированы в низкоразмерном пространстве.

Многие из нелинейных методов уменьшения размерности связаны с линейными методами. Нелинейные методы можно в целом классифицировать на две группы: те, которые обеспечивают отображение (либо из многомерного пространства в низкоразмерное вложение, или наоборот), и те, которые просто дают визуализацию. В контексте машинного обучения методы отображения могут рассматриваться как предварительный этап выделения признаков, после которого применяются алгоритмы распознавания образов. Обычно те, которые просто дают визуализацию, основаны на данных о близости – то есть измерения расстояния. Многомерное шкалирование в психологии и прочих гуманитарных науках также весьма распространено.

Если количество атрибутов велико, то пространство уникальных возможных строк также экспоненциально велико. Таким образом, чем больше размерность, тем сложнее становится изобразить пространство. Это вызывает много проблем. Алгоритмы, которые работают с многомерными данными, имеют тенденцию к очень высокой временной сложности. Сокращение данных до меньшего числа измерений часто делает алгоритмы анализа более эффективными и может помочь алгоритмам машинного обучения делать более точные прогнозы. Потому многомерное шкалирование данных столь популярно.

Ссылка на основную публикацию
Adblock
detector