Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Экономические науки (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=134)
-   -   Обосновать выбор количества кластеров (http://www.aspirantura.spb.ru/forum/showthread.php?t=11243)

banitl 09.04.2013 16:15

Обосновать выбор количества кластеров
 
Был проведен соц.опрос. Количество респондентов - 700. Количество вопросов (показателей) - 33. Оцениваемая шкала - от 0 до 10. Сначала был проведен факторный анализ для снижения размерности методом главных компонент. На выходе получено 5 факторов. Дальше требуется выполнить кластерный анализ по результатам факторного анализа, т.е. по 5 факторам. Предполагается применение метод k-средних. Но затрудняет вопрос с выбором (и обоснованием этого выбора) количества кластеров. Вычисления проводятся с помощью SPSS 20.
Возможно ли обосновать выбор количества кластеров с помощью псевдо-f статистики (pseudo-F statistics) и критерием кубеческой кластеризации (CCC - cubic clustering criterion) с помощью SPSS 20? И как все-таки обосновать выбор количества кластеров в данном случае?

Ink 09.04.2013 16:25

Это какая-то ересь

banitl 09.04.2013 16:28

Цитата:

Сообщение от Ink (Сообщение 332367)
Это какая-то ересь

В смысле?

Ink 09.04.2013 16:57

Цитата:

Сообщение от banitl (Сообщение 332365)
Был проведен соц.опрос.

Ну и причем тут экономика? Все остальное, кстати, тож самое.

banitl 09.04.2013 17:02

Цитата:

Сообщение от Ink (Сообщение 332372)
Ну и причем тут экономика? Все остальное, кстати, тож самое.

Эконометрика. Но такого не нашел

Ink 09.04.2013 17:06

Цитата:

Сообщение от banitl (Сообщение 332373)
Эконометрика

ну ведь это не экономика? Тока вот соц.опросов и в эконометрике нет. Давайте подойдем с другой стороны. Для чего вам нужно обосновать это

Hogfather 09.04.2013 17:20

banitl, гадание на дендрограмме пробовали?

banitl 09.04.2013 17:20

Прочитал уйма материалов на счет псевдо-f статистики и критерия кубеческой кластеризации, и во всех этих материалах они использовались в процессе расчетов и только в виде формул. Так как я провожу расчеты с помощью программы SPSS, то там не существует этих критериев. И мне потребовалось хоть какое-то обоснование их использования. Еще и подумал, а может есть другой путь обоснования выбора количества кластеров.

Ink 09.04.2013 17:24

Цитата:

Сообщение от banitl (Сообщение 332378)
а может есть другой путь обоснования выбора количества кластеров

ну говорю ж ересь

banitl 09.04.2013 17:27

Цитата:

Сообщение от Hogfather (Сообщение 332377)
гадание на дендрограмме пробовали?

Неужели все-таки придется приложить руки к этому процессу?

Hogfather 09.04.2013 17:41

Цитата:

Сообщение от banitl (Сообщение 332381)
Неужели все-таки придется приложить руки к этому процессу?

Понятия не имею. Простой вопрос: сколько на рисунке настоящих кластеров?
http://www.aspirantura.spb.ru/forum/...pictureid=1112



P.S. Вот Вам забавная статейка, изучайте.

banitl 09.04.2013 18:26

Цитата:

Сообщение от Hogfather (Сообщение 332384)
P.S. Вот Вам забавная статейка, изучайте.

Из этой забавной статейки понял одно - это называется саморекламой.

Виктор2 09.04.2013 19:50

Цитата:

Сообщение от banitl (Сообщение 332365)
Был проведен соц.опрос. Количество респондентов - 700. Количество вопросов (показателей) - 33. Оцениваемая шкала - от 0 до 10. Сначала был проведен факторный анализ для снижения размерности методом главных компонент. На выходе получено 5 факторов. Дальше требуется выполнить кластерный анализ по результатам факторного анализа, т.е. по 5 факторам. Предполагается применение метод k-средних. Но затрудняет вопрос с выбором (и обоснованием этого выбора) количества кластеров. Вычисления проводятся с помощью SPSS 20.
Возможно ли обосновать выбор количества кластеров с помощью псевдо-f статистики (pseudo-F statistics) и критерием кубеческой кластеризации (CCC - cubic clustering criterion) с помощью SPSS 20? И как все-таки обосновать выбор количества кластеров в данном случае?

вообще непонятен подход - зачем применять кластерный анализ к результатам факторного?

И не почитать ли найденную навскидку литературу для начала? http://tx.shu.edu.tw/~PurpleWoo/Lite...20Analysis.pdf

Hogfather 09.04.2013 20:08

Цитата:

Сообщение от banitl (Сообщение 332395)
это называется саморекламой.

Именно! А если учесть, что это не моя статья, то моё коварство еще сильнее. Что же касается вопроса в топике темы, то мой НР говорил мне в таких случаях: "Хогфазер, не выпендривайся". На этой радостной ноте позвольте откланяться, "учёного учить -- только портить".

Добавлено через 1 минуту
Цитата:

Сообщение от Виктор2 (Сообщение 332411)
И не почитать ли найденную навскидку литературу для начала?

Спасибо, добрый человек, этой книжки в моей библиотеке пока не было. Скопировал.

banitl 09.04.2013 20:20

Цитата:

Сообщение от Виктор2 (Сообщение 332411)
зачем применять кластерный анализ к результатам факторного?

Для получения более понятных и прозрачных результатов кластеризации лучше всего вместо множества исходных переменных использовать некие обобщенные переменные, содержащие в сжатом виде информацию о связях между этими переменными.
А при итеративном методе для выбора количества кластеров во многих источниках рекомендуют использование вышеперечисленных критериев. Так как в SPSS не встретил этих критериев, возник данный вопрос.
За книгу премного благодарен!

Добавлено через 3 минуты
Дорогой, Hogfather!
Такое умозаключение пришло вот из за этой фразы в конце данного материала:
"... Все это затрудняет выбор исследователем оптимального решения. В такой ситуации наилучшим способом утвердиться в том, что найденное кластерное решение является на данном этапе исследования оптимальным, является только согласованность этого решения с выводами, полученными с помощью других методов многомерной статистики. Очевидно, что в этом случае имеет смысл обратиться за помощью к опытному биостатистику. "


Текущее время: 14:28. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2025, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2025, «Аспирантура. Портал аспирантов»