Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 24 декабря 2013 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Гайфутдинова А.Г. КЛАССИФИКАЦИЯ СТРАН МИРА С ПОМОЩЬЮ КЛАСТЕРНОГО И КОМПОНЕНТНОГО АНАЛИЗА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XV междунар. студ. науч.-практ. конф. № 15. URL: https://sibac.info/archive/technic/9(12).pdf (дата обращения: 01.12.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов


КЛАССИФИКАЦИЯ  СТРАН  МИРА  С  ПОМОЩЬЮ  КЛАСТЕРНОГО  И  КОМПОНЕНТНОГО  АНАЛИЗА


Гайфутдинова  Анастасия  Григорьевна


студент  2  курса  факультета  информационных  технологий  Российского  государственного  социального  университета,  РФ,  г.  Москва


E-mail: 


Дмитриев  Михаил  Геннадьевич


научный  руководитель  доктор  физико-математических  наук,  профессор,  профессор  кафедры  прикладной  математики  Российского  государственного  социального  университета,  РФ,  г.  Москва


 


Задачей  данного  исследования  —  оценка  уровня  жизни  в  странах  мира  с  помощью  совокупности  методов  многомерного  статистического  анализа.


Для  решения  поставленной  задачи  была  изучения  система  из  двенадцати  признаков  по  числовым  данным,  собранным  на  50  объектах  и  предложена  следующая  последовательность  применения  методов  многомерного  статистического  анализа:


1.  Определение  количества  кластеров  с  помощью  кластерного  анализа.


2.  Определение  состава  кластеров  и  их  характеристик  методом  К-средних.


3.  Ранжирование  объектов  методом  компонентного  анализа.


Исследование  проводилось  с  использованием  прикладного  программного  продукта  STATISTICA  10.


Результаты  исследования


Таблица  1. 


Исходные  данные


.  п  /  п


Страна


x(1)


x(2)


x(3)


x(4)


x(5)


x(6)


x(7)


x(8)


x(9)


x(10)


x(11)


x(12)


1


Австралия


17  800


15


8


7,30


1,90


74


80


16  848


2,3


85


100


1,38


2


Австрия


8000


12


11


6,70


1,50


73


79


18  396


94,0


58


99


0,20


3


Аргентина


33  900


20


9


25,60


2,80


68


75


3408


12,0


86


95


1,30


4


Бангладеш


125  000


35


11


106,00


4,70


53


53


202


800,0


16


35


2,40


5


Беларусь


10  300


13


11


19,00


1,88


66


76


6500


50,0


65


99


0,32


6


Бельгия


10  100


12


11


7,20


1,70


73


79


17  912


329,0


96


99


0,20


7


Бразилия


156  600


21


9


66,00


2,70


57


67


2354


18,0


75


81


1,28


8


Буркина-Фасо


10  000


47


18


118,00


6,94


47


50


357


36,0


15


18


2,81


9


Великобритания


58  400


13


11


7,20


1,83


74


80


15  974


237,0


89


99


0,20


10


Вьетнам


73  100


27


8


46,00


3,33


63


68


230


218,0


20


88


1,78


11


Гаити


6500


40


19


109,00


5,94


43


47


383


231,0


29


53


1,63


12


Германия


81  200


11


11


6,50


1,47


73


79


17  539


227,0


85


99


0,36


13


Гондурас


5600


35


6


45,00


4,90


65


70


1030


46,0


44


73


2,73


14


Гонконг


5800


13


6


5,80


1,40


75


80


14  641


5494,0


94


77


0,09


15


Египет


60  000


29


9


76,40


3,77


60


63


748


57,0


44


48


1,95


16


Замбия


9100


46


18


85,00


6,68


44


45


573


11,0


42


73


2,80


17


Индия


911  600


29


10


79,00


4,48


58


59


275


283,0


26


52


1,90


18


Ирландия


3600


14


9


7,40


1,99


73


78


12  170


51,0


57


98


0,30


19


Испания


39  200


11


9


6,90


1,40


74


81


13  047


77,0


78


95


0,25


20


Италия


58  100


11


10


7,60


1,30


74


81


17  500


188,0


69


97


0,21


21


Канада


29  100


14


8


6,80


1,80


74


81


19  904


2,8


77


97


0,70


22


Китай


1  205  200


21


7


52,00


1,84


67


69


377


124,0


26


78


1,10


23


Колумбия


35  600


24


6


28,00


2,47


69


75


1538


31,0


70


87


2,00


24


Коста-Рика


3300


26


4


11,00


3,10


76


79


2031


64,0


47


93


2,30


25


Куба


11  100


17


7


10,20


1,90


74


78


1382


99,0


74


94


0,95


26


Малайзия


19  500


29


5


25,60


3,51


66


72


2995


58,0


43


78


2,30


27


Марокко


28  600


29


6


50,00


3,83


66


70


1062


63,0


46


50


2,12


28


Нидерданды


15  400


13


9


6,30


1,58


75


81


17  245


366,0


89


99


0,58


29


Новая  Зеландия


3524


16


8


8,90


2,03


73


80


14  381


13,0


84


99


0,57


30


Норвегия


4300


13


10


6,30


2,00


74


81


17  755


11,0


75


99


0,40


31


ОАЭ


2800


28


3


22,00


4,50


70


74


14  193


32,0


81


68


4,80


32


Португалия


10  500


12


10


9,20


1,50


71


78


9000


108,0


34


85


0,36


33


Россия


149  200


13


11


27,00


1,83


64


74


6680


8,8


74


99


0,20


34


Саудовская  Аравия


18  000


38


6


52,00


6,67


66


70


6651


7,7


77


62


3,20


35


Северная  Корея


23  100


24


6


27,70


2,40


67


73


1000


189,0


60


99


1,83


36


Сингапур


2900


16


6


5,70


1,88


73


79


14  990


4456,0


100


88


1,20


37


США


260  800


15


9


8,11


2,06


73


79


23  474


26,0


75


97


0,99


38


Таиланд


59  400


19


6


37,00


2,10


65


72


1800


115,0


22


93


1,40


39


Турция


62  200


26


6


49,00


3,21


69


73


3721


79,0


61


81


2,02


40


Украина


51  800


12


13


20,70


1,82


65


75


2340


87,0


67


97


0,05


41


Филиппины


69  800


27


7


51,00


3,35


63


68


867


221,0


43


90


1,92


42


Финляндия


5100


13


10


5,30


1,80


72


80


15  877


39,0


60


100


0,30


43


Франция


58  000


13


9


6,70


1,80


74


82


18  944


105,0


73


99


0,47


44


Чили


14  000


23


6


14,60


2,50


71


78


2591


18,0


85


93


1,70


45


Швейцария


7000


12


9


6,20


1,60


75


82


22  384


170,0


62


99


0,70


46


Швеция


8800


14


11


5,70


2,10


75


81


16  900


19,0


84


99


0,52


47


Эфиопия


55  200


45


14


110,00


6,81


51


54


122


47,0


12


24


3,10


48


ЮАР


43  900


34


8


47,10


4,37


62


68


3128


35,0


49


76


2,60


49


Южная  Корея


45  000


16


6


21,70


1,65


68


74


6627


447,0


72


96


1,00


50


Япония


125  500


11


7


4,40


1,55


76


82


19  860


330,0


77


99


0,30


Обозначения  признаков:


  —  численность  населения  (в  тыс.  чел.);  —  рождаемость  (на  1000  чел.);  )  —  смертность  (на  1000  чел.);  —  младенческая  смертность  —  число  детей,  умерших  в  возрасте  до  1  г.  (на  1000  чел.);  —  среднее  число  детей  в  семье;  —  ожидаемая  продолжительность  жизни  мужчины  (в  годах);  —  ожидаемая  продолжительность  жизни  женщины  (в  годах);  —  ВВП  на  душу  населения  (в  долл.  США  по  покупательной  способности  валют);  —  плотность  населения  (количество  человек  на  кв.  км);  —  процент  городского  населения;  —  процент  грамотных;  —  прирост  населения  (%  в  год).


 


1.  Кластерный  анализ  [1,  2]  —  один  из  методов  многомерного  анализа,  предназначенный  для  группировки  (кластеризации)  совокупности  элементов,  которые  характеризуются  многими  факторами,  и  получение  однородных  групп  (кластеров).


Результаты  кластерного  анализа  в  виде  иерархического  дерева  приведены  на  рис.  1.  На  графике  четко  проявляются  три  крупные  группы  (кластеры).


 



Рисунок  1.  Иерархическая  диаграмма  результатов  кластерного  анализа


 


2.  K-means  (метод  k-средних)  —  наиболее  популярный  метод  кластеризации.  Особенности  метода  заключаются  в  том,  что  он  стремится  минимизировать  суммарное  квадратичное  отклонение  точек  кластеров  от  центров  этих  кластеров.


По  известному  количеству  кластеров  методом  К-средних  были  определены  составы  каждого  кластера.  В  качестве  примеры  были  рассмотрены  десять  из  двенадцати  признаков,  совокупность  которых  можно  определить  как  индекс  развития  страны.


По  рис.  2  можно  заметить,  что  страны,  принадлежащие  к  первому  кластеру,  характеризуются  самой  высокой  младенческой  смертностью  ,  а  также  лидируют  по  показателям  рождаемости    и  среднему  числу  детей  в  семье  ,  в  то  время  как  ВВП  на  душу  населения    и  процент  грамотных    в  этих  странах  заметно  ниже,  чем  у  стран,  относящихся  ко  второму  и  третьему  кластерам,  у  которых  наблюдается  противоположная  ситуация.


 



Рисунок  2.  Средние  значения  показателей  для  каждого  кластера


 


Таблица  2  демонстрирует  состав  каждого  из  кластеров,  а  также  расстояние  каждого  объекта  до  центра  данного  кластера,  что  позволяет  сделать  выводы  о  том,  на  сколько  та  или  иная  страна  по  своим  показателям  близка  к  значениям,  характерным  для  кластера,  в  состав  которого  она  входит. 


Таблица  2. 


Состав  кластеров


Кластер  №  1


(Страна)



Расстояние  от  центра



Кластер  №  2


(Страна)



Расстояние  от  центра



Кластер  №  3


(Страна)



Расстояние  от  центра



Бангладеш



5,23134



Бразилия



11,48622



Австралия



4,22329



Буркина-Фасо



11,36258



Вьетнам



8,96820



Австрия



6,01051



Гаити



5,95546



Гондурас



2,89278



Аргентина



6,83865



Египет



10,46329



Китай



6,95146



Беларусь



5,01796



Замбия



12,12308



Малайзия



7,03307



Бельгия



7,38837



Индия



7,89380



Марокко



8,69847



Великобритания



5,24617



Эфиопия



8,78434



Саудовская  Аравия



11,63236



Германия



4,50431



 



 



Таиланд



10,08375



Гонконг



8,78148



 



 



Турция



5,28530



Ирландия



5,77351



 



 



Филиппины



4,38311



Испания



2,52398



 



 



ЮАР



2,47495



Италия



3,22620



 



 



 



 



Канада



3,13051



 



 



 



 



Колумбия



7,63983



 



 



 



 



Коста-Рика



10,11569



 



 



 



 



Куба



3,71918



 



 



 



 



Нидерданды



5,44860



 



 



 



 



Новая  Зеландия



3,47472



 



 



 



 



Норвегия



2,95122



 



 



 



 



ОАЭ



10,62060



 



 



 



 



Португалия



13,30587



 



 



 



 



Россия



6,21736



 



 



 



 



Северная  Корея



8,71002



 



 



 



 



Сингапур



8,67189



 



 



 



 



США



3,68184



 



 



 



 



Украина



5,84495



 



 



 



 



Финляндия



5,40542



 



 



 



 



Франция



3,20097



 



 



 



 



Чили



5,41714



 



 



 



 



Швейцария



5,71141



 



 



 



 



Швеция



4,26434



 



 



 



 



Южная  Корея



4,35683



 



 



 



 



Япония



4,17849


 


3.  Компонентный  анализ  [1,  2]  относится  к  многомерным  методам  снижения  размерности.  Он  содержит  один  метод  -  метод  главных  компонент,  позволяющий  уменьшить  размерность  данных,  потеряв  наименьшее  количество  информации.


На  рис.  3.  представлено  окно  результатов  метода  компонентного  анализа  ППП  STATISTICA,  из  которого  следует,  что  первые  три  главные  компоненты  содержат  81,2  %  информации,  что  является  достаточным  для  проведения  исследований.


 



Рисунок  3.  Окно  результатов  метода  компонентного  анализа  ППП  STATISTICA


 


Согласно  алгоритму  компонентного  анализа  ранжирование  проводилось  последовательно,  в  зависимости  от  величины  собственного  значения  λ  (λ1=7,22;  λ2=1,34;  λ3=1,17).  Стоит  отметить,  что  ранжирование  стран  по  главным  компонентам  практически  совпадает  (за  исключением  ОАЭ)  с  проведенным  в  данном  исследовании  разделением  на  кластеры.


Таблица  3. 


Ранжирование  стран


Ранг



Страна  группа1



Ранг



Страна


группа  2



Ранг



Страна


группа  3



1



Египет



1



Таиланд



1



Гонконг



2



Бангладеш



2



ОАЭ



2



Япония



3



Индия



3



Малайзия



3



Нидерданды



4



Замбия



4



Филиппины



4



Бельгия



5



Гаити



5



Турция



5



Сингапур



6



Эфиопия



6



Китай



6



Канада



7



Буркина-Фасо



7



Бразилия



7



Новая  Зеландия



 



 



8



Саудовская  Аравия



8



Австралия



 



 



9



Гондурас



9



США



 



 



10



Марокко



10



Ирландия



 



 



11



ЮАР



11



Испания



 



 



 



Вьетнам



12



Италия



 



 



 



 



13



Финляндия



 



 



 



 



14



Франция



 



 



 



 



15



Австрия



 



 



 



 



16



Швейцария



 



 



 



 



17



Германия



 



 



 



 



18



Норвегия



 



 



 



 



19



Великобритания



 



 



 



 



20



Швеция



 



 



 



 



21



Чили



 



 



 



 



22



Куба



 



 



 



 



23



Южная  Корея



 



 



 



 



24



Португалия



 



 



 



 



25



Россия



 



 



 



 



26



Беларусь



 



 



 



 



27



Украина



 



 



 



 



28



Коста-Рика



 



 



 



 



29



Северная  Корея



 



 



 



 



30



Колумбия



 



 



 



 



31



Аргентина


 


По  результатам  исследования  можно  сделать  вывод,  что  страны,  относящиеся  к  третьей  группе  (к  3  кластеру)  —  это  группа  наиболее  развитых  стран,  которые  характеризуются  высокими  долей  ВВП  на  душу  населения,  процентом  образованных  людей,  а  также  более  развитой  медициной  вследствие  чего  показатели  смертности  среди  населения  относительно  невелики.  В  описанный  выше  кластер  вошла  Россия,  заняв  25  место  в  рейтинге  стран.


 


Список  литературы:


1.Айвазян  С.А.,  Мхитарян  В.С.  Прикладная  статистика  в  задачах  и  упражнениях.  М.,  ЮНИТИ,  2001.  —  270  с.


2.Дубров  А.М.,  Трошин  Л.И.,  Мхитарян  В.С.  Многомерные  статистические  методы.  М.:  Финансы  и  статистика,  2000.  —  352  с


3.Третьяков  Н.П.,  Иванова  Ю.  Классификация  городов  СНГ  с  помощью  кластерного  и  компонентного  анализа.  Интернет-журнал  «Технологии  техносферной  безопасности»,  выпуск  №  1  (29)  февраль  2010  г.


4.Третьяков  Н.П.  Применение  кластерного  анализа  к  мировой  статистике  пожаров.  Интернет  журнал.

Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.