Задача по статистике. Определение однородности совокупности. Правило «трех сигм». Показатели цента распределения
- Пользуясь базой данных официального сайта www.gks.ru, сформировать массив значений признака Y (Уровень экономической активности, %) ПО ВСЕМ СУБЪЕКТАМ РФ за последний год, оценить однородность совокупности с помощью коэффициента вариации и сделать проверку на нормальность распределения с помощью правила «трёх сигм». В случае наличия резко выделяющихся значений, исключить эти субъекты из массива для проведения более объективного дальнейшего исследования.
Область | Уровень экономической активности, Y млн. руб. | (Y-Ycp)^2 |
Белгоpодская область | 66,2 | 5,01 |
Бpянская область | 66,7 | 3,02 |
Владимиpская область | 70,3 | 3,46 |
Воpонежская область | 64,6 | 14,73 |
Ивановская область | 68,5 | 0,00 |
Калужская область | 70,4 | 3,85 |
Костpомская область | 70 | 2,44 |
Курская область | 65,8 | 6,96 |
Липецкая область | 70,7 | 5,11 |
Московская область | 72,8 | 19,02 |
Оpловская область | 65,1 | 11,15 |
Рязанская область | 63,5 | 24,39 |
Смоленская область | 71,3 | 8,19 |
Тамбовская область | 64,1 | 18,82 |
Твеpская область | 70,5 | 4,25 |
Тульская область | 67,6 | 0,70 |
Яpославская область | 68,8 | 0,13 |
г. Москва | 72,2 | 14,15 |
Республика Каpелия | 66,9 | 2,37 |
Республика Коми | 70,8 | 5,58 |
Аpхангельская область | 68 | 0,19 |
в том числе Ненецкий автономный округ | 71,7 | 10,64 |
Вологодская область | 69,9 | 2,14 |
Калинингpадская область | 70,7 | 5,11 |
Ленингpадская область | 71,6 | 9,99 |
Муpманская область | 74,9 | 41,75 |
Новгоpодская область | 69,3 | 0,74 |
Псковская область | 68,5 | 0,00 |
г. Санкт-Петеpбуpг | 73,6 | 26,64 |
Республика Адыгея | 61,5 | 48,14 |
Республика Калмыкия | 67,3 | 1,30 |
Кpаснодаpский кpай | 65,2 | 10,49 |
Астpаханская область | 67 | 2,07 |
Волгогpадская область | 66,8 | 2,68 |
Ростовская область | 65,5 | 8,64 |
Республика Дагестан | 63,6 | 23,41 |
Республика Ингушетия | 69,1 | 0,44 |
Кабаpдино-Балкаpская Республика | 59,7 | 76,36 |
Каpачаево-Чеpкесская Республика | 67,4 | 1,08 |
Республика Севеpная Осетия — Алания | 67,2 | 1,53 |
Чеченская Республика | 70,7 | 5,11 |
Ставpопольский кpай | 65,1 | 11,15 |
Республика Башкоpтостан | 66,7 | 3,02 |
Республика Маpий Эл | 68,5 | 0,00 |
Республика Моpдовия | 70,7 | 5,11 |
Республика Татаpстан | 70,4 | 3,85 |
Удмуpтская Республика | 71,7 | 10,64 |
Чувашская Республика | 68,7 | 0,07 |
Пеpмский край | 67,7 | 0,55 |
Киpовская область | 67,6 | 0,70 |
Нижегоpодская область | 71,4 | 8,77 |
Оpенбуpгская область | 67,6 | 0,70 |
Пензенская область | 65,5 | 8,64 |
Самаpская область | 69,3 | 0,74 |
Саpатовская область | 65,8 | 6,96 |
Ульяновская область | 67,7 | 0,55 |
Куpганская область | 64,3 | 17,13 |
Свеpдловская область | 69,2 | 0,58 |
Тюменская область | 72,3 | 14,91 |
в том числе: Ханты-Мансийский автономный округ — Югра | 74,5 | 36,74 |
Ямало-Ненецкий автономный округ | 79 | 111,54 |
Челябинская область | 70,5 | 4,25 |
Республика Алтай | 67,3 | 1,30 |
Республика Буpятия | 63,9 | 20,60 |
Республика Тыва | 56,5 | 142,53 |
Республика Хакасия | 64,7 | 13,98 |
Алтайский кpай | 65 | 11,82 |
Забайкальский край | 64,4 | 16,31 |
Красноярский край | 68,6 | 0,03 |
Иpкутская область | 67,7 | 0,55 |
Кемеpовская область | 66,7 | 3,02 |
Новосибиpская область | 69 | 0,32 |
Омская область | 68,8 | 0,13 |
Томская область | 60 | 71,21 |
Республика Саха (Якутия) | 69,8 | 1,85 |
Камчатский край | 72,9 | 19,90 |
Пpимоpский кpай | 68,3 | 0,02 |
Хабаpовский кpай | 69,9 | 2,14 |
Амуpская область | 67,3 | 1,30 |
Магаданская область | 79,1 | 113,67 |
Сахалинская область | 72,4 | 15,69 |
Евpейская автономная область | 65,4 | 9,23 |
Чукотский автономный окpуг | 82,50 | 197,72 |
Сумма | 5680,4 | 1321,72 |
Определение однородности совокупности
Определим средний Уровень экономической активности по формуле средней арифметической простой:
Дисперсия определяется по формуле:
Среднее квадратическое отклонение:
Коэффициент вариации составит:
Совокупность однородна, т.к. коэффициент вариации менее 0,33
Правило «трех сигм»
Исключение из массива первичной информации всех резко выделяющихся единиц по уровню факторного признака производится по правилу «трех сигм»: исключаются все единицы, у которых уровень признака-фактора не попадает в интервал:
В интервал
56,47 <x< 80,41 попадают не все значения, поэтому по данному правилу нужно исключить одно значение по Чукотскому автономному округу. 82,5%
Группировка данных по формуле Стерджесса
2. По оставшимся данным произвести группировку субъектов РФ, образовав группы с равными интервалами.
На начальном этапе проведения группировки необходимо определить целесообразное число групп и величину интервала. Необходимо самостоятельно выбрать порядок образования интервалов (для этого можно воспользоваться рекомендательной формулой Стерджесса).
Формируя группы, нужно помнить, что распределение единиц совокупности внутри групп должно быть как можно более равномерным (в каждую группу должно входить не менее 2-3-х значений), кроме того, распределение должно иметь только один модальный интервал (имеющий максимальную частоту).
Для соответствия этим критериям, фактическая величина интервала и число групп могут иногда отличаться от расчётных значений. Для удобства восприятия и анализа группировки рекомендуется брать величину интервала, кратную пяти, десяти, ста, и т.д. в зависимости от величины и степени вариации признака.
Определяем число групп по формуле Стерджесса:
n = 1 + 3,322lgN = 1 + 3,322lg82 = 7,36
принимаем n =7
Определяем шаг интервала:
xmax, xmin — максимальное и минимальное значение
n – число групп
Произведем группировку с равными интервалами
Интервалы | Диапазон по уровню ВРП | Число регионов, f |
1 | 56,5 — 59,7 | 2 |
2 | 59,7 — 63 | 2 |
3 | 63 – 66,2 | 17 |
4 | 66,2 – 69,4 | 32 |
5 | 69,4 — 72,6 | 22 |
6 | 72,6 — 75,9 | 5 |
7 | 75,9 — 79,1 | 2 |
В 1,2 и 7 интервалы попадает менее 3 субъектов. При сокращении интервалов на 1 в последний попадет 2 субъекта. Сократим число интервалов и примем n = 5
h = (79,1-56,5)/5 = 4,5%
Интервалы | Диапазон по уровню экономической активности | Число регионов, f | накопленная частота | доля |
1 | 56,5 — 61 | 3 | 3 | 3,7% |
2 | 61 – 65,5 | 16 | 19 | 19,5% |
3 | 65,5 – 70,1 | 38 | 57 | 46,3% |
4 | 70,1 – 74,6 | 22 | 79 | 26,8% |
5 | 74,6 – 79,1 | 3 | 82 | 3,7% |
3. Проанализировать полученный в п.2 ряд распределения значений признака Y. Для этого построить таблицу, содержащую интервальные группы, число субъектов в каждой группе и частоты групп (f), по сгруппированным данным рассчитать статистические показатели, характеризующие
- центр распределения,
- абсолютную и относительную вариацию,
- степень дифференциации
Дополнить расчеты описательными выводами и способами графического представления рядов распределения.
Показатели цента распределения
Определим средний уровень экономической активности по формуле средней арифметической взвешенной :
X’ — середина интервала
Дисперсия определяется по формуле
Составим расчетную таблицу
Совокупность можно считать однородной, т.к. коэффициент вариации менее 33%
Расчет моды и медианы
Интервал, имеющий наибольшую частоту, будет являться модальным, а конкретное (дискретное) значение моды будет находиться внутри него. Рассчитать конкретное, значение моды в интервальном ряду можно по следующей формуле:
где: ХМо — нижняя граница модального интервала,
i — длина модального интервала,
fMo — частота модального интервала,
fMo-1 — частота, соответствующая предшествующему интервалу,
fMo+1 — частота, соответствующая последующему интервалу.
Самая большая частота — 38, соответствует варианту 65,5 – 70,1. Этот интервал является модальным.
Медиана применяется для количественной характеристики структуры и равна такому варианту, который делит ранжированную совокупность на две равные части. У одной половины совокупности признаки не больше медианы (меньше или равны), у второй — не меньше медианы (больше или равны).
Если рассматриваемый ряд интервальный, то накопленные частоты покажут нам медианный интервал. Конкретное значение медианы рассчитывается по формуле:
i — длина медианного интервала,
fMe’ — накопленная частота в интервале, предшествующем медианному,
fMe — частота медианного интервала.
Для нахождения медианного интервала нужно знать половину частот, то есть 82 : 2 = 41. Во 2-м интервале частот накопилось менее половины, модальным является 3-й интервал 65,5 – 70,1
Размах вариации составит: R = xmax — xmin = 79.1-56.5=22.6% (абсолютная вариация)
Построим график распределения
Получаем примерное равенство моды, медианы и средней, т.е. распределение близко к нормальному
Показатели степени дифференциации
Децильный коэффициент дифференциации
Децильный коэффициент дифференциации рассчитывается так:
Д9 – дециль №9;
Д1 – дециль №1.
дециль №1 (10%) находится в интервале 61 – 65,5, где удельный вес субъектов с уровнем экономической активности
хн – нижняя граница децильного интервала
hд — шаг интервала
Fд-1 — сумма накопленных удельных весов до децильного интервала
fд — удельный вес децильного интервала
дециль №9 (90%) находится в интервале 70,1 – 74,6
Вывод: Значение децильного коэффициента менее 1,2, то можно говорить о слабой дифференциации по уровню экономической активности.