WWW.DOC.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Различные документы
 

«© 1991 г. Р.П. КУТЕНКОВ, В.Г. КОРОСТЕЛЕВ АНАЛИЗ СВЯЗИ НОМИНАЛЬНЫХ ПРИЗНАКОВ: ПРОВЕРКА ГИПОТЕЗ И СВОЙСТВА КОЭФФИЦИЕНТОВ КУТЕНКОВ Рудольф Петрович — кандидат ...»

Методика и техника

социологических исследований

© 1991 г.

Р.П. КУТЕНКОВ, В.Г. КОРОСТЕЛЕВ

АНАЛИЗ СВЯЗИ НОМИНАЛЬНЫХ ПРИЗНАКОВ:

ПРОВЕРКА ГИПОТЕЗ И СВОЙСТВА КОЭФФИЦИЕНТОВ

КУТЕНКОВ Рудольф Петрович — кандидат технических наук, зав. сектором Института

социально-экономических проблем развития АПК АН СССР. В нашем журнале опубликовал {в

соавторстве) статьи: «Факторы стабилизации сельского населения» (1983, N 4), «Профессиональная ориентация сельской молодежи» (1985, N 1). КОРОСТЕЛЕВ Вячеслав Геннадьевич — старший инженер того же института. В «Социологических исследованиях» публикуется впервые.

Практически в каждом социологическом исследовании должны проверяться статистические гипотезы: К наиболее типичным относятся гипотезы относительно существенности (статистической значимости) связи и равенства силы связи между исследуемыми признаками для двух или нескольких групп респондентов. В настоящее время известно большое число различных коэффициентов для измерения тесноты связи и статистических критериев в целях проверки первой гипотезы [1—4]. Ведется интенсивное изучение свойств коэффициентов связи [1—5]. Установлено, что свойства коэффициентов зависят от параметров задачи: объема выборки, числа градаций признаков, маргинальных частот, т.е.

частот встречаемости отдельных градаций признаков. Разработана методика и проводятся работы по взаимной калибровке коэффициентов связи [6].



Вместе с тем в исследованиях не нашли отражения некоторые важные практические вопросы.

Например, недостаточно изучена чувствительность критериев проверки гипотезы относительно существенности связи: неясно, какой из критериев при выбранном, например, пятипроцентном уровне значимости улавливает более слабую связь между признаками, и как изменяется чувствительность критериев в зависимости от параметров задачи. При проверке гипотезы о равенстве силы связи между одними и теми же признаками для различных групп респондентов необходимо, как минимум, знание оценки дисперсии используемого коэффициента связи. Соответствующие расчетные формулы известны лишь для коэффициентов Пирсона, Чупрова и Крамера [1, с. 750]. Это очень ограничивает применение в решении задачи других мер связи, вошедших в практику в последние годы и, зачастую, обладающих лучшими характеристиками с позиций чувствительности или интерпретации.

В данной работе приводится решение перечисленных вопросов (применительно к наиболее распространенным мерам связи), имеющим отношение к чувствительности и получению расчетных формул для оценок дисперсии1.

Исследуемые меры связи Пусть выборочное двумерное распределение номинальных признаков X и Y задается таблицей сопряженности А(n, a, b), где n — объем выборки; a, b — числа градаций признаков X и Y соответственно. Пусть =(1,..., a), µ=(µ1, …, µb) — наборы маргинальных частот для градаций признаков, интерпретируемые как «частоты по строкам» и «частоты по столбцам» таблицы сопряженности.

Авторы благодарят О.В. Лакутина за обсуждение результатов.

Рассматриваются следующие коэффициенты связи: теоретико-информационные коэффициенты направленной связи R1(X Y), R2(Y X); Райского R3(X, Y) [4, с. 85]; взаимной сопряженности Пирсона (R4); Чупрова (R5); Крамера (R6) [3, с. 31—32]; канонической корреляции для качественных признаков R7 [1, с. 761], а также коэффициент R8, вычисляемый для качественных признаков по формулам корреляции для сгруппированных данных [2, с. 99] при оцифровке градаций Xi, Yj признаков числами натурального ряда; Xi =i, i = l, a; Yj =j, j = l, b.

Известно, что теоретико-информационные коэффициенты позволяют наряду с оценкой взаимосвязи между признаками определить меру однозначности соответствий X Y, Y X и тем самым выявить детерминирующий признак. Эти коэффициенты легко обобщаются на случай многомерных и условных связей.

Коэффициенты R4— R6 относятся к разряду традиционно используемых при обработке результатов социологических исследований.

Коэффициент R7 определяется как обычный коэффициент корреляции между количественными переменными, полученными посредством специальной оцифровки номинальных переменных X, Y [1, с.

764]. Он, как утверждается в [3, с. 53], характеризует основную тенденцию связи, задаваемую таблицей сопряженности в целом.

Удобство коэффициента R8 — в простоте вычислений. Кроме того, известен положительный опыт его использования для анализа связей между ранговыми признаками [7, с. 133] и номинальными признаками с числом градаций не более четырех [3, с. 82]. Это наводит на мысль о некоей универсальности Re, его пригодности для анализа связей в случае переменных различных типов. Вместе с тем свойства коэффициента Re применительно к номинальным признакам практически не исследованы.

Значимость коэффициентов R1— R3, R4— R6, R7 проверяется с использованием статистик 2nJ(XY), 2, -[n - 1 - (a+b-l)/2] x ln(l-R27), имеющих распределения хи-квадрат с числами степеней свободы (al)x(b-l) для первых двух статистик и (а+b-3) для третьей [8, с. 138]. Для проверки значимости коэффициента R8 применялось распределение Стьюдента.

Предпосылки и методика анализа Использован метод статистических испытаний в сочетании с методами математического планирования эксперимента. Предполагалось, что наблюдаемые номинальные признаки порождаются нормально распределенными латентными переменными, с коэффициентом корреляции.

Определялись минимальные значения, обозначаемые в дальнейшем p0i начиная с которых (0i) гипотеза об отсутствии связи между признаками (=0), проверяемая с помощью соответствующей статистики, отклонялась на пятипроцентном уровне значимости. Вычислялись значения Roi коэффициентов Ri, соответствующие значениям 0i.. Величины 0i, Roi далее будут называться критическими значениями.

Решались следующие задачи: 1. Определение зависимости 0i, Roi от объема выборки (n), числа градаций признаков (а, b), набора маргинальных частот (, µ). Сопоставление значений 0i, Roi для рассматриваемых мер связи. 2. Расчет среднеквадратических отклонений si, оценок коэффициентов Ri для RiR°. Анализ зависимостей si от параметров n, a, b,, µ.

Вычисления производились по такой схеме. С помощью специального датчика строилось n реализаций двумерной случайной величины (,), распределенной по стандартному нормальному закону с коэффициентом корреляции =0. В соответствии с заданными маргинальными частотами полученные значения (, ) преобразовывались в значения номинальных признаков (X, Y), X = l, a, Y = l, b. По результатам преобразования формировалось распределение, приводящее к таблице сопряженности А. Рассчитывались оценки коэффициентов связи Ri и значения статистик для проверки значимости Ri. Расчеты повторялись m раз на новых реализациях (,) после чего вычислялись средние значения (Ri) коэффициентов, их среднеквадратические отклонения (si), а также средние значения статистик для проверки значимости Ri.

Аналогичные вычисления осуществлялись на наборах скоррелированных случайных чисел при возрастающих значениях коэффициента корреляции (= 0,1; 0,2;...; 0,9; 0,95; 0,99). Средние значения статистик для проверки значимости Ri; рассчитываемые при каждом значении, сравнивались с пятипроцентными точками распределений хи-квадрат с соответствующими значениями чисел степеней свободы. По результатам сравнения при помощи интерполяции устанавливались критические значения 0i, Roi.

Все указанные вычисления были повторены для различных сочетаний n, a, b,, µ.

Рассматривались таблицы сопряженности размерности 3a, b10. Объем выборки n определялся для каждой таблицы так, чтобы при отсутствии связи между признаками (=0) в каждую клетку таблицы попадало в среднем около 10 наблюдений. В целях более точного определения зависимости (n), s(n) дополнительно строилось несколько выборок различного объема для таблиц сопряженности размерностей 33, 55, 3x8 и 77.

Наборы маргинальных частот, µ при каждом сочетании a, b задавались с использованием математических методов планирования эксперимента. Применительно к нашим задачам эти методы позволяли статистически оценить существенность влияния маргинальных частот на величины 0i, Roi и, при подтверждении такого влияния, построить линейные математические зависимости 0i, Roi от, µ. Использовался метод планирования эксперимента для двухкомпонентных смесей [9]. Выбор метода объясняется тем, что маргинальные частоты, как и компоненты смесей, связаны соотношениями a a

–  –  –





1, µ 1, а величины h, h подбирались таким образом, чтобы минимальные значения где 0i µ j a b частот находились в пределах 0,05—0,15.

В таблицах сопряженности, отличающихся лишь маргинальными частотами, использовались одни и те же случайные числа (,). Это позволило более точно установить зависимость 0i от, µ.

Всего с учетом различных наборов маргинальных частот (по плану эксперимента) было проанализировано свыше 300 таблиц сопряженности. Для определения средних значений коэффициентов расчеты по каждой таблице повторялись на m = 50 наборах случайных чисел.

В ряде случаев анализ коэффициентов проведен также для m = 100 повторений (такое m употреблено, в частности, в [6]). Значения средних практически совпали.

Результаты моделирования Установлено, что с ростом значения Ri и соответствующих статистик для проверки гипотезы =0 монотонно возрастают. Расчеты, проведенные с использованием неравенства Чебышева, дали основание сделать вывод о статистической независимости критических значений 0i, Roi от рассмотренных наборов маргинальных частот, удовлетворяющих условию (1), при всех исследованных сочетаниях значений а, b. Зависимость 0i, Roi от объема выборки и числа градаций признаков (табл.), как и следовало ожидать, статистически значима.

По величине 0i можно судить о чувствительности меры связи Ri, точнее, о чувствительности критерия для проверки гипотезы =0. Если 0i 0j,то чувствительность Ri выше, чем Rj, поскольку в этом случае гипотеза =0 отклоняется при более низкой корреляции между латентными переменными.

Результаты моделирования показали, что для каждого сочетания n, a, b имели место неравенства:

max(07, 08) 01-3 04-6; 08 07 при min(a, b) 8.

Иными словами, для таблиц сопряженности с числом строк и столбцов, меньшим восьми, наибольшей чувствительностью обладает коэффициент R8, для других размерностей — коэффициент R7.

Для числа градаций признаков и объемов выборки, отличающихся от приведенных в таблице, но удовлетворяющих ограничениям, при которых проводилось моделирование (За, b10, 100n700), критические значения могут быть вычислены по одной из приведенных ниже формул, полученных с использованием метода наименьших квадратов. Символами R2, 1, 2 обозначены соответственно коэффициент детерминации, средняя и максимальная относительная погрешности;

ln n — натуральный логарифм объема выборки.

–  –  –

100 0,045 0,046 0,023 0,284 0,281 0,209 200 0,030 0,028 0,015 0,220 0,234 0,155 200 0,038 0,037 0,019 0,224 0,270 0,163 300 0,038 0,022 0,014 0,200 0,261 0,141 300 0,032 0,032 0,016 0,206 0,278 0,146 500 0,033 0,023 0,014 0,179 0,302 0,130 500 0,029 0,029 0,015 0,167 0,302 0,130 700 0,021 0,021 0,011 0,143 0,258 0,109

–  –  –

Приведенные формулы могут также применяться в планировании социологического обследования для грубой оценки объема выборки (n), по числу градаций признаков и задаваемому критическому значению 0i.

Для каждого сочетания a, b, n имелись неравенства Ro3Ro2, Ro1Ro8Ro5Ro6Ro7Ro4, определяющие соотношения между коэффициентами. Таким образом, гипотеза об отсутствии связи между признаками отвергается при значениях информационных мер R1-R3, меньших, чем при значениях других коэффициентов.

Соотношения между коэффициентами в более широком диапазоне их изменения приводятся ниже:

–  –  –

Значения коэффициента R3, приведенные в первой строке, условно характеризуют слабую (0,050), среднюю (0,100) и сильную (0,200) связь между признаками. Разброс значений других коэффициентов (строки 2—4) зависит от объема выборки, числа градаций и маргинальных частот признаков при фиксированных значениях R3.

Статистическая независимость коэффициентов от наборов маргинальных частот сохранялась, как показало моделирование, при значениях коэффициента корреляции, не превышающих 0,4—0,45. Это соответствует значениям R30,05, R7, R80,4. При больших значениях разброс значений Ri;

определяемый изменением маргинальных частот, становится сравнимым с разбросом, определяемым размерностью таблицы и объемом выборки. Следовательно, если при проверке гипотезы об отсутствии связи можно не учитывать маргинальные частоты, то при анализе средних и сильных связей игнорирование различия маргинальных частот приводит к ошибке. Исходя из сказанного для обеспечения корректности при сопоставлении результатов различных исследований можно порекомендовать в сообщениях о статистически значимой зависимости приводить, наряду со значением оценки Ri; также объем выборки, число градаций признаков и оценки маргинальных частот.

Рассмотрим вопросы, возникающие при проверке другой важной в практическом отношении гипотезы: относительно равенства значений коэффициента связи между исследуемыми признаками для различных групп респондентов (R1j=R2i). Проверяя такую гипотезу, можно воспользоваться неравенством Чебышева, если известны среднеквадратические отклонения (СКО) коэффициента Ri.

Аналитические выражения для вычисления СКО известны лишь для коэффициентов R4-R6 [1, с.

750]. В этой связи была предпринята попытка построения по результатам моделирования расчетных формул для СКО (si) других коэффициентов. СКО зависели от всех параметров моделирования, однако влияние размеров таблицы и маргинальных частот удалось компенсировать за счет введения в расчетные формулы оценок соответствующих коэффициентов Ri. Рассматривалось несколько видов зависимостей. Наиболее точная аппроксимация СКО достигнута при использовании зависимостей вида

si= Ri n,

где значения коэффициентов а,, определены по результатам моделирования с использованием нелинейного метода наименьших квадратов. Получены следующие формулы:

s3 = 0,672 R30,507 n-0,466, R2 = 0,90, 1 = 11%, 2 = 17%, s, = 0,205R R7-0,907 n-0,384, R2 = 0,95, 1 = 9%, 2 = 31%, (3) s8 = 0,161R8 -0,8 n-0,318, R2 = 0,95, 1=8%, 2 = 25%.

Максимальные погрешности (больше 20%) отмечены для s7 и s8 соответственно по двум и по одной из исследованных таблиц сопряженности. Отметим, что формулы (3) выведены в предположении, что За, b10, 100n700 В заключение кратко сформулируем основные выводы, вытекающие из результатов проведенного анализа.

Соотношения между маргинальными частотами признаков не влияют существенно на точность критериев проверки гипотезы о независимости номинальных признаков. Показатели, характеризующие чувствительность коэффициентов связи при проверке этой гипотезы, могут быть рассчитаны по формулам (2). Для признаков с числом градаций, меньшим восьми, наибольшей чувствительностью обладает коэффициент связи R8, аналогичный коэффициенту корреляции для сгруппированных количественных переменных.

При коэффициентах корреляции между латентными переменными, больших 0,4—0,45, разброс значений коэффициентов Ri, связанный с изменением маргинальных частот, становится сравнимым с разбросом, вызываемым изменением размера выборки и числа градаций признаков. Указанные параметры нужно учитывать при сопоставлении результатов социологических исследований.

Оценки дисперсий, необходимые для проверки гипотезы относительно равенства коэффициента связи для двух групп респондентов, могут быть с достаточно высокой точностью вычислены по формулам (3), не содержащим значений чисел градаций и маргинальных частот признаков.

ЛИТЕРАТУРА

1. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

2. Статистические методы анализа информации в социологических исследованиях / Под ред. Осипова Г.В. М.: Наука, 1979.

3. Интерпретация и анализ данных в социологических исследованиях / Под ред. Андреенкова В.Г., Толстовой Ю.Н. М.: Наука, 1987.

4. Фелингер А.Ф. Статистические алгоритмы в социологических исследованиях. Новосибирск: Наука.

Сиб. отд-ние, 1985.

5. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов. М.: Статистика, 1977.

6. Лакутин О.В. Сопоставление коэффициентов связи в свете теории оцифровок // Социол. исслед. 1986.

N 4. С. 128—134.

7. Саганенко Г.И. Социологическая информация. Л.: Наука, Ленингр. отд-ние, 1979.

8. Айвазян С.А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. М.:

Финансы и статистика, 1985.

9. Зедгинидзе И.Г. Планирование эксперимента для исследования многокомпонентных систем.

М.: Наука, 1976.



Похожие работы:

«UDK 78.07(474.3) (092) З–143 Благодарим АО "TRASTA KOMERCBANKA" за финансовую поддержку издания книги Художественное оформление обложки Янис Павловскис На обложке использовано фото MacAren&Co for megapressgroup Литературный консультант Эрик Ханберг Ответственный редактор Анна Павловская Ли...»

«ТУЛУПЬЕВ Александр Львович АЛГЕБРАИЧЕСКИЕ БАЙЕСОВСКИЕ СЕТИ: ЛОГИКО-ВЕРОЯТНОСТНАЯ ГРАФИЧЕСКАЯ МОДЕЛЬ БАЗ ФРАГМЕНТОВ ЗНАНИЙ С НЕОПРЕДЕЛЕННОСТЬЮ 05.13.17 Теоретические основы информатики А В Т О Р Е Ф Е РАТ диссертации на соискание ученой степени доктора физико-ма...»

«Контроллер текстового матричного жидкокристаллического индикатора (ЖКИ) An6866 Техническое описание 16COM / 40SEG матричный контроллер ЖКИ An6866 Основные функции • контроллер и драйвер текстового матричного ЖКИ • интерфейс 4/8-разрядных микро...»

«Министерство образования Российской Федерации Методическое объединение вузовских библиотек Уральской зоны ГОУ ВПО "Уральский государственный технический университет – УПИ" Зональная научная библиотека Библиотеки вуз...»

«Сер. 11. 2009. Вып. 2 ВеСтнИК САнКт-ПетеРбУРгСКОгО УнИВеРСИтетА УДК 591.82+572.586+616.41 О. М. Муджикова, Ю. И. Строев, Л. П. Чурилов СоединитеЛьная тКань, СоМатотиП и щитоВидная жеЛеза Санкт-Петербургский государственный университет, Медицинский факультет Соединительная ткань (Ст), универсально представленная во все...»

«1. ОБЩИЕ ПОЛОЖЕНИЯ 1.1. Публичное акционерное общество "Строительные машины" (далее Общество) является коммерческой организацией, уставный капитал которой разделен на определенное...»

«ТРУДЫ МФТИ. — 2014. — Том 6, № 1 101 А. М. Гайфуллин и др. УДК 532.527 А. М. Гайфуллин1,2, Г. Г. Судаков1, А. В. Воеводин1, В. Г. Судаков1,2, Ю. Н. Свириденко1,2, А. С. Петров1 Центральный аэрогидродинамический институт им. проф. Н.Е. Жуковского Московский физико-технический институт (государственный ун...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Государственное образовательное бюджетное учреждение высшего профессионального образования "Ивановский государственный архитектурно-...»

«1 МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Учреждение образования "БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ" ТЕХНОЛОГИЯ ОРГАНИЧЕСКИХ ВЕЩЕСТВ Тезисы докладов 78-ой научно-технической конференции профес...»

«Техническое описание Обнаружение неавторизованных беспроводных точек доступа Несанкционированная точка доступа может поставить под угрозу безопасность всей сети, поскольку она открывает доступ к корпоративной сети для посторонних. Чтобы устранить эту уязвимость системы безопаснос...»








 
2017 www.doc.knigi-x.ru - «Бесплатная электронная библиотека - различные документы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.