Анализ категоризованных данных


При самостоятельном желании понять тему " Анализ категоризованных данных " вам поможет наш ресурс. Для вас наши специалисты подготовили материал, изучив который вы будете разбираться в ней уровне профессионала. А если у вас останутся вопросы, то задать их вы сможете прямо на сайте написав в чат онлайн-консультанта.

оформить заявку

Слишком сложно? Тогда запросите консультацию специалиста!

Наша компания занимается тем, что помогает студентам выполнять различные учебные работы на заказ. Вы можете ознакомиться с перечнем выполняемых работ, а так же с их стоимостью на странице с ценами.

ознакомиться с условиями

Краткое пояснение: Анализ категоризованных данных

Этот метод анализа связей используется в случае, когда как независимые переменные (факторы риска), так и зависимые переменные (показатели здоровья) являются порядковыми, качественными, или же количественными, но выраженными не в абсолютных значениях, а разбитыми на небольшое число категорий. Категоризованные данные представляются в виде частот наблюдений, соответствующих различным категориям исследуемых показателей. Исходные данные для анализа взаимосвязи между двумя переменными А и В представляются в виде так называемых таблиц сопряженности признаков, число строк которой равно числу градаций переменной А, число столбцов — числу градаций переменной В, а в ячейке на пересечении i-й строки с j-м столбцом стоит число nij, равное числу наблюдений, соответствующих i-й градации фактора А и j-й градации фактора В.

Пусть число градаций фактора А равно I, а число градаций фактора В равно J. Если верна нулевая гипотеза о независимости факторов А и В, то статистика

χ2 =

где eij — ожидаемое число наблюдений в ij-й ячейке — имеет χ2-распределение с (I-1)(J-1) степенями свободы, поэтому критической областью для нулевой гипотезы при заданном уровне значимости α являются значения статистики χ2 превышающие квантиль порядка (I - α) для χ2-распределения с (I - 1)(J - 1) степенями свободы.

Ожидаемое число наблюдений в ij-й ячейке при условии независимости факторов А и В равно сумме чисел наблюдений по i-й строке, умноженной на сумму чисел наблюдений по j-му столбцу и деленной на суммарное число наблюдений, поскольку если суммарное число наблюдений равно N, то

eij = N ∙ P(Ai|Bi).

Если события Аi и Вj независимы, то

P(Ai|Bi) = P(Ai)P(Bj).

причем вероятности событий Аi и Вj равны следующим выражениям:

P(Ai) =

P(Bj) =

Откуда и следует выражение для расчета ожидаемых значений числа наблюдений:

eij = N

Пример 15. Данные из примера 11 можно использовать для того, чтобы определить, существует ли взаимосвязь между загрязненностью окружающей среды и состоянием здоровья населения (табл. 4.8).

Таблица 4.8

Таблица сопряженности для показателей загрязнения окружающей среды

и состояния здоровья населения

Уровни состояния здоровья Уровни загрязнения окружающей среды Суммы по строкам
Незагрязненная территория Загрязненная территория
Очень плохое 2(7) 12(7)
Плохое 18 (20) 22 (20)
Удовлетворительное 35 (38) 41 (38)
Хорошее 29 (24) 19 (24)
Очень хорошее 16(11) 6(11)
Суммы по столбцам

Примечание: в скобках приведены ожидаемые числа наблюдений для ячеек.




χ2 =

(I - 1)(J - 1) = 4 ∙ 1 = 4.

Для распределения χ2 с 4 степенями свободы табличное значение квантили порядка 0,99 равно 13,277. Таким образом, с 99 %-м доверительным уровнем, или с уровнем значимости α = 0,05, следует отвергнуть нулевую гипотезу, т.е. предположение о наличии связи между загрязнением окружающей среды и состоянием здоровья подтверждается имеющимися данными. Расчет статистики χ2 показывает, что основной вклад в нее вносят не центральные, а крайние значения показателя состояния здоровья.

Помимо анализа таблиц сопряженности, критерий χ2 имеет еще одну важную область использования — анализ соответствия между выборочным и теоретическим распределением. В этом случае диапазон изменений выборки разбивается на п интервалов и для каждого интервала определяется число попаданий в него выборочных значений. Ожидаемые числа попаданий для каждого интервала рассчитываются в соответствии с видом и параметрами теоретического распределения. Далее точно так же, как при анализе таблиц сопряженности, рассчитывается значение статистики χ2 с числом степеней (n — 1) и проводится её сравнение с квантилями распределения χ2 Для заданного уровня значимости.

Задача 6. Обследованы 2 группы людей с различным характером профессиональной деятельности. В группе из 40 обследуемых, чья работа связана с интенсивными эмоциональными нагрузками, различные проявления нарушений со стороны сердечно-сосудистой системы выявлены у 32 человек, тогда как среди 100 обследуемых, работающих в спокойной обстановке, такие нарушения выявлены у 10 человек. Проверить гипотезу о наличии связи между уровнем эмоциональной напряженности профессиональной деятельности и частотой сердечно-сосудистых нарушений, учитывая, что 95, 98, 99 и 99,9-процентные точки распределения χ2 с 1 степенью свободы равны соответственно 3,84, 5,41, 6,64 и 10,83.



Решение. Условия задачи можно представить в виде таблицы сопряжен­ности 4.9.

Расчет ожидаемых чисел наблюдений:

e11 = 42 ∙ e12 = 42 ∙

e21 = 98 ∙ e22 = 98 ∙

χ2 =

Таблица 4.9

Нарушения сердечно-сосудистой системы Профессиональный стресс Суммы по строкам
Имеется Отсутствует
Имеются
Отсутствуют
Суммы по столбцам

Полученная величина χ2-статистики превосходит критическое значение (10,93) для уровня значимости α = 0,001, т.е. использованные данные с высоким доверительным уровнем подтверждают гипотезу о связи нарушений сердечно-сосудистой системы с профессионально обусловленными эмоциональными нагрузками.


Конечно, для полного рассмотрения вопроса 'Анализ категоризованных данных', приведенной информации не достаточно, однако чтобы понять основы, её должно хватить. Если вы изучаете эту тему, с целью выполнения задания заданного преподавателем, вы можете обратится за консультацией в нашу компанию. В нашей команде работает большой состав специалистов, которые разбираются в изучаемом вами вопросе на экспертном уровне.

Хм, так же просматривали

Заказ

ФОРМА ЗАКАЗА

Бесплатная консультация

Наша компания занимается написанием студенческих работ. Мы выполняем: дипломные, курсовые, контрольные, задачи, рефераты, диссертации, отчеты по практике, решаем тесты и задачи, и многие другие виды заданий. Чтобы узнать стоимость, а так же условия выполнения работы заполните заявку на этой странице. Как только менеджер увидит ваше сообщение, он сразу же свяжется с вами.

Этапность

СОПРОВОЖДЕНИЕ КЛИЕНТА

Получить работу можно всего за 4 шага

01
Оставляете запрос

Оформляете заказ работы, заполняя форму на сайте.

02
Узнаете стоимость

Менеджер оценивает сложность. Узнаете точную цену.

03
Работа пишется

Оплачиваете и автор приступает к выполнению задания.

04
Забираете заказ

Получаете работу в электронном виде на вашу почту.

Услуги

НАШ СЕРВИС

Что мы еще делаем?

icon
Рефераты

от 580 рублей

ПОДРОБНЕЕ
icon
Лабораторные работы

от 630 рублей

ПОДРОБНЕЕ
icon
Творческие работы

от 180 рублей

ПОДРОБНЕЕ
icon
Чертежи

от 280 рублей

ПОДРОБНЕЕ
icon
Решение задач

от 180 рублей

ПОДРОБНЕЕ
icon
Ответы для учебы

от 180 рублей

ПОДРОБНЕЕ