Две выборочные дисперсии сравнивают с помощью критерия F, для этого вычисляют отношение большей дисперсии к меньшей.
В случае соблюдения условия F 2 ).
Доверительный интервал Критерий Стыоденга Выборочные числовые характеристики являются надежными количественными оценками генеральных характеристик лишь при большом объеме выборки. При ограниченных объемах испытаний необходимо указать степень точности и надежности оценок генеральных характеристик. Представление о точности и надежности оценок дают доверительные интервалы. Для любого малого уровня значимости можно указать значение
Относительное отклонение выборочного среднего от генерального среднего будет апроксимироваться величиной
Распределение величин t при разном числе степеней свободы
Границы доверительных интервалов для дисперсий могут быть найдены путем возведения в квадрат критических значений, соответствующих границам доверительных интервалов для среднего квадратического отклонения.
Критерий Стьюдента применим к нормальным или близким к ним распределениям. В случаях, когда оценка по критерию Стьюденте вызывает сомнение, следует применять критерий Вилкоксона или критерий Ван дер Вардена, которые являются непараметрическими, т.е. не зависящими от закона распределения.
Проверка гипотез о разнице между дисперсиями выполняется с использованием F-распределения и часто применяется для анализа различий в изменчивости показателей разных временных периодов. Рассмотрим эту методику в рамках изучения количественных методов по программе CFA.
Предположим, у нас есть гипотеза об относительных значениях дисперсий двух нормально распределенных совокупностей со средними \(\mu_1\) и \(\mu_1\) и дисперсиями \(\sigma^2_1\) и \(\sigma^2_2\). Мы можем сформулировать все гипотезы в виде следующих вариантов:
Средняя еженедельная доходность (%)
До кризиса: с 1999 по 2006 год
После кризиса: 2010 по 2017 год
Источник данных о доходности: finance.yahoo.com по состоянию на 19 августа 2018.
Решение для части 1:
У нас есть альтернативная гипотеза «не равно»:
Решение для части 2:
Решение для части 3:
Выборочная дисперсия «до» больше, поэтому, следуя соглашению для расчета F-статистики, выборочная дисперсия «до» попадает в числитель:
\(F = 18.203 / 3.919 = 4.645\)
Поскольку это двусторонняя проверка, мы используем F-таблицы для уровня значимости 0.005 (=0.01/2), чтобы получить значение для уровня значимости 0.01.
Самое близкое значение к 417 степеням свободы составляет 120 степеней свободы. На уровне значимости 0.01, критическим значением будет 1.61.
Поскольку 4.645 больше, чем критическое значение 1.61, мы отвергаем нулевую гипотезу о том, что дисперсия доходности по совокупности является одинаковой в периоды до и после финансового кризиса.
Похоже, что рынок Южной Кореи был более волатильным до финансового кризиса.
Пример (9). Волатильность в дни истечения сроков действия деривативов.
Такие дни известны как «четверные колдовские дни» (см. также: тройной колдовской час). Вы хотите исследовать, демонстрируют ли четверные колдовские дни большую волатильность, чем обычные дни.
В Таблице 10 представлено ежедневное стандартное отклонение доходности для обычных дней и дней истечения срока действия опционов/фьючерсов в течение четырехлетнего периода. Данные таблицы относятся к опционам и фьючерсам по 30 акциям, входящим в состав индекса Dow Jones Industrial Average.
Таблица 10. Стандартное отклонение доходности: Нормальные торговые дни и дни истечения сроков деривативов.
Поскольку это односторонняя проверка на уровне значимости 0.05, мы используем F-таблицу для уровня 0.05 непосредственно. Самое близкое значение к 137 степеням свободы составляет 120 степеней свободы.
На уровне значимости 0.05, критическое значение составляет 1.75. Поскольку 2.20 больше 1.75, мы отвергаем нулевую гипотезу. Оказывается, что четверные колдовские дни демонстрируют волатильность выше нормальной.
В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о принадлежности двух выборок одной совокупности. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.
6.1.1 Методы проверки выборки на нормальность
Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы:
1) в пределах осей можно нарисовать полигон частоты (эмпирическую функцию распределения) и кривую нормального распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой;
2) вычисляется среднее, медиана и мода и на основе этого определяется отклонение от нормального распределения. Если мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.
3) эксцесс кривой распределения должен быть равен 0. Кривые с положительным эксцессом значительно вертикальнее кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения;
4) после определения среднего значения распределения частоты и стандартного oтклонения находят следующие четыре интервала распределения сравнивают их с действительными данными ряда:
а) — к интервалу должно относиться около 25% частоты совокупности,
б) — к интервалу должно относиться около 50% частоты совокупности,
в) — к интервалу должно относиться около 75% частоты совокупности,
г) — к интервалу должно относиться около 100% частоты совокупности.
6.1.2 Критерий Стьюдента ( t-критерий)
Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочныйt-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.
Статистика критерия для случая несвязанных, независимых выборок равна:
(1)
где , — средние арифметические в экспериментальной и контрольной группах,
— стандартная ошибка разности средних арифметических. Находится из формулы:
, (2)
где n 1 и n 2 соответственно величины первой и второй выборки.
Если n 1= n 2, то стандартная ошибка разности средних арифметических будет считаться по формуле:
(3)
где n величина выборки.
Подсчет числа степеней свободы осуществляется по формуле:
Далее необходимо сравнить полученное значение t эмп с теоретическим значением t—распределения Стьюдента (см. приложение к учебникам статистики). Если t эмп t крит, то гипотеза H 0 принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.
Таблица 1. Результаты эксперимента
Первая группа (экспериментальная) N 1=11 человек
Вторая группа (контрольная)
12 14 13 16 11 9 13 15 15 18 14
13 9 11 10 7 6 8 10 11
Общее количество членов выборки: n 1=11, n 2=9.
Расчет средних арифметических: Хср=13,636; Y ср=9,444
Стандартное отклонение: s x=2,460; s y =2,186
По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:
Считаем статистику критерия:
Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два (18).
Табличное значение tкрит равняется 2,1 при допущении возможности риска сделать ошибочное суждение в пяти случаях из ста (уровень значимости=5 % или 0,05).
Если полученное в эксперименте эмпирическое значение t превышает табличное, то есть основания принять альтернативную гипотезу (H1) о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе экспериментального обучения.
Здесь могут возникнуть такие вопросы:
1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.
2. Доказано ли преимущество экспериментального метода? Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.
3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической экспериментальной группы, a — контрольной:
Отсюда следует вывод, что новый метод пока не проявил себя с хорошей стороны по разным, возможно, причинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза (Н2) о преимуществе традиционного метода.
В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.
Вычисление значения t осуществляется по формуле:
(5)
Sd вычисляется по следующей формуле:
(6)
Если t эмп t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.
Пример 2. Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест. Из методических соображений в таблице 2 приводятся результаты небольшого числа испытуемых. [2]
Таблица 2. Результаты эксперимента
до начала эксперимента (Х)
Вначале произведем расчет по формуле:
Затем применим формулу (6), получим:
И, наконец, следует применить формулу (5). Получим:
Число степеней свободы: k =10-1=9 и по таблице Приложения 1 находим tкрит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтернативной гипотезы (H1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.
6.1.3 F — критерий Фишера
Критерий Фишера позволяет сравнивать величины выборочных дисперсий двух независимых выборок. Для вычисления Fэмп нужно найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фишера такова:
(8)
где — дисперсии первой и второй выборки соответственно.
Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значение Fэмп всегда будет больше или равно единице.
Число степеней свободы определяется также просто:
В Приложении 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).
Если t эмп> t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.
Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. [3] Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос — есть ли различия в степени однородности показателей умственного развития между классами.
Решение. Для критерия Фишера необходимо сравнить дисперсии тестовых оценок в обоих классах. Результаты тестирования представлены в таблице:
Рассчитав дисперсии для переменных X и Y, получаем:
Тогда по формуле (8) для расчета по F критерию Фишера находим:
6.2 Непараметрические критерии
Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия. Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.
6.2.1 Критерий знаков ( G-критерий)
Критерий предназначен для сравнения состояния некоторого свойства у членов двух зависимыхвыборок на основе измерений, сделанных по шкале не ниже ранговой.
Нулевая гипотеза формулируются следующим образом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно различны в одной и той же совокупности при первичном и вторичном измерениях этого свойства.
Статистика критерия (Т) определяется следующим образом:
Пример 4. Учащиеся выполняли контрольную работу, направленную на проверку усвоения некоторого понятия. Пятнадцати учащимся затем предложили электронное пособие, составленное с целью формирования данного понятия у учащихся с низким уровнем обучаемости. После изучения пособия учащиеся снова выполняли ту же контрольного работу, которая оценивалась по пятибалльной системе.
Результаты двукратного выполнения работы представляют измерения по шкале порядка (пятибалльная шкала). В этих условиях возможно применение знакового критерия для выявления тенденции изменения состояния знаний учащихся после изучения пособия, так как выполняются все допущения этого критерия.
Результаты двукратного выполнения работы (в баллах) 15 учащимися запишем в форме таблицы (см. табл. 1). [4]
Проверка гипотез о равенстве средних и дисперсий с помощью статистического пакета SPSS
Очень удобным и достаточно легким для понимания является критерий Левена(Levene’s Test), который изначально встроен в SPSS. Данный метод достаточно прост, и не требует особенных знаний в статистике. Рассмотрим пример данных, полученных в двух сериях измерений. Расположим результаты двух серий в один столбец, затем рядом, в соседнем столбце, проставим числа, характеризующие номер лаборатории, в которой получен результат.
Затем воспользуемся пакетом Analyze-> Compare means-> Independent-Samples T-test. В качестве тестируемой величины у нас “Result”, а группирующая величина- “Laboratory”, содержащая номера серий.
Чтобы выделить наши 2 группы результатов, нажимаем Define Groups и выставляем значения номеров наших лабораторий:
Затем жмем Continue и Ok, получаем:
Столбец с меткой Sig. дает двустороннее значение p-критерия, связанное с критерием Левена. Так как значение Sig.= 0,025 меньше нашей α=0,05(заданный уровень значимости), то гипотеза о равенстве дисперсий неверна, и выборки не принадлежат одной генеральной совокупности.
Теперь рассмотрим результаты t-теста, позволяющего проверить гипотезу о равенстве средних выборок. Так как Sig.(2-tailed) больше нашей α=0,05, то гипотеза о равенстве средних верна, и различие средних признается статистически незначимым. Таким образом, одним действием получаем ответы на поставленные вопросы.
Задачи проверки гипотез о равенстве дисперсий приходится решать при сравнении точности приборов, методов измерений, погрешности показаний измерительных устройств и т. д.
Подобные задачи формулируются следующим образом. Предположим, имеются две нормально распределенные случайные величины X и Y, математические ожидания и дисперсии которых неизвестны.
При наблюдении за этими переменными получены случайные выборки , соответственно.
При обработке результатов наблюдений найдены оценки дисперсий
где тпх, ту — оценки математических ожиданий случайных переменных X и Y.
По полученным оценкам Dx и Dy необходимо вынести суждение о равенстве истинных значений дисперсий Dx и Dy, т. е. проверить нулевую гипотезу HQ: Dx = Dy.
Если нулевая гипотеза будет справедлива, то это означает, что выборочные оценки Dx и Dy представляют собой оценки одной и той же дисперсии, а их различие обусловлено случайными причинами. В противном случае различие дисперсий существенно.
В качестве показателя согласованности проверки нулевой гипотезы о равенстве дисперсий принимают случайную величину
Показатель согласованности (6.23) имеет распределение Фишера (F-распределение) с числами степеней свободы к1 = п1
1. Известно, что распределение Фишера зависит только от значений чисел степеней свободы и не зависит от других параметров. Плотность распределения Фишера показана на рис. 6.6.
Для распределения Фишера составлена таблица (см. табл. 14 приложения) значений иу (рис. 6.6), удовлетворяющих равенству
при различных комбинациях kv к2 и значениях вероятности Р равных: 0,05 и 0,01.
Альтернативная гипотеза Н1 может быть задана тремя способами:
В зависимости от способа задания гипотезы Н1 имеют место особенности в определении границ критической области. Определение границы критической области рассмотрим в наиболее общем случае, когда альтернативная гипотеза задается в виде Hl: Dx^ Dy, т. е. необходимо построить двустороннюю критическую область. В этом случае при заданном уровне значимости необходимо определить два значения иа левое иа и правое иаг(рис. 6.7).
Наибольшая мощность критерия проверки гипотезы обеспечивается тогда, когда вероятности попадания ПС в каждый из двух интервалов критической области будут одинаковы и равны —. Таким образом, при построении критической области должны выполняться следующие условия
Правая критическая точка иа2 может быть найдена непосредственно из таблицы распределения Фишера, при этом входом в таблицу будут
Однако левых критических точек эта таблица не содержит и поэтому непосредственно по ним найти иа^ невозможно, поскольку таблицы Фишера составлены лишь для малых значений вероятностей. Поэтому для проверки нулевой гипотезы с использованием ПС (6.23) используют следующий искусственный прием.
Если окажется, что то из таблицы вероятностей
распределения Фишера находят значение ир при числах степеней свободы кх = п1 — 1, к2 = п2 — 1 и Р = —. При этом значение ПС рассчитывают по формуле ^
Если же то для вычисления ПС используют формулу
а из таблицы вероятностей находят значение ир при числах
Таким образом, значение ПС, отвечающее результатам наблюдений, получают, подставляя в числитель выражения (6.23) большее из значений оценок Dx и Dy.
Нулевую гипотезу отклоняют, если вычисленное значение ПС превзойдет выбранное таким образом значение ир, т. е. если u > ир. В противном случае гипотезу Н0 считают справедливой.
Описанный прием проверки нулевой гипотезы HQ: Dx = Dy позволяет отклонить или принять ее как в случае, когда Dx Dv
Проверка гипотезы о равенстве дисперсий проводится в следующей последовательности.