Проверка гипотезы о равенстве среднего заданному значению а. Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия неизвестна)




8.1. Понятие зависимых и независимых выборок.

Выбор критерия для проверки гипотезы

в первую очередь определяется тем, являются ли рассматриваемые выборки зависимыми или независимыми. Введем соответствующие определения.

Опр. Выборки называются независимыми , если процедура отбора единиц в первую выборку никак не связана с процедурой отбора единиц во вторую выборку.

Примером двух независимых выборок могут служить обсуждавшиеся выше выборки мужчин и женщин, работающих на одном предприятии (в одной отрасли и т.д.).

Заметим, что независимость двух выборок отнюдь не означает отсутствие требования определенного рода сходства этих выборок (их однородности). Так, изучая уровень дохода мужчин и женщин, мы вряд ли допустим такую ситуацию, когда мужчины отбираются из среды московских бизнесменов, а женщины – из аборигенов Австралии. Женщины тоже должны быть москвичками и, более того – «бизнесвуменшами». Но здесь мы говорим не о зависимости выборок, а о требовании однородности изучаемой совокупности объектов, которое должно удовлетворяться и при сборе, и при анализе социологических данных.

Опр. Выборки называются зависимыми, или парными, если каждая единица одной выборки «привязывается» к определенной единице второй выборки.

Последнее определение, вероятно, станет более ясным, если мы приведем пример зависимых выборок.

Предположим, что мы хотим выяснить, является ли социальный статус отца в среднем ниже социального статуса сына (полагаем, что мы можем измерить эту сложную и неоднозначно понимаемую социальную характеристику человека). Представляется очевидным, что в такой ситуации целессобразно отбрать пары респондентов (отец, сын) и считать, что каждый элемент первой выборки (один из отцов) «привязан» к определенному элементу второй выборки (своему сыну). Эти две выборки и будут называться зависимыми.

8.2. Проверка гипотезы для независимых выборок

Для независимых выборок выбор критерия зависит от того, знаем ли мы генеральные дисперсии s 1 2 и s 2 2 рассматриваемого признака для изучаемых выборок. Будем считать эту проблему решенной, полагая, что выборочные дисперсии совпадают с генеральными. В таком случае в качестве критерия выступает величина:

Прежде, чем переходить к обсуждению той ситуации, когда генеральные дисперсии (или хотя бы одна из них) нам неизвестны, заметим следующее.

Логика использования критерия (8.1) похожа на ту, которая была описана нами при рассмотрении критерия “Хи-квадрат” (7.2). Имеется лишь одно принципиальное отличие. Говоря о смысле критерия (7.2), мы рассматривали бесконечное количество выборок объема n, «черпающихся» из нашей генеральной совокупности. Здесь же, анализируя смысл критерия (8.1), мы переходим к рассмотрению бесконечного количества пар выборок объемом n 1 и n 2 . Для каждой пары и рассчитывается статистика вида (8.1). Совокупности получаемых значений таких статистик, в соответствии с нашими обозначениями, отвечает нормальное распределение (как мы условились, буква z используется для обозначения такого критерия, которому отвечает именно нормальное распределение).

Итак, если генеральные дисперсии нам неизвестны, то мы вынуждены вместо них пользоваться их выборочными оценками s 1 2 и s 2 2 . Однако при этом нормальное распределение должно замениться на распределение Стьюдента – z должно замениться на t (как это имело место в аналогичной ситуации при построения доверительного интервала для математического ожидания). Однако при достаточно больших объемах выборок (n 1 , n 2 ³ 30) , как мы уже знаем, распределение Стьюдента практически совпадает с нормальным. Другими словами, при больших выборках мы можем продолжать пользоваться критерием:

Сложнее обстоит дело с такой ситуацией, когда и дисперсии неизвестны, и объем хотя бы одной выборки мал. Тогда вступает в силу еще один фактор. Вид критерия зависит от того, можем ли мы считать неизвестные нам дисперсии рассматриваемого признака в двух анализируемых выборках равными. Для выяснения этого надо проверить гипотезу:

H 0: s 1 2 = s 2 2 . (8.3)

Для проверки этой гипотезы используется критерий

О специфике использования этого критерия пойдет речь ниже, а сейчас продолжим обсуждать алгоритм выбора критерия, использующего для проверки гипотез о равенстве математических ожиданий.

Если гипотеза (8.3) отвергается, то интересующий нас критерий приобретает вид:

(8.5)

(т.е. отличается от критерия (8.2), использовавшегося при больших выборках, тем, что соответствующая статистика имеет не нормальное распределение, а распределение Стьюдента). Если гипотез (8.3) принимается, то вид используемого критерия меняется:

(8.6)

Подведем итог того, как выбирается критерий для проверки гипотезы о равенстве генеральных математических ожиданий на основе анализа двух независимых выборок.

известны

неизвестны

размер выборок большой

H 0: s 1 = s 2 отвергается

Принимается

8.3. Проверка гипотезы для зависимых выборок

Перейдем к рассмотрению зависимых выборок. Пусть последовательности чисел

X 1 , X 2 , … , X n ;

Y 1 , Y 2 , … , Y n –

это значения рассматриваемой случайной для элементов двух зависимых выборок. Введем обозначение:

D i = X i - Y i , i = 1, ... , n.

Для зависимых выборок критерий, позволяющий проверять гипотезу

выглядит следующим образом:

Заметим, что только что приведенное выражение для s D есть не что иное, как новое выражение для известной формулы, выражающей среднее квадратическое отклонение. В данном случае речь идет о среднем квадратическом отклонении величин D i . Подобная формула часто используется на практике как более простой (по сравнению с «лобовым» подсчетом суммы квадратов отклонений значений рассматриваемой величины от соответствующего среднего арифметического) способ расчета дисперсии.

Если сравнить приведенные формулы с теми, которые мы использовали при обсуждении принципов построения доверительного интервала, нетрудно заметить, что проверка гипотезы о равенстве средних для случая зависимых выборок по существу является проверкой равенства нулю математического ожидания величин D i . Величина

есть среднее квадратическое отклонение для D i . Поэтому значение только что описанного критерия t n -1 по существу равно величине D i , выраженной в долях среднего квадратического отклонения. Как мы говорили выше (при обсуждении способов построения доверительных интервалов), по такому показателю можно судить о вероятности рассматриваемого значения D i . Отличие состоит в том, что выше шла речь о простом среднем арифметическом, распределенном нормально, а здесь – о средних разностей, такие средние имеют распределение Стьюдента. Но рассуждения о взаимосвязи вероятности отклонения выборочного среднего арифметического от нуля (при математическом ожидании, равном нулю) с тем, сколько единиц s это отклонение составляет, остаются в силе.

Пример . Доходы аптек одного из микрорайонов города за некоторый период составили 128; 192; 223; 398; 205; 266; 219; 260; 264; 98 (условных единиц). В соседнем микрорайоне за то же время они были равны 286; 240; 263; 266; 484; 223; 335.
Для обеих выборок вычислите среднее, исправленную дисперсию и среднее квадратическое отклонение. Найдите размах варьирования, среднее абсолютное (линейное) отклонение, коэффициент вариации, линейный коэффициент вариации, коэффициент осцилляции.
Предполагая, что данная случайная величина имеет нормальное распределение, определите доверительный интервал для генеральной средней (в обоих случаях).
По критерию Фишера проверьте гипотезу о равенстве генеральных дисперсий. По критерию Стьюдента проверьте гипотезу о равенстве генеральных средних (альтернативная гипотеза – об их неравенстве).
Во всех расчётах уровень значимости α = 0,05.

Решение проводим с помощью калькулятора Проверка гипотезы о равенстве дисперсий .
1. Находим показатели вариации для первой выборки .

x |x - x ср | (x - x ср) 2
98 127.3 16205.29
128 97.3 9467.29
192 33.3 1108.89
205 20.3 412.09
219 6.3 39.69
223 2.3 5.29
260 34.7 1204.09
264 38.7 1497.69
266 40.7 1656.49
398 172.7 29825.29
2253 573.6 61422.1


.



Показатели вариации .
.

R = X max - X min
R = 398 - 98 = 300
Среднее линейное отклонение


Каждое значение ряда отличается от другого в среднем на 57.36
Дисперсия


Несмещенная оценка дисперсии


.

Каждое значение ряда отличается от среднего значения 225.3 в среднем на 78.37
.

.

Коэффициент вариации

Поскольку v>30% ,но v или

Коэффициент осцилляции

.
.


По таблице Стьюдента находим:
T табл (n-1;α/2) = T табл (9;0.025) = 2.262

(225.3 - 59.09;225.3 + 59.09) = (166.21;284.39)

2. Находим показатели вариации для второй выборки .
Проранжируем ряд. Для этого сортируем его значения по возрастанию.
Таблица для расчета показателей.

x |x - x ср | (x - x ср) 2
223 76.57 5863.18
240 59.57 3548.76
263 36.57 1337.47
266 33.57 1127.04
286 13.57 184.18
335 35.43 1255.18
484 184.43 34013.9
2097 439.71 47329.71

Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения .
Простая средняя арифметическая


Показатели вариации .
Абсолютные показатели вариации .
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 484 - 223 = 261
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.


Каждое значение ряда отличается от другого в среднем на 62.82
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии (исправленная дисперсия).


Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 299.57 в среднем на 82.23
Оценка среднеквадратического отклонения .

Относительные показатели вариации .
К относительным показателям вариации относят: коэффициент осцилляции, линейный коэффициент вариации, относительное линейное отклонение.
Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.

Поскольку v ≤ 30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Линейный коэффициент вариации или Относительное линейное отклонение - характеризует долю усредненного значения признака абсолютных отклонений от средней величины.

Коэффициент осцилляции - отражает относительную колеблемость крайних значений признака вокруг средней.

Интервальное оценивание центра генеральной совокупности .
Доверительный интервал для генерального среднего .

Определяем значение t kp по таблице распределения Стьюдента
По таблице Стьюдента находим:
T табл (n-1;α/2) = T табл (6;0.025) = 2.447

(299.57 - 82.14;299.57 + 82.14) = (217.43;381.71)
С вероятностью 0.95 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.
Проводим проверку гипотезы о равенстве дисперсий:
H 0: D x = D y ;
H 1: D x Найдём наблюдаемое значение критерия Фишера:

Поскольку s y 2 > s x 2 , то s б 2 = s y 2 , s м 2 = s x 2
Числа степеней свободы:
f 1 = n у – 1 = 7 – 1 = 6
f 2 = n x – 1 = 10 – 1 = 9
По таблице критических точек распределения Фишера–Снедекора при уровне значимости α = 0.05 и данным числам степеней свободы находим F кр (6;9) = 3.37
Т.к. F набл Проводим проверку гипотезы о равенстве генеральных средних:


Найдём экспериментальное значение критерия Стьюдента:


Число степеней свободы f = n х + n у – 2 = 10 + 7 – 2 = 15
Определяем значение t kp по таблице распределения Стьюдента
По таблице Стьюдента находим:
T табл (f;α/2) = T табл (15;0.025) = 2.131
По таблице критических точек распределения Стьюдента при уровне значимости α = 0.05 и данному числу степеней свободы находим t кр = 2.131
Т.к. t набл

Проверка равенства среднего определенному значению.

Выборки извлечены из совокупности, имеющей нормальное распределение, данные независимы.

Критериальное значение вычисляется по формуле:

где N - размер выборки;

S 2 - эмпирическая дисперсия выборки;

А - предполагаемая величина среднего значения;

X- среднее значение.

Число степеней свободы для t-критерия V = n-1.

Нулевая гипотеза

Н 0: X = А против Н А: X≠А. Нулевая гипотеза о равенстве средних отвергается, если по абсолютной величине критериальное значение больше верхней α/2 % точки t-распределения взятого с V степенями свободы, то есть при │t│> t vα/2 .

Н 0: Х< А против Н А: X > А. Нулевая гипотеза отвергается, если критериальное значение больше верхней α% точки t-распределения взятого с V степенями свободы, то есть при │t│> t vα .

Н 0: Х>А против H А: X < А. Нулевая гипотеза отвергается, если критериальное значение меньше нижней α% точки t-распределения, взятого с V степенями свободы.

Критерий устойчив при малых отклонениях от нормального распределения.

Пример

Рассмотрим пример, представленный на рис. 5.10. Допустим, что нам необходимо проверить гипотезу о равенстве среднего для выборки (ячейки 123:130) величине 0,012.

Сначала находим среднее выборки (=СРЗНАЧ(123:130) в I31) и дисперсию (=ДИСП(I23:I30) в I32). После этого рассчитываем критериальное (=(131-0,012)*КОРЕНЬ(133)/132) и критическое (=СТЬЮДРАСПОБР(0,025;133-1)) значения. Поскольку критериальное значение (24,64) больше критического (2,84), то гипотеза о равенстве среднего 0,012 отвергается.

Рисунок 5.10 Сравнение среднего значения с константой

1. проверить гипотезы о средних и дисперсиях с помощью параметрических критериев Фишера и Кохрена (таблица 5.4);

2. проверить гипотезу о равенстве средних при неравных дисперсиях выборок (для этого в одной из выборок своего варианта убрать 1 или 2 значения) (таблица 5.4);

3. проверить гипотезу о равенстве среднего заданному значению А (таблица 5.5) и данные из 1-го столбца по варианту.

Таблица 5.4

Варианты заданий

Данные эксперимента
Вариант
2,3 2,6 2,2 2,1 2,5 2,6
1,20 1,42 17,3 23,5 2,37 2,85 35,2 26,1 2,1 2,6
5,63 5,62 26,1 27,0 5,67 2,67 35,9 25,8 5,1 5,63
2,34 2,37 23,9 23,3 2,35 2,34 33,6 23,8 2,34 2,38
7,71 7,90 28,0 25,2 2,59 2,58 35,7 26,0 7,63 7,6,1
1,2 1,6 1,7 2,6 1,9 2,8
1,13 1,15 21,6 21,2 2,13 2,16 31,7 1,12 1,12
1,45 1,47 24,7 24,8 2,45 2,47 34,8 24,5 1,49 1,45
3,57 3,59 25,9 25,7 2,55 2,59 36,0 25,7 3,58 3,58
3,3 3,6 2,5 2,4 3,4 3,5
Данные эксперимента
Вариант
7,3 7,6 12,2 12,1 3,5 4,6
6,20 6,42 217,3 230,5 12,37 12,85 75,2 86,1 3,1 4,6
7,63 5,62 264,1 278,0 15,67 14,67 75,9 75,8 5,1 5,63
6,34 5,37 233,9 236,3 12,35 12,34 73,6 73,8 3,34 4,38
7,71 7,90 281,0 255,2 12,59 12,58 85,7 86,0 3,63 4,6,1
6,2 6,6 11,7 12,6 3,9 4,8
4,13 4,15 251,6 261,2 12,13 12,16 71,7 5,12 4,12
5,45 6,47 244,7 247,8 12,45 12,47 74,8 84,5 3,49 4,45
5,57 5,59 250,9 255,7 12,55 12,59 86,0 85,7 3,58 3,58
5,3 5,6 12,5 12,4 3,4 3,5

Таблица 5.5

Значение А

Варианты
2,2 2,2 2,2 6,5 12,2 3,5

В качестве исходных данных в задании можете использовать свои экспериментальные данные.

Отчет должен содержать расчеты статистических характеристик.

Контрольные вопросы:

1. Какие статистические задачи решаются при исследовании технологических процессов производства пищевой промышленности?

2. Каким образом сравниваются статистические характеристики случайных величин?

3. Уровень значимости и доверительная вероятность при достоверности оценки экспериментальных данных.

4. Как осуществляется проверка статистических гипотез с помощью критериев согласия?

5. От чего зависит мощность критерия согласия для анализа экспериментальных выборок?

6. Каким образом осуществояется подбор критерия для решения задач анализа технологических процессов производства пищевых продуктов?

7. Каким образом осуществляется классификация критериев согласия для анализа выборок результатов исследований технологических процессов производства пищевых продуктов?

8. Какие требования предъявляются к выборкам резльтатов исследований технологических процессов производства пищевых продуктов?

Рассмотрим использование MS EXCEL при проверке статистических гипотез о среднем значении распределения в случае неизвестной дисперсии. Вычислим тестовую статистику t 0 , рассмотрим процедуру «одновыборочный t -тест», вычислим Р-значение (Р- value ).

Материал данной статьи является продолжением статьи . В указанной статье даны основные понятия проверки гипотез (нулевая и альтернативная гипотезы, тестовые статистики, эталонное распределение, Р-значение и др. ).

СОВЕТ : Для проверки гипотез потребуется знание следующих понятий:

  • , и их .

Формулировка задачи. Из генеральной совокупности имеющей с неизвестным μ (мю) и неизвестной дисперсией взята выборка размера n. Необходимо проверить статистическую гипотезу о равенстве неизвестного μ заданному значению μ 0 (англ. Inference on the mean of a population, variance unknown).

Примечание : Требование о нормальности исходного распределения, из которого берется выборка , не является обязательным. Но, необходимо, чтобы были выполнены условия применения .

Сначала проведем проверку гипотезы , используя доверительный интервал , а затем с помощью процедуры t -тест. В конце вычислим Р-значение и также используем его для проверки гипотезы .

Пусть нулевая гипотеза Н 0 утверждает, что неизвестное среднее значение распределения μ равно μ 0 . Соответствующая альтернативная гипотеза Н 1 утверждает обратное: μ не равно μ 0 . Это пример двусторонней проверки , т.к. неизвестное значение может быть как больше, так и меньше μ 0 .

Если упрощенно, то проверка гипотезы заключается в сравнении 2-х величин: вычисленного на основании выборки среднего значения Х ср и заданного μ 0 . Если эти значения «отличаются больше, чем можно было бы ожидать исходя из случайности», то нулевую гипотезу отклоняют.

Поясним фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». Для этого, вспомним, что распределение Выборочного среднего (статистика Х ср ) стремится к нормальному распределению со средним значением μ и стандартным отклонением равным σ/√n, где σ – стандартное отклонение распределения, из которого берется выборка (не обязательно нормальное ), а n – объем выборки (подробнее см. ).

К сожалению, в нашем случае дисперсия а, значит, и стандартное отклонение , неизвестны, поэтому вместо нее мы будем использовать ее оценку - s 2 и, соответственно, стандартное отклонение выборки s.

Известно, что если вместо неизвестной дисперсии распределения σ 2 мы используем дисперсию выборки s 2 , то распределением статистики Х ср является с n-1 степенью свободы .

Таким образом, знание распределения статистики Х ср и заданного , позволяют нам формализовать с помощью математических выражений фразу «отличаются больше, чем можно было бы ожидать исходя из случайности».

В этом нам поможет доверительный интервал (как строится доверительный интервал нам известно из статьи ). Если среднее выборки попадает в доверительный интервал, построенный относительно μ 0 , то для отклонения нулевой гипотезы оснований нет. Если не попадает, то нулевая гипотеза отвергается.

Воспользуемся выражением для Доверительного интервала , которое мы получили в статье .

Напомним, что доверительный интервал обычно определяют через количество стандартных отклонений , которые в нем укладываются. В нашем случае в качестве стандартного отклонения берется стандартная ошибка s/√n.

Количество стандартных отклонений зависит от количества степеней свободы используемого t-распределения и уровня значимости α (альфа) .

Для визуализации проверки гипотезы методом доверительного интервала в создана .

Примечание : Перечень статей о проверке гипотез приведен в статье .

t-тест

Ниже приведем процедуру проверки гипотезы в случае неизвестной дисперсии . Данная процедура имеет название t -тест :

В MS EXCEL верхний α /2-квантиль вычисляется по формуле
=СТЬЮДЕНТ.ОБР(1-α /2; n-1)

Учитывая симметричность t-распределения относительно оси ординат, верхний α /2-квантиль равен обычному α /2-квантилю со знаком минус:
=-СТЬЮДЕНТ.ОБР(α /2; n-1)

Также в MS EXCEL имеется специальная формула для вычисления двухсторонних квантилей :
=СТЬЮДЕНТ.ОБР.2Х(α ; n-1)
Все три формулы вернут один и тот же результат.

Примечание : Подробнее про квантили распределения можно прочитать в статье .

Примечание : Если вместо t-распределения использовать стандартное нормальное распределение, то мы получим необоснованно более узкий доверительный интервал , тем самым мы будем чаще необоснованно отвергать нулевую гипотезу , когда она справедлива (увеличим ошибку первого рода ).

Отметим, что различие в ширине интервалов зависит от размера выборки n (при уменьшении n различие увеличивается) и от уровня значимости (при уменьшении α различие увеличивается). Для n=10 и α = 0,01 относительная разница в ширине интервалов составляет порядка 20%. При большом размере выборки n (>30), различием в интервалах часто пренебрегают (для n=30 и α = 0,01 относительная разница составляет 6,55%). Это свойство используется в функции Z.ТЕСТ() , которая вычисляет р-значение (см. ниже) с использованием нормального распределения (аргумент σ должен быть опущен или указана ссылка на стандартное отклонение выборки ).

В случае односторонней гипотезы речь идет об отклонении μ только в одну сторону: либо больше либо меньше μ 0 . Если альтернативная гипотеза звучит как μ>μ 0 , то гипотеза Н 0 отвергается в случае t 0 > t α ,n-1 . Если альтернативная гипотеза звучит как μ<μ 0 , то гипотеза Н 0 отвергается в случае t 0 < - t α ,n-1 .

Вычисление Р-значения

При проверке гипотез большое распространение также получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).

СОВЕТ : Подробнее про p -значение написано в статье .

Если p-значение , вычисленное на основании выборки , меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α , то нулевая гипотеза не отвергается.

Другими словами, если p-значение меньше уровня значимости α , то это свидетельство того, что значение t -статистики , вычисленное на основе выборки при условии истинности нулевой гипотезы , приняло маловероятное значение t 0 .

Формула для вычисления p-значения зависит от формулировки альтернативной гипотезы :

  • Для односторонней гипотезы μ<μ 0 p-значение вычисляется как =СТЬЮДЕНТ.РАСП(t 0 ; n-1; ИСТИНА)
  • Для другой односторонней гипотезы μ>μ 0 p-значение вычисляется как =1-СТЬЮДЕНТ.РАСП(t 0 ; n-1; ИСТИНА)
  • Для двусторонней гипотезы p-значение вычисляется как =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0);n-1;ИСТИНА))

Соответственно, t 0 =(СРЗНАЧ(выборка )-μ 0)/ (СТАНДОТКЛОН.В(выборка )/ КОРЕНЬ(СЧЁТ(выборка ))) , где выборка – ссылка на диапазон, содержащий значения выборки .

В файле примера на листе Сигма неизвестна показана эквивалентность проверки гипотезы через доверительный интервал , статистику t 0 (t -тест) и p -значение .

Примечание : В MS EXCEL нет специализированной функции для одновыборочного t-теста . При больших n можно использовать функцию Z.ТЕСТ() с опущенным 3-м аргументом (подробнее про эту функцию см. статью ). Функция СТЬЮДЕНТ.ТЕСТ() предназначена для .

Иногда оказывается, что средний результат из основной серии опытов отличается от среднего результата другой серии опытов. Необходимо определить случайно или нет, это различие т.е. можно ли считать, что результат эксперимента представляет собой выборка из двух независимых генеральных совокупностей с одинаковыми средними, или средние этих совокупностей не равны.

Формальная постановка этой задачи выглядит следующим образом – изучаются две случайные величины, распределённые по нормальному закону:

, где σ – стандартное отклонение.

Предполагается, что дисперсии и известны, а математические ожидания не известны.

Пусть имеются две серии наблюдений величины Χ и Υ.

Χ: х 1 , х 2 , …, х n 1 .

Υ: y 1 , y 2 , …, y n 2 .

Выдвигаем следующую гипотезу, что m x =m y . На основании наблюдений необходимо подтвердить или опровергнуть эту гипотезу. Если подтвердится нулевая гипотеза, то можно говорить о том, что различия между средними величинами в двух выборках статистически незначимо, т.е. объясняется как случайная ошибка.

Для проверки этой гипотезы используется z-тест. Для этого рассчитывается

z-критерий (z-статистика), который определяется следующим образом:

Среднее арифметическое значение из серии n наблюдений.

z-критерий распределён нормально с нулевым математическим ожиданием и единичной дисперсией.

Н 1: m x ≠ m y

Нулевая гипотеза о том, что средние значения равны: H 0: =

Альтернативная гипотеза о том, что средние значения не равны, выглядит следующим образом: H 1: ≠ .

При альтернативной гипотезе возможны варианты: либо < , либо > . Соответственно мы должны применить двусторонний критерий. Таким образом существуют две критические точки: и .

Эти точки выбираются из условия:

(1) Р(-∞

(2) Р(

По значению определяем левую и правую критические точки.

,

где F(z) – интегральная функция распределения случайной величины Z, а F -1 (…) – обратная функция.

Определение: Пусть функция y = f(x) задана на сегменте , и пусть множеством значений этой функции является сегмент [α, β]. Пусть, далее, каждому y из сегмента [α, β] соответствует только одно значение x из сегмента , для которого f(x) = y. Тогда на сегменте [α, β] можно определить функцию x = f -1 (y), ставя в соответствие каждому y из [α, β] то значение x из , для которого f(x) = y. Функция x = f -1 (y) называется обратной для функции y = f(x).

Значения критических точек можно найти через функцию: =НОРМСТОБР, указав в диалоговом окне значение вероятности () - для нахождения значения ,или же значение (1 - ) – для нахождения значения ).

Величина Z , распределённая нормально с параметрами Z=N(0;1), распределена симметрично:

0,05

Геометрическая интерпретация: вероятность попадания в области отклонения гипотезы равна сумме заштрихованных площадей.

Последовательность проведения тестирования:

1. Вычисляем статистику Z.

2. Задаёмся уровнем значимости .

3. Определяем критические точки, исходя из условий (1) и (2).

4. Сравниваем рассчитанное в п.1 значение Z со значением критических точек:

Если значение Z- статистики будет по абсолютной величине больше чем значение критической точки, то нулевая гипотеза отклоняется при данном уровне значимости . Это означает, что две совокупности, из которых сделана выборка, различны и, следовательно, средние значения и математические ожидания для этих выборок не равны. В противном случае принимается гипотеза о равенстве средних значений, и можно рассматривать эти две совокупности как одну общую с одним и тем же математическим значением.

В пакете EXCEL существует инструмент анализа, который называется «двухвыборочный Z -тест для средних» (Сервис – анализ данных – двухвыборочный Z- тест для средних). Он служит для проверки гипотезы о различии между средними (математическими ожиданиями) двух нормальных распределений с известными дисперсиями.

Когда вызывается этот инструмент, то появляется диалоговое окно, в котором задаются следующие параметры:

* Гипотетическая средняя разность: вводится число, предполагаемой разности между средними для изучаемой генеральной последовательности. Для проверки гипотезы о равенстве средних необходимо ввести значение ноль.

* Дисперсия переменной 1 (известная): вводится известное значение дисперсии случайной величины Х.

* Дисперсия переменной 2 (известная): вводится известное значение дисперсии случайной величины У.

* Метки: если активируем, то первая строка воспринимается как заголовок и не считается.

* Альфа: задаётся уровень значимости , равный вероятности совершить ошибку первого рода.

ЗАДАНИЕ 1:

Известны выборочные данные о диаметре валиков в миллиметрах, изготовляемых автоматом 1 и 2.

Дисперсия для автомата 1: = 5 мм 2 .

Дисперсия для автомата 2: =7 мм 2 .

Уровень значимости = 0,05.

1.Используя двухвыборочный Z- тест для средних проверить для вашего варианта гипотезу о равенстве средних значений.

2.Проверить эту же гипотезу, используя расчётные формулы.