class: middle, left, inverse, title-slide .title[ # Доверительные интервалы ] .subtitle[ ## Основы биостатистики, осень 2022 ] .author[ ### Марина Варфоломеева ] --- ## Доверительные интервалы. Основы тестирования гипотез. - Выборочное распределение и распределение выборочных средних - Центральная предельная теорема (ЦПТ) - Стандартная ошибка среднего - Стандартизация - Стандартное нормальное распределение - Доверительный интервал для среднего из нормального и _t_-распределения - Как устроено тестирование гипотез - Одновыборочный t-тест - Ошибки при тестировании гипотез --- class: middle, center, inverse # Выборочная оценка среднего ??? Что мы можем сказать о среднем значении в генеральной совокупности, если у нас есть всего одна выборка? Центральная предельная теорема говорит, что если мы возьмем достаточно большую выборку из генеральной совокупности, то среднее значение будет нормально распределено. Особенно важно, что это правда даже если признак в совокупности имеет другое распределение. Повторные выборки. Зависимость точности оценки от объема выборки. Ошибка среднего SE (это иллюстрация теоремы центрального предела) --- ## Как можно судить о свойствах генеральной совокупности по выборке? __Центральная предельная теорема__ (ЦПТ) говорит, что если мы возьмем достаточно большую выборку из генеральной совокупности, то среднее значение будет нормально распределено с параметрами `\(\mu_{\bar x}\)` и `\(\sigma _{\bar{x}}\)`: `$$\bar X \sim N (\mu_{\bar x}, \sigma_{\bar x})$$` При чем `\(\sigma_{\bar x} = \sigma/\sqrt{n}\)`. <br/> Но самое важное, что при больших объемах выборки ( `\(N > 30\)`, или даже `\(N > 100\)`) это так, даже если `\(x\)` в генеральной совокупности не подчиняется нормальному распределению. ??? Давайте проверим на опыте, так ли это. --- ## Продолжительность сухой погоды В аэропорту Виннипега (Канада) в течение нескольких лет регистрировали продолжительность периодов погоды без осадков (в днях). Представим, что данные из датасета `droughts` (пакет `DAAG`) --- это генеральная совокупность. Перед вами распределение продолжительности периодов без осадков (число дней). Мы хотим оценить среднюю продолжительность сухой погоды. Давайте будем брать из нашей "генеральной совокупности" выборки и оценивать по ним среднее значение. .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-1-1.png)<!-- --> ] .pull-right[ ![](img/winnipeg-airport.png) .tiny[old winnipeg airport by twostoutmonks on Flickr] ] <!-- https://flic.kr/p/eRNcR --> --- ## Средние в выборках .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/gg-sample-1.png)<!-- --> ] .pull-right-40[ Средние в выборках отличаются от среднего в генеральной совокупности. Если взять много выборок определенного размера, можно построить распределение выборочных средних. <br/> Давайте посмотрим, как меняется форма распределения выборочных средних при изменении объема выборки. ] --- ## Распределение выборочных средних .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/gg-many-sampling-distr-1.png)<!-- --> ] .pull-right-40[ `$$\bar X \sim N (\mu_{\bar x}, \sigma_{\bar x})$$` `\(\mu_{\bar x} = \mu\)` --- среднее значение выборочных средних стремится к среднему в генеральной совокупности. `\(\sigma_{\bar x} = \sigma / \sqrt{n}\)` --- стандартное отклонение в `\(\sqrt{n}\)` раз меньше стандартного отклонения в генеральной совокупности. <br/> `\(\sigma_{\bar x}\)` называется __стандартная ошибка среднего__ и обозначается `\(SE _{\bar{x}}\)`. ] --- ## Центральная предельная теорема <br/>очень важна в статистике ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-2-1.png)<!-- --> `$$\bar X \sim N (\mu, \sigma / \sqrt{n})$$` Пользуясь ее выводами, мы сможем: - строить доверительные интервалы - тестировать гипотезы --- class: middle, center, inverse # Стандартизация --- ## Стандартное <br/>нормальное распределение .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-3-1.png)<!-- --> ] .pull-right[ `$$N(0, 1)$$` Нормальное распределение со средним значением `\(\mu = 0\)` и стандартным отклонением `\(\sigma = 1\)` называется __стандартное нормальное распределение__. Ось `\(X\)` на графике такого распределения фактически измерена в стандартных отклонениях. ] --- ## Стандартизация <br/>(Z-преобразование) .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-4-1.png)<!-- --> ] .pull-right[ `$$z = \frac{x - \mu}{\sigma}$$` После стандартизации любое нормальное распределение `\(X \sim N(\mu, \sigma)\)` превращается в стандартное `\(Z \sim N(0, 1)\)`. Для стандартного нормального распределения легко можно посчитать вероятность (площадь под кривой). Раньше для него составляли статистические таблицы. ] --- ## Стандартизацию можно применять <br/>не только к нормально-распределенным величинам .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-5-1.png)<!-- --> ] .pull-right[ `$$z_i=\frac{x_i - \bar{x}}{s}$$` Стандартизованная величина (Z-оценка) показывает, на сколько стандартных отклонений значение отличается от среднего **После стандартизации всегда**: - среднее `\(\bar{z} = 0\)` - стандартное отклонение `\(s_{z} = 1\)` ] --- ## Стандартизация позволяет уравнять шкалы, <br/>в которых измерены переменные ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-6-1.png)<!-- --> Стандартизованные данные используются - для сопоставления величин, изначально измеренных в разных шкалах - для уменьшения абсолютной величины значений в сложных вычислениях --- class: middle, center, inverse # Доверительный интервал --- ## Если выполняется центральная предельная теорема, то .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-7-1.png)<!-- --> ] .pull-right-40[ `$$\bar X \sim N(\mu, \sigma/ \sqrt{n})$$` <br/> __После стандартизации__: `$$\frac{\bar X - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)$$` Т.е. __стандартизованное распределение выборочных средних__ будет подчинятся _стандартному нормальному распределению_. ] --- ## Доверительный интервал .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-8-1.png)<!-- --> ] .pull-right-40[ __Доверительный интервал__--- это интервал, в который попадает заданный процент выборочных средних. <br/> В 95% повторных выборок выборочное среднее попадет в 95% доверительный интервал. ] --- ## Смысл 95% доверительного интервала .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/gg-many-lims-1.png)<!-- --> ] .pull-right[ - Красная вертикальная линия — среднее в генеральной совокупности. Это фиксированная величина (она либо попала в интервал, либо нет. - Горизонтальные линии — доверительные интервалы в 100 случайных выборок из одной и той же генеральной совокупности. В `\(\approx 95\%\)` повторных выборках (того же размера) доверительные интервалы "накроют" истинное среднее значение. ] --- class: middle, center, inverse # Способы расчета доверительного интервала --- ## Доверительный интервал <br/>из нормального распределения .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-9-1.png)<!-- --> ] .pull-right-40[ `$$\bar {x} \pm z_{\alpha} \cdot \sigma / \sqrt{n}$$` Границы 95% доверительного интервала — это квантили стандартного нормального распределения, соответствующие вероятностям 0.025 и 0.975 `\(z_{0.025} = -1.96\)`, `\(z_{0.975} = 1.96\)` <br/> В 95% повторных выборок их выборочные средние будут лежать в пределах `\(\pm 1.96\)` стандартных ошибок вокруг истинного среднего значения. ] --- ## Условия применимости нормального распределения <br/>для доверительного интервала 1.Должна быть известна `\(\sigma\)` в генеральной совокупности. 2.Должны выполняться условия, при которых справедлива ЦПТ: - Наблюдения в выборке должны быть независимы друг от друга. - Большой объем выборки **или** нормальное распределение `\(x\)` --- ## Если `\(\pmb \sigma\)` не известна Если `\(\sigma\)` в генеральной совокупности не известна, ее можно оценить по выборочному стандартному отклонению `\(s\)`. `$$\sigma / \sqrt{n} \approx s/\sqrt{n}$$` <br/> Тогда, после стандартизации: `$$\frac{\bar X - \mu}{SE_{\bar x}} = \frac{\bar X - \mu}{s / \sqrt{n}} \sim t_{df = n - 1}$$` То есть, если `\(\sigma\)` в генеральной совокупности не известна, то стандартизованное распределение выборочных средних подчиняется _t_-распределению с числом степеней свободы `\(df = n - 1\)` --- ## _t_-распределение .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-10-1.png)<!-- --> ] .pull-right-40[ - Симметричное колоколообразное распределение с толстыми хвостами. - Единственный параметр --- число степеней свободы (для доверительного интервала `\(df = n - 1\)`). - При увеличении объема выборки `\(t\)`-распределение приближается к нормальному. ] --- ## Доверительный интервал из _t_-распределения .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-11-1.png)<!-- --> ] .pull-right-40[ Обязательно используется, если: - Объем выборки мал. - `\(\sigma\)` не известна. `$$\bar {x} \pm |t_{\alpha, df}| \cdot s / \sqrt{n}$$` `\(df = n - 1\)` ] --- ## Условия применимости _t_-распределения <br/>для доверительного интервала ~~1.Должна быть известна `\(\sigma\)` в генеральной совокупности.~~ 2.Должны выполняться условия, при которых справедлива ЦПТ: - Наблюдения в выборке должны быть независимы друг от друга. - Большой объем выборки и нет "выбросов" **или** нормальное распределение `\(x\)` --- class: middle, center, inverse # Графическая проверка <br/>на соответствие данных нормальному распределению --- ## Почему именно графическая проверка? Не стоит злоупотреблять формальными тестами для проверки на нормальность, т.к. у них тоже есть свои требования, а для больших выборок они склонны быть слишком чувствительными. В большинстве случаев нам достаточно определить, разумно ли аппроксимировать наблюдаемое распределение нормальным. Для ответа на этот вопрос вполне подойдет графическая проверка при помощи квантильного графика. --- ## Квантильный график (Quantile-Quantile plot, QQ plot) ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-12-1.png)<!-- --> По оси `\(X\)` отложены квантили стандартного нормального распределения. По оси `\(Y\)` --- квантили данных. Если `\(x\)` --- нормально-распределенная величина, то точки лягут приблизительно по прямой линии. --- ## Квантильный график (Quantile-Quantile plot, QQ plot) ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-13-1.png)<!-- --> При малых выборках не такая красивая картинка. -- Как выглядят некоторые отклонения от нормального распределения? --- ## Бимодальное (двувершинное) распределение ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-14-1.png)<!-- --> Бимодальное распределение --- это, в данном случае, смесь двух нормальных распределений. Квантильный график с перегибом. --- ## Дискретное распределение с длинным правым хвостом ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-15-1.png)<!-- --> Видно, что `\(x\)` --- это дискретная переменная. Маленьких значений больше, чем можно ожидать при нормальном распределении. Длинный правый хвост. --- class: segue-yellow # Основы тестирования гипотез --- ## Пример: Интервал QT Длительность интервала QT на кардиограмме считается предиктором внезапной остановки сердца. .pull-left[ ![](img/qt-interval.png) .tiny[PeaBrainC, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via Wikimedia Commons] ] .pull-right[ ![](img/qt-interval-long.png) .tiny[PeaBrainC, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via Wikimedia Commons] ] Некоторые лекарства способны вызывать удлинение интервала QT. --- ## Нулевая и альтернативная гипотезы - __Нулевая гипотеза__ `\(H_0\)` чаще всего формулируется как **отсутствие различий** между сравниваемыми объектами. Например: Использование лекарства не влияет на интервал QT. -- - __Альтернативная гипотеза__ `\(H_A\)` формулируется как **присутствие различий**, она обратна нулевой гипотезе, т.е. включает все остальные случаи. Например: Длительность интервала QT различается у людей использующих и не использующих лекарство. -- В некоторых случаях допустимо формулировать __двустороннюю альтернативную гипотезу__, т.е. с учетом различий в каком-то одном направлении. Например: Использование лекарства увеличивает QT. --- ## Нулевая и альтернативная гипотезы — это "два мира" Реальность может находиться в одном из двух состояний: .pull-left[ `\(H_0\)` верна, длина QT не зависит <br/>от применения препарата ![:scale 40%](img/qt-interval.png) ![:scale 40%](img/qt-interval.png) .tiny[PeaBrainC, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via Wikimedia Commons] ] .pull-right[ `\(H_0\)` неверна, QT разный у использующих и не использующих препарат ![:scale 37%](img/qt-interval.png) ![:scale 37%](img/qt-interval-long.png) .tiny[PeaBrainC, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via Wikimedia Commons] ] -- После статистического теста мы принимаем решение принять или отвергнуть `\(H_0\)`, но оно не обязательно верно. --- ## Верные и неверные решения Реальность может находиться в одном из двух состояний: .pull-left[ `\(H_0\)` верна, длина QT не зависит <br/>от применения препарата ![:scale 40%](img/qt-interval.png) ![:scale 40%](img/qt-interval.png) .tiny[PeaBrainC, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via Wikimedia Commons] ] .pull-right[ `\(H_0\)` неверна, QT разный у использующих и не использующих препарат ![:scale 37%](img/qt-interval.png) ![:scale 37%](img/qt-interval-long.png) .tiny[PeaBrainC, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via Wikimedia Commons] ] После статистического теста возможно 4 исхода: | | `\(H_0\)` верна | `\(H_0\)` неверна | |:-----:|:-----:|:-----:| | Отклонить `\(H_0\)` | **Ошибка I рода: нашли то, чего нет**, с вероятностью <span class="orange">α</span></br>Ложно-положительный результат | Верно | | Сохранить `\(H_0\)` | Верно | **Ошибка II рода: не нашли то, что было**, с вероятностью <span class= "blue">β</span> </br> Ложно-отрицательный результат | --- ## Тестирование гипотез: Тестовые статистики #### 1. Формулируем нулевую и альтернативную гипотезы. Гипотезы выражаются математически в виде тестовых статистик. На этом этапе мы делаем определенные допущения. -- #### 2. Проверяем __условия применимости__ тестовой статистики. -- #### 3. По реальным данным вычисляем __эмпирическое значение тестовой статистики__. -- Дальше мы должны ответить на вопрос: **Насколько вероятно получить _такое или более экстремальное_ эмпирическое значение, если верна нулевая гипотеза `\(H_0\)`?** #### 4. Строим теоретическое распределение тестовой статистики для случая, когда верна `\(H_0\)`, и оцениваем по нему уровень значимости. -- #### 5. Решаем сохранить или отвергнуть `\(H_0\)`. Увы, мы не сможем узнать, какая гипотеза верна, но поймем, насколько с ней согласуются исходные данные. --- class: middle, center, inverse # Одновыборочный `\(t\)`-тест --- ## Пример для одновыборочного _t_-теста Разберемся с одновыборочным `\(t\)`-тестом на вымышленном примере*. .pull-left-40[ ![](img/qt-interval.png) ] .pull-right-60[ Длительность интервала QT на кардиограмме считается предиктором внезапной остановки сердца. Некоторые лекарства способны вызывать удлинение интервала QT Нормой считается скорректированный QTc `\(<450\)` мс (для мужчин). После терапии неким лекарством в выборке из `\(35\)` мужчин оказалось, что средний QTc `\(\bar x = 463\)` мс и `\(s = 32\)` мс. ] Давайте проверим, есть ли статистически значимые отличия длины интервала QTc после применения лекарства от нормы. ??? Идея для этого примера взята из работы Chorin et al. 2020 --- ## Одновыборочный t-тест - `\(H_0: \mu = \mu_0\)` — Наблюдаемая средняя длина QTc такая же как в норме. - `\(H_A: \mu \ne \mu_0\)` — Средняя длина QTc отличается от нормы. `\(\mu_0\)` — это какое-то конкретное значение. В нашей задаче это — 450 мс. <br/> `$$t = \cfrac{\bar x - \mu}{ s / \sqrt{n} }$$` Если выполняется ЦПТ, то одновыборочная `\(t\)`-статистика подчиняется `\(t\)`-распределению с числом степеней свободы `\(df = n - 1\)`. Условия применимости: - Наблюдения в выборке должны быть независимы друг от друга. - Объем выборки достаточно велик **или** величины нормально распределены. -- В нашем случае объем выборки достаточно велик, если бы людей было меньше, нужно было бы проверить на нормальность распределения. --- ## Вычислим наблюдаемое значение _t_-статистики `$$t = \cfrac{\bar x - \mu}{ s / \sqrt{n} }$$` Наши данные: в норме QTc `\(< 450\)` мс, а после терапии в выборке из `\(35\)` мужчин оказалось, что средний QTc `\(\bar x = 463\)` мс и `\(s = 32\)` мс. Вычислим t-статистику по этим данным: `$$t = \cfrac{463 - 450}{ 32 / \sqrt{35} } = 2.4$$` --- ## Насколько это значение согласуется с `\(H_0\)`? .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-18-1.png)<!-- --> ] .pull-right[ При `\(H_0\)` значение `\(t\)` будет близко к нулю. Насколько необычны значения t меньше или больше `\(\pm 2.4\)`? ] --- ## Уровень значимости (_p_-value) .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-19-1.png)<!-- --> ] .pull-right[ __Уровень значимости__ — это вероятность получить такое же или более экстремальное значение статистики при условии, что `\(H_0\)` была бы справедлива. (Определение для двустороннего теста). ] ??? В данном случае это можно записать как `\(P(\left| t \right| \ge \left|t_{эмпирич.}\right| \lvert H_0\)`) --- ## Уровень значимости (_p_-value) .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-20-1.png)<!-- --> ] .pull-right[ Можно вычислить значение `\(p\)` Если бы длительность интервала QTc не отличалось нормы, получить `\(t\)` меньше или больше `\(2.4\)` можно было бы с вероятностью `\(p = 0.022\)`. ] --- ## Критический уровень значимости .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-21-1.png)<!-- --> ] .pull-right[ Критический уровень значимости `\(\alpha\)` — это порог для принятия решений. Обычно используют `\(\alpha = 0.05\)`. Если `\(p \le \alpha\)` — отвергаем `\(H_0\)` и принимаем `\(H_A\)`. Если `\(p > \alpha\)` — сохраняем `\(H_0\)`, не можем ее отвергнуть. ] --- ## Принимаем решение .pull-left[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-22-1.png)<!-- --> ] .pull-right[ Мы получили `\(p < \alpha\)`, поэтому отвергаем `\(H_0\)` и принимаем `\(H_A\)`. Фактическая длительность интервала QTc _статистически значимо отличается_ от нормы. ] --- ## Заблуждения о _p_-values -- #### Правда ли, что `\(p\)` — вероятность того, что верна сама `\(H_0\)`? -- Нет! Значение `\(p\)` всегда считается __при условии, что `\(H_0\)` верна__. Но `\(H_0\)` может быть неверна (вне зависимости от значения `\(p\)` или от нашего решения по поводу судьбы `\(H_0\)`). -- #### Правда ли, что `\(p\)` — это вероятность получить такое значение статистики при справедливой `\(H_0\)`? -- Нет! Вероятность вычисляется как площадь под участком кривой. Конкретное значение статистики — это точка и под ней нет площади. -- #### Правда ли, что если `\(p > 0.05\)`, то различий между группами на самом деле нет? -- Нет! Это всего лишь значит, что _наблюдаемый эффект согласуется с нулевой гипотезой_. Но мы могли совершить ошибку II рода, и на самом деле различия вполне могли бы быть. --- class: middle, center, inverse # Статистические ошибки при проверке гипотез --- ## Статистические ошибки при проверке гипотез .pull-left[ **Ошибка I рода: нашли то, чего нет** ] .pull-right[ **Ошибка II рода: не нашли то, что было** ] | | `\(H_0\)` верна | `\(H_0\)` неверна | |:-----:|:-----:|:-----:| | Отклонить H0 | Ошибка I рода с вероятностью <span class="orange">α</span></br>Ложно-положительный результат | Верно | | Сохранить H0 | Верно | Ошибка II рода с вероятностью <span class= "blue">β</span> </br> Ложно-отрицательный результат | <br/> Как эти ошибки выглядят на графике? Как они взаимосвязаны? --- ## Можно построить теоретические распределения <br/>при `\(H_0\)` и `\(H_A\)` ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-23-1.png)<!-- --> Распределение статистики, когда справедлива `\(H_0\)`, нам уже знакомо — его мы используем в тестах. Но может быть справедлива `\(H_A\)` и ее тоже можно описать своим распределением. При помощи этих распределений можно определить вероятность ошибок различных типов. --- ## Ошибка I рода — <br/>найти различия там, где их нет ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-24-1.png)<!-- --> `\(\alpha\)` (критический уровень значимости) — это вероятность ошибки I рода. Если `\(H_0\)` справедлива, то при `\(\alpha = 0.05\)` мы отвергаем ее с 5% вероятностью. Чтобы снизить вероятность таких ошибок, можно уменьшить `\(\alpha\)`. --- ## Ошибка II рода — <br/>не найти различий, где они есть ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-25-1.png)<!-- --> `\(\beta\)` — вероятность ошибки II рода. Считается, что допустимо `\(\beta \le 0.2\)`, но часто про нее забывают. --- ## Величина ошибок I и II рода взаимосвязана .pull-left-55[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-26-1.png)<!-- --> ] .pull-right-45[ Если мы уменьшаем `\(\alpha\)` (нижний график), то возрастает `\(\beta\)`. Т.е. при более жестко выбранном уровне значимости возрастает вероятность не найти различия там, где они есть. ] --- ## Мощность теста — <br/>вероятность найти различия, если они есть ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-27-1.png)<!-- --> `\(Power = 1 - \beta\)` — мощность теста. Хорошо, когда мощность не меньше `\(0.8\)`. --- ## Мощность теста зависит от величины различий .pull-left-60[ ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-28-1.png)<!-- --> ] .pull-right-40[ Мощность теста зависит от величины наблюдаемого эффекта (от величины различий). Если различия велики (график внизу), легче обнаружить их статистическую значимость. ] --- ## С увеличением объема выборки <br/>растет мощность теста ![](09-confidence-intervals-and-hypothesis-testing_files/figure-html/unnamed-chunk-29-1.png)<!-- --> То есть, если различия очень малы, то хорошей мощности теста 80% сложно достичь, т.к. нужны очень большие объемы выборок. --- class: middle, center, inverse # Summary --- ## Summary: - Благодаря центральной предельной теореме мы можем строить доверительные интервалы к оценкам различных статистик и тестировать гипотезы. - Стандартизация — трансформация данных, позволяющая привести их к единой шкале измерений, выраженной в стандартных отклонениях. --- ## Summary: - Доверительный интервал --- это интервал, в который попадает заданный процент выборочных средних. - Для построения доверительного интервала можно использовать нормальное распределение только тогда, когда известна `\(\sigma\)` в генеральной совокупности. - Если же нам приходится оценивать `\(\sigma\)` по данным как выборочное стандартное отклонение `\(s\)`, то для доверительного интервала будет использоваться `\(t\)`-распределение. Кроме того: - Наблюдения в выборке должны быть независимы друг от друга. - Большой объем выборки и нет "выбросов" **или** нормальное распределение `\(x\)` --- ## Summary: - При тестировании гипотез формулируются две гипотезы: нулевая и альтернативная (двусторонняя или односторонняя). - Уровень значимости — это вероятность получить такое же или более экстремальное значение статистики при условии, что `\(H_0\)` была бы справедлива. - При тестировании гипотез возможны ошибки I (ложноположительный результат) или II рода (ложноотрицательный результат). - Мощность теста — это способность выявлять различия, когда они есть. Она зависит от объема выборки и выбранного порогового уровня значимости для принятия решений по поводу `\(H_0\)`. --- ## Что почитать - **Quinn, G.G.P., Keough, M.J., 2002. Experimental design and data analysis for biologists. Cambridge University Press.** - Sokal, R.R., Rohlf, F.J., 1995. Biometry (3rd edn). WH Freeman and company: New York. - Zar, J.H., 2010. Biostatistical Analysis. Prentice Hall: New York.