class: middle, left, inverse, title-slide .title[ # Случайность в пространстве или времени ] .subtitle[ ## Основы биостатистики, осень 2022 ] .author[ ### Марина Варфоломеева ] --- - Пропорциональная модель. Хи-квадрат статистика - Распределение Пуассона. Проверка соответствия распределению Пуассона - Расположение в пространстве. Сравнение дисперсии и среднего ??? Хорошо бы более подробно Закономерности распределения (размещения) особей в пространстве: случайное, регулярное, агрегированное. Индекс структурности. Причины неслучайности в распределении биологических признаков и объектов. Оценка достоверности характера распределения особей (d-статистика). --- ## Вероятностные модели __Вероятностные модели__ (probabilistic models) описывают вероятности событий. __Тесты адекватности модели__ (goodness-of-fit tests) — описывают, насколько наблюдаемые значения соответствуют теоретическому распределению. <br/> Биномиальный тест — тест адекватности только для бинарных величин. Сегодня другие тесты. --- class: middle, center, inverse # Пропорциональная модель ## Хи-квадрат статистика --- ## Пропорциональная модель __Пропорциональная модель__ (proportional model) — вероятностная модель, в которой вероятность события пропорциональна числу возможностей его возникновения. - гены сперматогенеза на Х хромосоме --- ## Пример: дни рождения Дни недели, на которые пришлось рождение, в случайной выборке из 180 младенцев 2016 году (данные the U.S. National Center for Health Statistics; Martin et al. 2018). .pull-left[ <table> <thead> <tr> <th style="text-align:left;"> День недели </th> <th style="text-align:right;"> Число рождений </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Пн </td> <td style="text-align:right;"> 26 </td> </tr> <tr> <td style="text-align:left;"> Вт </td> <td style="text-align:right;"> 34 </td> </tr> <tr> <td style="text-align:left;"> Ср </td> <td style="text-align:right;"> 21 </td> </tr> <tr> <td style="text-align:left;"> Чт </td> <td style="text-align:right;"> 27 </td> </tr> <tr> <td style="text-align:left;"> Пт </td> <td style="text-align:right;"> 38 </td> </tr> <tr> <td style="text-align:left;"> Сб </td> <td style="text-align:right;"> 20 </td> </tr> <tr> <td style="text-align:left;"> Вс </td> <td style="text-align:right;"> 14 </td> </tr> </tbody> </table> ] .pull-right[ <img src="15-randomness-in-space-and-time_files/figure-html/unnamed-chunk-3-1.png" width="432" /> ] Согласно пропорциональной модели вероятность рождения в разные дни недели д.б. пропорциональна их числу в году. Так ли это? --- ## χ<sup>2</sup> -тест Гипотезы в общем виде: `\(\chi^2\)`-тест оценивает соответствие наблюдаемого частотного распределения теоретическому (нулевой вероятностной модели). `\(H_0:\)` — вероятности (или частоты) в генеральной совокупности соответствуют нулевой модели `\(H_A:\)` — вероятности (или частоты) в генеральной совокупности какие-то другие. --- ## Ожидаемые частоты <table> <thead> <tr> <th style="text-align:left;"> День недели </th> <th style="text-align:right;"> Число дней в 2016 </th> <th style="text-align:left;"> Доля в 2016 </th> <th style="text-align:right;"> Ожидаемая частота рождений </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Пн </td> <td style="text-align:right;"> 52 </td> <td style="text-align:left;"> 52 / 366 </td> <td style="text-align:right;"> 25.6 </td> </tr> <tr> <td style="text-align:left;"> Вт </td> <td style="text-align:right;"> 52 </td> <td style="text-align:left;"> 52 / 366 </td> <td style="text-align:right;"> 25.6 </td> </tr> <tr> <td style="text-align:left;"> Ср </td> <td style="text-align:right;"> 52 </td> <td style="text-align:left;"> 52 / 366 </td> <td style="text-align:right;"> 25.6 </td> </tr> <tr> <td style="text-align:left;"> Чт </td> <td style="text-align:right;"> 52 </td> <td style="text-align:left;"> 52 / 366 </td> <td style="text-align:right;"> 25.6 </td> </tr> <tr> <td style="text-align:left;"> Пт </td> <td style="text-align:right;"> 53 </td> <td style="text-align:left;"> 53 / 366 </td> <td style="text-align:right;"> 26.1 </td> </tr> <tr> <td style="text-align:left;"> Сб </td> <td style="text-align:right;"> 53 </td> <td style="text-align:left;"> 53 / 366 </td> <td style="text-align:right;"> 26.1 </td> </tr> <tr> <td style="text-align:left;"> Вс </td> <td style="text-align:right;"> 52 </td> <td style="text-align:left;"> 52 / 366 </td> <td style="text-align:right;"> 25.6 </td> </tr> <tr> <td style="text-align:left;"> Сумма </td> <td style="text-align:right;"> 366 </td> <td style="text-align:left;"> 1 </td> <td style="text-align:right;"> 180.0 </td> </tr> </tbody> </table> Ожидаемая частота `\(Expected = N \cdot p_{expected}\)` Сумма ожидаемых частот д.б. равна объему выборки N. --- ## χ<sup>2</sup> -статистика `\(\chi^2\)` измеряет, насколько наблюдаемые частоты соответствуют ожидаемым `\(\chi^2=\sum_i \frac{\left(\text { Observed }_i-\text { Expected }_i\right)^2}{\text { Expected }_i}\)` `\(\chi^2 = 0\)`, когда данные соответсвуют ожиданиям при `\(H_0\)` `\(\chi^2 > 0\)`, если данные отклоняются от ожиданий при `\(H_0\)` <br/> -- Гипотезы в `\(\chi^2\)`-тесте: `\(H_0:\)` — вероятности (или частоты) в генеральной совокупности соответствуют нулевой модели `\(H_A:\)` — вероятности (или частоты) в генеральной совокупности какие-то другие. -- <br/> `\(H_0:\chi^2 = 0\)` `\(H_A:\chi^2 > 0\)` Односторонний тест. --- ## Считаем χ<sup>2</sup> <table> <thead> <tr> <th style="text-align:left;"> День недели </th> <th style="text-align:right;"> Число рождений </th> <th style="text-align:right;"> Ожидаемое число рождений </th> <th style="text-align:right;"> Хи-квадрат </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Пн </td> <td style="text-align:right;"> 26 </td> <td style="text-align:right;"> 25.6 </td> <td style="text-align:right;"> 0.007 </td> </tr> <tr> <td style="text-align:left;"> Вт </td> <td style="text-align:right;"> 34 </td> <td style="text-align:right;"> 25.6 </td> <td style="text-align:right;"> 2.776 </td> </tr> <tr> <td style="text-align:left;"> Ср </td> <td style="text-align:right;"> 21 </td> <td style="text-align:right;"> 25.6 </td> <td style="text-align:right;"> 0.818 </td> </tr> <tr> <td style="text-align:left;"> Чт </td> <td style="text-align:right;"> 27 </td> <td style="text-align:right;"> 25.6 </td> <td style="text-align:right;"> 0.080 </td> </tr> <tr> <td style="text-align:left;"> Пт </td> <td style="text-align:right;"> 38 </td> <td style="text-align:right;"> 26.1 </td> <td style="text-align:right;"> 5.464 </td> </tr> <tr> <td style="text-align:left;"> Сб </td> <td style="text-align:right;"> 20 </td> <td style="text-align:right;"> 26.1 </td> <td style="text-align:right;"> 1.411 </td> </tr> <tr> <td style="text-align:left;"> Вс </td> <td style="text-align:right;"> 14 </td> <td style="text-align:right;"> 25.6 </td> <td style="text-align:right;"> 5.238 </td> </tr> <tr> <td style="text-align:left;"> Сумма </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 180.0 </td> <td style="text-align:right;"> 15.795 </td> </tr> </tbody> </table> -- `\(\chi^2 = 15.795\)` Но с чем нам сравнивать эту величину? --- ## Выборочное распределение χ<sup>2</sup> -статистики при <i>H<sub>0</sub></i> Во множестве повторных выборок значение `\(\chi^2\)` будет подчиняться распределению `\(\chi^2\)` с числом степеней свободы `\(df\)` `\(df = m - 1 - p\)` - `\(m\)` число категорий - `\(p\)` число параметров, оцененных по данным (здесь 0) ![:scale 50%](img/WS2015p208f8.1-2.png) .tiny[Whitlock, Schluter, 2015] -- ------ В примере `\(df = 7 - 1 - 0 = 6\)` --- ## χ<sup>2</sup> -тест `\(H_0:\chi^2 = 0\)` — вероятности (или частоты) в генеральной совокупности соответствуют нулевой модели `\(H_A:\chi^2 > 0\)` — вероятности (или частоты) в генеральной совокупности какие-то другие. `\(\chi^2=\sum_i \frac{\left(\text { Observed }_i-\text { Expected }_i\right)^2}{\text { Expected }_i}\)` <img src="15-randomness-in-space-and-time_files/figure-html/unnamed-chunk-6-1.png" width="432" /> --- ## Условия примеримости χ<sup>2</sup> -теста - наблюдения независимы друг от друга `\(\chi^2\)`-статистика приблизительно следует `\(\chi^2\)`-распределению, если: - нет _ожидаемых_ частот `\(< 1\)` - `\(\le 20\)` % _ожидаемых_ частот `\(< 5\)` -- <br/> Если условия нарушены: - можно объединить редкие категории, если они имеют биологический смысл - использовать непараметрическую статистику или компьютерную симуляцию --- ## Тесты для двух категорий χ<sup>2</sup> -тест работает для двух категорий (при тех же условиях). Т.е. χ<sup>2</sup>-тест может заменять биномиальный тест: - χ<sup>2</sup> быстрее считать - он менее точен - более требователен к данным --- class: middle, center, inverse # Распределение Пуассона ## Случайное распределение во времени и пространстве --- ## Распределение Пуассона "Счетные" данные: - Число орлов, выпадающих за 1 минуту - Число левшей в выборках из 100 человек - Число заболевших в день (с оговорками) __Распределение Пуассона__ описывает вероятность определенного числа "успехов" за единицу времени или на единицу пространства, _если_ - (1) испытания независимы - (2) вероятность успеха постоянна --- ## Распределение Пуассона в пространстве <img src="15-randomness-in-space-and-time_files/figure-html/gg-pois-grid-1-1.png" width="576" /> -- .pull-left-60[ <img src="15-randomness-in-space-and-time_files/figure-html/gg-pois-grid-2-1.png" width="576" /> ] .pull-right-40[ - число деревьев на единицу площади - число пыльцевых зерен на единицу площади - число моллюсков на единицу площади ] --- ## Распределение Пуассона в пространстве / времени <img src="15-randomness-in-space-and-time_files/figure-html/gg-pois-line-1-1.png" width="576" /> -- .pull-left-60[ <img src="15-randomness-in-space-and-time_files/figure-html/gg-pois-line-2-1.png" width="576" /> ] .pull-right-40[ - число пчел, посещающих цветок за 15 минут - число рождений / госпитализаций / смертей в день - число сиквенсов, пришедшихся на один ген ] --- ## Распределение Пуассона .pull-left[ <img src="15-randomness-in-space-and-time_files/figure-html/poisson-distr-1.png" width="396" /> ] .pull-right[ `$$P(X{\text{ 'успехов'}})=\cfrac{\mathrm{e}^{-\mu} \mu^X}{X !}$$` Параметр `\(\mu\)` — определяет и среднее, и дисперсию числа "успехов" <br/> Возможные значения: `\(0 \le X \le +\infty\)`, `\(X \in \mathbb{N}\)` ] Чем больше среднее, тем больше дисперсия. --- class: middle, center, inverse # Тестируем случайность при помощи распределения Пуассона --- ## Пример: Вымирания видов в истории Земли Данные о вымирании семейств морских беспозвоночных за 76 отрезков времени (Raup, Sepkoski, 1982). Случаются ли вымирания "равномерно" или бывают периоды массовых вымираний? .pull-left[ .small[ <div style="border: 1px solid #ddd; padding: 0px; overflow-y: scroll; height:450px; overflow-x: scroll; width:100%; "><table> <thead> <tr> <th style="text-align:left;position: sticky; top:0; background-color: #FFFFFF;"> Число вымираний (Х) </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> Частота </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 0 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 1 </td> <td style="text-align:right;"> 13 </td> </tr> <tr> <td style="text-align:left;"> 2 </td> <td style="text-align:right;"> 15 </td> </tr> <tr> <td style="text-align:left;"> 3 </td> <td style="text-align:right;"> 16 </td> </tr> <tr> <td style="text-align:left;"> 4 </td> <td style="text-align:right;"> 7 </td> </tr> <tr> <td style="text-align:left;"> 5 </td> <td style="text-align:right;"> 10 </td> </tr> <tr> <td style="text-align:left;"> 6 </td> <td style="text-align:right;"> 4 </td> </tr> <tr> <td style="text-align:left;"> 7 </td> <td style="text-align:right;"> 2 </td> </tr> <tr> <td style="text-align:left;"> 8 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 9 </td> <td style="text-align:right;"> 2 </td> </tr> <tr> <td style="text-align:left;"> 10 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 11 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 12 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 13 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 14 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 15 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 16 </td> <td style="text-align:right;"> 2 </td> </tr> <tr> <td style="text-align:left;"> 17 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 18 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 19 </td> <td style="text-align:right;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 20 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> Сумма </td> <td style="text-align:right;"> 76 </td> </tr> </tbody> </table></div> ] ] .pull-right[ Если вымирания случайно распределены — то они подчиняются распределению Пуассона. Если нет, то - массовые вымирания - равномерное распределение ] --- ## Наблюдаемые частоты <img src="15-randomness-in-space-and-time_files/figure-html/ex-distribution-observed-1.png" width="864" /> --- ## Проверяем соответствие распределению Пуассона <br/>при помощи `\(\chi^2\)` `\(H_0: \chi^2 = 0\)` число вымираний подчиняется распределению Пуассона `\(H_A: \chi^2 > 0\)` число вымираний не соответствует распределению Пуассона `\(\chi^2=\sum_i \frac{\left(\text { Observed }_i-\text { Expected }_i\right)^2}{\text { Expected }_i}\)` -- <br/> Чтобы посчитать ожидаемые нужно знать... -- среднее число вымираний `\(\bar{X}=\frac{(0 \times 0)+(13 \times 1)+(15 \times 2)+\ldots}{76}=4.211\)` Поэтому ожидаемая частота `$$P(X{\text{ вымираний}})=\cfrac{\mathrm{e}^{-4.211} 4.211^X}{X !}$$` --- ## Наблюдаемые и ожидаемые частоты .small[ <div style="border: 1px solid #ddd; padding: 0px; overflow-y: scroll; height:530px; overflow-x: scroll; width:100%; "><table> <thead> <tr> <th style="text-align:left;position: sticky; top:0; background-color: #FFFFFF;"> Число вымираний (Х) </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> Наблюдаемая частота </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> Ожидаемая доля </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> Ожидаемая частота </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 0 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.015 </td> <td style="text-align:right;"> 1.128 </td> </tr> <tr> <td style="text-align:left;"> 1 </td> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 0.062 </td> <td style="text-align:right;"> 4.748 </td> </tr> <tr> <td style="text-align:left;"> 2 </td> <td style="text-align:right;"> 15 </td> <td style="text-align:right;"> 0.132 </td> <td style="text-align:right;"> 9.997 </td> </tr> <tr> <td style="text-align:left;"> 3 </td> <td style="text-align:right;"> 16 </td> <td style="text-align:right;"> 0.185 </td> <td style="text-align:right;"> 14.030 </td> </tr> <tr> <td style="text-align:left;"> 4 </td> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 0.194 </td> <td style="text-align:right;"> 14.769 </td> </tr> <tr> <td style="text-align:left;"> 5 </td> <td style="text-align:right;"> 10 </td> <td style="text-align:right;"> 0.164 </td> <td style="text-align:right;"> 12.437 </td> </tr> <tr> <td style="text-align:left;"> 6 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 0.115 </td> <td style="text-align:right;"> 8.728 </td> </tr> <tr> <td style="text-align:left;"> 7 </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 0.069 </td> <td style="text-align:right;"> 5.250 </td> </tr> <tr> <td style="text-align:left;"> 8 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0.036 </td> <td style="text-align:right;"> 2.763 </td> </tr> <tr> <td style="text-align:left;"> 9 </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 0.017 </td> <td style="text-align:right;"> 1.293 </td> </tr> <tr> <td style="text-align:left;"> 10 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0.007 </td> <td style="text-align:right;"> 0.544 </td> </tr> <tr> <td style="text-align:left;"> 11 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0.003 </td> <td style="text-align:right;"> 0.208 </td> </tr> <tr> <td style="text-align:left;"> 12 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.001 </td> <td style="text-align:right;"> 0.073 </td> </tr> <tr> <td style="text-align:left;"> 13 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.024 </td> </tr> <tr> <td style="text-align:left;"> 14 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.007 </td> </tr> <tr> <td style="text-align:left;"> 15 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.002 </td> </tr> <tr> <td style="text-align:left;"> 16 </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.001 </td> </tr> <tr> <td style="text-align:left;"> 17 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.000 </td> </tr> <tr> <td style="text-align:left;"> 18 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.000 </td> </tr> <tr> <td style="text-align:left;"> 19 </td> <td style="text-align:right;"> 0 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.000 </td> </tr> <tr> <td style="text-align:left;"> 20 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 0.000 </td> <td style="text-align:right;"> 0.000 </td> </tr> <tr> <td style="text-align:left;"> Сумма </td> <td style="text-align:right;"> 76 </td> <td style="text-align:right;"> 1.000 </td> <td style="text-align:right;"> 76.000 </td> </tr> </tbody> </table></div> ] --- ## Проверяем условия применимости `\(\chi^2\)` <img src="15-randomness-in-space-and-time_files/figure-html/ex-distribution-1.png" width="864" /> -- Данные не соответствуют условиям применимости критерия `\(\chi^2\)`: - одна ожидаемая частота < 1, - более 20% ожидаемых частот < 5 -- Выход - объединить категории: - `\(X = 0\)` и `\(X = 1\)` - `\(X\ge 8\)` --- ## Данные после объединения категорий .pull-left[ <table> <thead> <tr> <th style="text-align:left;"> Число вымираний (Х) </th> <th style="text-align:right;"> Наблюдаемая частота </th> <th style="text-align:right;"> Ожидаемая частота </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 0 или 1 </td> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 5.88 </td> </tr> <tr> <td style="text-align:left;"> 2 </td> <td style="text-align:right;"> 15 </td> <td style="text-align:right;"> 10.00 </td> </tr> <tr> <td style="text-align:left;"> 3 </td> <td style="text-align:right;"> 16 </td> <td style="text-align:right;"> 14.03 </td> </tr> <tr> <td style="text-align:left;"> 4 </td> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 14.77 </td> </tr> <tr> <td style="text-align:left;"> 5 </td> <td style="text-align:right;"> 10 </td> <td style="text-align:right;"> 12.44 </td> </tr> <tr> <td style="text-align:left;"> 6 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 8.73 </td> </tr> <tr> <td style="text-align:left;"> 7 </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 5.25 </td> </tr> <tr> <td style="text-align:left;"> >8 </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.92 </td> </tr> <tr> <td style="text-align:left;"> Сумма </td> <td style="text-align:right;"> 76 </td> <td style="text-align:right;"> 76.00 </td> </tr> </tbody> </table> ] -- .pull-right[ <img src="15-randomness-in-space-and-time_files/figure-html/gg-ex-poisson-1.png" width="432" /> ] --- ## Считаем хи-квадрат .pull-left[ <table> <thead> <tr> <th style="text-align:left;"> Число вымираний (Х) </th> <th style="text-align:right;"> Наблюдаемая частота </th> <th style="text-align:right;"> Ожидаемая частота </th> <th style="text-align:right;"> Хи-квадрат </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 0 или 1 </td> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 5.88 </td> <td style="text-align:right;"> 8.637 </td> </tr> <tr> <td style="text-align:left;"> 2 </td> <td style="text-align:right;"> 15 </td> <td style="text-align:right;"> 10.00 </td> <td style="text-align:right;"> 2.504 </td> </tr> <tr> <td style="text-align:left;"> 3 </td> <td style="text-align:right;"> 16 </td> <td style="text-align:right;"> 14.03 </td> <td style="text-align:right;"> 0.277 </td> </tr> <tr> <td style="text-align:left;"> 4 </td> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 14.77 </td> <td style="text-align:right;"> 4.086 </td> </tr> <tr> <td style="text-align:left;"> 5 </td> <td style="text-align:right;"> 10 </td> <td style="text-align:right;"> 12.44 </td> <td style="text-align:right;"> 0.477 </td> </tr> <tr> <td style="text-align:left;"> 6 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 8.73 </td> <td style="text-align:right;"> 2.561 </td> </tr> <tr> <td style="text-align:left;"> 7 </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 5.25 </td> <td style="text-align:right;"> 2.012 </td> </tr> <tr> <td style="text-align:left;"> >8 </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.92 </td> <td style="text-align:right;"> 3.396 </td> </tr> <tr> <td style="text-align:left;"> Сумма </td> <td style="text-align:right;"> 76 </td> <td style="text-align:right;"> 76.00 </td> <td style="text-align:right;"> 23.950 </td> </tr> </tbody> </table> ] .pull-right[ ] -- `\(\chi^2 = 23.95\)` --- ## χ<sup>2</sup> -тест `\(H_0:\chi^2 = 0\)` — частоты в генеральной совокупности соответствуют распределению Пуассона `\(H_A:\chi^2 > 0\)` — частоты в генеральной совокупности не подчиняются распределению Пуассона. `\(\chi^2=\sum_i \frac{\left(\text { Observed }_i-\text { Expected }_i\right)^2}{\text { Expected }_i}\)` <img src="15-randomness-in-space-and-time_files/figure-html/unnamed-chunk-9-1.png" width="576" /> --- class: middle, center, inverse # Расположение в пространстве ## Сравнение дисперсии и среднего --- layout: true class: split-60 .row.bg-main1[.content[ ## Расположение в пространстве <img src="15-randomness-in-space-and-time_files/figure-html/spat-distr-1.png" width="864" /> ]] .row[.content[ .split-three[ .column[.content.center[ ![](img/spatial-penguins.png) .tiny[Liam Quinn from Canada, CC BY-SA 2.0 <https://creativecommons.org/licenses/by-sa/2.0>, via Wikimedia Commons] ]] .column[.content.center[ ![](img/spatial-dandalions.png) .tiny[Dwight Burdette, CC BY 3.0 <https://creativecommons.org/licenses/by/3.0>, via Wikimedia Commons] ]] .column[.content.center[ ![](img/spatial-elephants-benh-lieu-song.jpg) .tiny[Benh Lieu Song on Flickr] <br/><br/><br/> ]] ] ]] --- class: hide-row2-col1 hide-row2-col2 hide-row2-col3 --- class: hide-row2-col2 hide-row2-col3 count: false --- class: hide-row2-col3 count: false --- count: false --- layout: false ## Расположение в пространстве <img src="15-randomness-in-space-and-time_files/figure-html/spat-distr-1.png" width="864" /> __Индекс дисперсии__ (__отношение дисперсии к среднему__) — показывает, насколько расположение наблюдений в пространстве (или во времени) соответствует Пуассоновскому. `$$I_s = \cfrac{s^2}{\bar x}$$` - `\(I_s < 1\)` — регулярное, равномерное - `\(I_s = 1\)` — случайное (распределение Пуассона) - `\(I_s > 1\)` — агрегированное --- ## Сравнение дисперсии и среднего `$$I_s = \cfrac{s^2}{\bar x}$$` Для тестирования значимости индекса дисперсии используют хи-квадрат распределение: `$$I_s \cdot (n - 1) \sim \chi^2, \\ df = n - 1$$` -- `\(H_0: I_s = 1\)` — распределение в пространстве случайно (дисперсия равна среднему) `\(H_0: I_s \ne 1\)` — распределение в пространстве неслучайно (дисперсия не равна среднему) -- Двусторонний тест (!) --- layout:true class: split-25 .row[.content[ ## Определяем пространственное расположение Лес разделен на 25 квадратов. Генератор случайных чисел предлагает посчитать деревья в квадратах D-1, C-2, A-4, E-3, B-1, D-4, E-5, C-3 Посчитайте индекс дисперсии, чтобы определить, как располагаются деревья в лесу. ]] .row[.content[ .split-two[ .column[.content[ Количество деревьев: 0, 1, 0, 0, 1, 1, 2, 6 Среднее 1.4, дисперсия 4 Индекс структурности `\(I_s = \cfrac{ 4 }{ 1.4 } = 2.9\)` `\(\chi^2 = 2.9 \cdot (8- 1) = 20.27\)`, `\(df = 8- 1 = 7\)` <img src="15-randomness-in-space-and-time_files/figure-html/unnamed-chunk-11-1.png" width="468" /> ]] .column[.cotent[ <img src="15-randomness-in-space-and-time_files/figure-html/gg-grid-pois-task-1.png" width="432" /> ]] ] ]] --- class: hide-row2-col1 --- count: false --- layout: false class: middle, center, inverse # Summary --- ## Summary - Вероятностные модели (probabilistic models) описывают вероятности событий. - Тесты адекватности модели (goodness-of-fit tests) — описывают, насколько наблюдаемые значения соответствуют теоретическому распределению (вероятностной модели). - Пропорциональная модель (proportional model) — вероятностная модель, в которой вероятность события пропорциональна числу возможностей его возникновения. --- ## Summary - `\(\chi^2\)`-тест оценивает соответствие наблюдаемого частотного распределения теоретическому (нулевой вероятностной модели). - Для применения требуется, чтобы - наблюдения независимы друг от друга - не было _ожидаемых_ частот `\(< 1\)` - `\(\le 20\)` % _ожидаемых_ частот `\(< 5\)` --- ## Summary - Распределение Пуассона описывает вероятность определенного числа "успехов" за единицу времени или на единицу пространства, если (1) испытания независимы и (2) вероятность успеха постоянна. - Дисперсия Пуассоновской случайной величины равна среднему. - Индекс дисперсии (отношение дисперсии к среднему) показывает, насколько расположение наблюдений в пространстве или во времени соответствует Пуассоновскому и позволяет отличить регулярное, случайное и агрегированное распределения --- ## Что почитать Agresti, A., Franklin, C. A., & Klingenberg, B. (2017). Statistics: The art and science of learning from data (Fourth edition). Pearson. — глава __6.3 Probabilities When Each Observation Has Two Possible Outcomes__ Whitlock, M., & Schluter, D. (2015). The analysis of biological data (Second edition). Roberts and Company Publishers.