Визуализация данных

.title[
# Визуализация данных
]
.subtitle[
## Основы биостатистики, осень 2022
]
.author[
### Марина Варфоломеева
]

---

- Таблицы для представления и анализа данных
- Графики
- Одна переменная
- Связь между двумя категориальными переменными
- Связь между двумя численными переменными
- Связь численной и категориальой переменными
- Ряды данных во времени и пространстве
- Подготовка и визуализация данных в R
  - Опрятные данные, tidy data
  - Грамматика графиков

---

# Таблицы

---

## Таблицы для представления данных

- в основном тексте статей, отчетов
- обобщают, кратко описывают данные
- форматирование выделяет важную информацию (но, увы, затрудняет машинную обработку)
- заголовки созданы для удобства людей (но, к сожалению, не машин)

.small[Table 1. Baseline clinical and demographic features of the 1305 Pima Indians (487 men, 818 women) in the study population. (From Nelson et al., 1998)]

![:scale 80%](img/table-display-pima-table1-Nelson-Morgenstern-Bennett-1998.png)

---

## Таблицы для представления данных

.small[Table 4 . Classification results on the "Pima diabetes" dataset. (From Demidova, Klyueva. 2017)]

![:scale 60%](img/table-display-pima-table4-Demidova-Klyueva-2017.png)

---

## Таблицы для анализа данных

- в приложениях к статьям
- первичные, необработанные ("сырые") данные
- форматирование минималистично или отсутствует
- заголовки краткие "машиночитаемые"
- опрятные данные, tidy data — об этом позже

![:scale 71%](img/table-analysis-Pima.tr-MASS.png)

???

.tiny[Smith, J. W., Everhart, J. E., Dickson, W. C., Knowler, W. C., & Johannes, R. S. (1988, November). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the annual symposium on computer application in medical care (p. 261). American Medical Informatics Association.]

---

## Как можно улучшить эту таблицу?

![:scale 100%](img/table2.5-1-Whitlock-Schluter-2015.png).tiny[Whitlock, Schluter, 2015]

---

## Недостатки таблицы

- пары король-королева не упорядочены по значению F — не видна закономерность
- главные переменные F и выживание разделены лишними здесь колонками со второстепенной информацией
- для каждого короля пустая строка — оптически фрагментирует таблицу
- слишком много десятичных знаков

![:scale 83%](img/table2.5-1-Whitlock-Schluter-2015.png).tiny[Whitlock, Schluter, 2015]

---

## Улучшенная таблица

![](img/table2.5-2-Whitlock-Schluter-2015.png)

---

# Графики

---

## Хороший график

- Закономерности в данных легко различимы
- Величина и соотношение значений показаны честно
- Оси подписаны, указаны единицы измерения
- Графические символы и цвета легко различимы

---

## Примеры плохих графиков

![](img/plot-yaxis-bad.png)

.tiny[[Источник](https://www.statisticshowto.com/probability-and-statistics/descriptive-statistics/misleading-graphs/)]

]

![](img/plot-yaxis-good.png)

Неправильный выбор точки отсчета искажает масштаб измерений. Старайтесь сохранять точку отсчета на графике.

---

## Примеры плохих графиков

![](img/plot-yaxis-scale-bad.png)

]

![](img/plot-yaxis-scale-good.png)

Неправильно выбранный масштаб может скрывать изменчивость данных. Выбирайте подходящий масштаб осей.

---

## Примеры плохих графиков

![](img/plot-3d-bad.png)

![](img/plot-pie-bad.png)

]

![:scale 80%](img/plot-pie-bar-good1.png)

![:scale 60%](img/plot-pie-bar-good.png)

]

3D графики обманчивы из-за эффекта перспективы.  
Лучше использовать плоские столбчатые графики.
---

# Одна переменная

---

## Одна переменная: частоты

Если у нас есть значения одной переменной, можно изобразить таблицу частот или столбчатый график.

<table>
 <thead>
  <tr>
   <th style="text-align:left;"> Занятие </th>
   <th style="text-align:right;"> Частота (число людей) </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> Трава/корм </td>
   <td style="text-align:right;"> 44 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Лесные продукты </td>
   <td style="text-align:right;"> 11 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Рыбалка </td>
   <td style="text-align:right;"> 8 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Скотоводство </td>
   <td style="text-align:right;"> 7 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Поимка тигра </td>
   <td style="text-align:right;"> 5 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Дрова/древесина </td>
   <td style="text-align:right;"> 5 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Сон в доме </td>
   <td style="text-align:right;"> 5 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Прогулка </td>
   <td style="text-align:right;"> 3 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Туалет </td>
   <td style="text-align:right;"> 2 </td>
  </tr>
</tbody>
</table>

]

Частота разных типов активности жертв нападений тигров в национальном парке Читван в Непале в 1979-2006гг.

![](05-data-visualisation_files/figure-html/gg-bar-n-1.png)

]

Категории имеет смысл изображать в порядке важности.

---

## Одна переменная: относительные частоты

<table>
 <thead>
  <tr>
   <th style="text-align:left;"> Занятие </th>
   <th style="text-align:right;"> Процент людей </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> Трава/корм </td>
   <td style="text-align:right;"> 44 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Лесные продукты </td>
   <td style="text-align:right;"> 11 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Рыбалка </td>
   <td style="text-align:right;"> 8 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Скотоводство </td>
   <td style="text-align:right;"> 7 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Поимка тигра </td>
   <td style="text-align:right;"> 5 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Дрова/древесина </td>
   <td style="text-align:right;"> 5 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Сон в доме </td>
   <td style="text-align:right;"> 5 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Прогулка </td>
   <td style="text-align:right;"> 3 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Туалет </td>
   <td style="text-align:right;"> 2 </td>
  </tr>
</tbody>
</table>

]
.pull-right[

Типы активности жертв нападений тигров (%) в национальном парке Читван в Непале в 1979-2006гг.
![](05-data-visualisation_files/figure-html/gg-bar-percent-1.png)
]

---

## Круговой график обычно хуже, чем столбчатый

![](05-data-visualisation_files/figure-html/gg-pie-percent-1.png)

---

## Гистограмма

__Гистограмма__ показывает количество значений, попадающих в определенный интервал (__классовый интервал__).

![](img/plot-histogram-fig.5-Aristov-Varfolomeeva-2015.png)

.small[Распределение размеров двустворчатых моллюсков _Limecola baltica_, просверленных улиткой _Amauropsis islandica_ (высота раковины 12.5 мм).]

---

## Ширина классового интервала определяет внешний вид гистограммы

Распределение веса младенцев при рождении. Данные были собраны в медицинском центре Baystate, Спрингфилд, в 1986 г.

![](05-data-visualisation_files/figure-html/gg-hsit-narrow-1.png)

]

]

---

## Есть множество методов расчета ширины `\(h\)` и количества `\(k\)` классовых интервалов

__Метод Стурджеса__ (Sturges, 1926), плохо работает при `\(n < 30\)`

`\(k_s = 1 + log_2(n)\)`

<br/>
![](05-data-visualisation_files/figure-html/gg-birthwt-stur-1.png)

`\(k_s = 1 + log_2(189) = 9\)`
<br/>
.tiny[Данные birthwt из пакета MASS из Hosmer, Lemeshow, 1989]

]

__Метод Фридмана-Диакониса__ (Freedman, Diakonis, 1981)

`\(h_{fd}=2 \frac{\operatorname{IQR}(x)}{\sqrt[3]{n}}\)`, `\(k_{fd} = (max - min)/h_{fd}\)`

![](05-data-visualisation_files/figure-html/gg-birthwt-fried-1.png)

I и III квартили — 2414, 3487,  
n = 189, max = 4990, min = 709.

`\(h_{fd}=2 \frac{ 1073 }{\sqrt[3]{189}}\)`, 
`\(k_{fd} = 12\)`

]

???

Есть множество методов определения оптимального числа интервалов ([wiki](https://en.wikipedia.org/wiki/Histogram#Number_of_bins_and_width))

---

# Связь между двумя категориальными переменными

---

## Таблица сопряженности

Связь между двумя категориальными переменными можно показать в виде __таблицы сопряженности__.

Частота болезней, передающихся через воду в зависимости от поставщика воды в Кисуму, Кения.

<table>
 <thead>
<tr>
<th style="empty-cells: hide;border-bottom:hidden;" colspan="1"></th>
<th style="border-bottom:hidden;padding-bottom:0; padding-left:3px;padding-right:3px;text-align: center; " colspan="2"><div style="border-bottom: 1px solid #ddd; padding-bottom: 5px; ">Disease</div></th>
</tr>
  <tr>
   <th style="text-align:left;"> Supplier </th>
   <th style="text-align:right;"> No </th>
   <th style="text-align:right;"> Yes </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> Communal </td>
   <td style="text-align:right;"> 170 </td>
   <td style="text-align:right;"> 85 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Non-communal </td>
   <td style="text-align:right;"> 30 </td>
   <td style="text-align:right;"> 32 </td>
  </tr>
</tbody>
</table>

.tiny[Ananga et al. 2017, [DOI: 10.1016/j.habitatint.2017.02.004](https://doi.org/10.1016/j.habitatint.2017.02.004
)]

---

## Связь двух переменных можно изобразить на гарфиках

График с группами столбцов

![](05-data-visualisation_files/figure-html/gg-disease-bars-1.png)
]

Мозаичный график

![](05-data-visualisation_files/figure-html/gg-disease-mosaic-1.png)

]

.tiny[Ananga et al. 2017, [DOI: 10.1016/j.habitatint.2017.02.004](https://doi.org/10.1016/j.habitatint.2017.02.004
)]

???

---

## На мозаичном графике можно изобразить много переменных

![](05-data-visualisation_files/figure-html/gg-mosaic-titanic-1.png)

---

# Связь между двумя численными переменными

---

## Диаграмма рассеяния (= скаттерплот)

Диаграмма рассеяния (scatterplot) позволяет показать связь между двумя непрерывными переменными.

]

![:scale 80%](img/palmerpenguins.jpg)

]

![](05-data-visualisation_files/figure-html/gg-penguins-scatter1-1.png)

---

## На скаттерплот можно добавить и дискретные переменные

![](05-data-visualisation_files/figure-html/gg-penguins-scatter2-1.png)

---

## На скаттерплот можно добавить и дискретные переменные

Иногда это просто обязательно, т.к. зависимости в разных группах данных могут выглядеть по-разному.

![](05-data-visualisation_files/figure-html/gg-penguins-scatter3-1.png)

---

# Связь численной и категориальной переменных

---

## Точечная диаграмма (strip chart)

![](05-data-visualisation_files/figure-html/gg-penguins-dots-1.png)

---

## Боксплот (box plot)

![](05-data-visualisation_files/figure-html/gg-penguins-box-1.png)

---

## Множество гистограмм

![](05-data-visualisation_files/figure-html/gg-penguins-many-hist-1.png)

---

# Ряды данных во времени и пространстве

---

## Закономерности во времени: Линейный график

.small[Ежегодное количество пойманных рысей в 1821–1934 гг. в Канаде.]
![](05-data-visualisation_files/figure-html/gg-ts-lynx-1.png)

---

## Закономерности во времени

.small[Ежемесячное число погибших или серьезно раненых водителей с января 1969 г. по декабрь 1984 г. в Великобритании. Обязательное использование ремней безопасности было введено 31 января 1983 г.]

![](05-data-visualisation_files/figure-html/gg-ts-seatbelts-1.png)

---

## Закономерности в пространстве

.small[Количество животных погибших на автодороге БР-262 (столбцы — 10-километровые отрезки) и средняя высота в пределах каждого отрезка (пунктирная линия).]
![:scale 100%](img/fig-roadkills-transect-fig4-Desouza-et-al-2014.png)

.tiny[Desouza et al., 2014, DOI: [10.1007/s11273-014-9372-4](http://dx.doi.org/10.1007/s11273-014-9372-4)]

---

## Карты

![:scale 85%](img/map-arabidopsis.png)

.tiny[Exposito-Alonso, 2020, DOI: [10.1073/pnas.1921798117](https://doi.org/10.1073/pnas.1921798117)]

???

Сезонная адаптация Arabidopsis thaliana. Карта прогнозов времени цветения и старения растений, скорости прорастания, не зависящей от температуры, и весеннего прорастания, индуцированного/заблокированного холодом. Красная зона - рост осенью, размножение весной. Зеленая - зимний цикл факультативен. Фиолетовая зона быстрый весенне-летний цикл. Синяя зона - зимний цикл, позднее цветение.

Известно, какие аллели функционируют в каких частях ареала.

https://commons.wikimedia.org/wiki/File:Arabidopsis_thaliana_inflorescencias.jpg#filelinks

---

# Подготовка и визуализация данных в R

---

# Опрятные данные, tidy data

---

## Подготовка данных к анализу

Данные для анализа должны быть специальным образом отформатированы.

Подготовка данных занимает около 80% времени всего анализа (Dasu and Johnson 2003).

---

## Опрятные данные, tidy data

> __Like families, tidy datasets are all alike but every messy dataset is messy in its own way.__ Tidy
datasets provide a standardized way to link the structure of a dataset (its physical layout)
with its semantics (its meaning).  
.right[— <cite>Hadley Wickham</cite>]

---

## Опрятные данные, tidy data

- В каждом столбце только одна переменная (variable)
- В каждой строке только одно наблюдение (observations)
- В каждой ячейке только одно значение (value)

![](img/tidy-data-fig12.1-Wickham-2016.png)

???

Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(i10).

---

## Пример tidy data

Мы уже видели один пример —

<br/>
.small[Pima.tr dataset in R-package MASS. Diabetes in Pima Indian Women.]

![:scale 90%](img/table-analysis-Pima.tr-MASS.png)

---

## Основные ошибки форматирования таблиц <br/>для анализа данных

![:scale 100%](img/table-pima-untidy.png)

- Объединенные ячейки
- Заголовки столбцов (в порядке убывания важности ошибки)
  - отсутствуют
  - слишком длинные
  - на русском языке
  - содержат пробелы
- В одной ячейке находится несколько значений
- В одном столбце приведены разнородные данные
- Нет стандартного обозначения пропущенных значений

---

## Принципы Tidy Data

__Переменные__  
- должны иметь уникальные имена (лучше на английском без пробелов)
- должны содержать только один тип данных.
- должны быть измерены в одинаковых единицах.

__Наблюдения__ могут иметь уникальные имена, которые могут быть записаны в отдельном столбце.

__Значения__  
- каждое значение должно быть в отдельной ячейке.
- пропущенные (неизвестные) значения должны обозначаться единообразно (например, пустые ячейки, или `NA`).

.small[
<table>
 <thead>
  <tr>
   <th style="text-align:left;">   </th>
   <th style="text-align:right;"> npreg </th>
   <th style="text-align:right;"> glu </th>
   <th style="text-align:right;"> bp </th>
   <th style="text-align:right;"> skin </th>
   <th style="text-align:right;"> bmi </th>
   <th style="text-align:right;"> ped </th>
   <th style="text-align:right;"> age </th>
   <th style="text-align:left;"> type </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> 1 </td>
   <td style="text-align:right;"> 5 </td>
   <td style="text-align:right;"> 86 </td>
   <td style="text-align:right;"> 68 </td>
   <td style="text-align:right;"> 28 </td>
   <td style="text-align:right;"> 30.2 </td>
   <td style="text-align:right;"> 0.364 </td>
   <td style="text-align:right;"> 24 </td>
   <td style="text-align:left;"> No </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 2 </td>
   <td style="text-align:right;"> 7 </td>
   <td style="text-align:right;"> 195 </td>
   <td style="text-align:right;"> 70 </td>
   <td style="text-align:right;"> 33 </td>
   <td style="text-align:right;"> 25.1 </td>
   <td style="text-align:right;"> 0.163 </td>
   <td style="text-align:right;"> 55 </td>
   <td style="text-align:left;"> Yes </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 3 </td>
   <td style="text-align:right;"> 5 </td>
   <td style="text-align:right;"> 77 </td>
   <td style="text-align:right;"> 82 </td>
   <td style="text-align:right;"> 41 </td>
   <td style="text-align:right;"> 35.8 </td>
   <td style="text-align:right;"> 0.156 </td>
   <td style="text-align:right;"> 35 </td>
   <td style="text-align:left;"> No </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 4 </td>
   <td style="text-align:right;"> 0 </td>
   <td style="text-align:right;"> 165 </td>
   <td style="text-align:right;"> 76 </td>
   <td style="text-align:right;"> 43 </td>
   <td style="text-align:right;"> 47.9 </td>
   <td style="text-align:right;"> 0.259 </td>
   <td style="text-align:right;"> 26 </td>
   <td style="text-align:left;"> No </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 5 </td>
   <td style="text-align:right;"> 0 </td>
   <td style="text-align:right;"> 107 </td>
   <td style="text-align:right;"> 60 </td>
   <td style="text-align:right;"> 25 </td>
   <td style="text-align:right;"> 26.4 </td>
   <td style="text-align:right;"> 0.133 </td>
   <td style="text-align:right;"> 23 </td>
   <td style="text-align:left;"> No </td>
  </tr>
</tbody>
</table>
]
]
.pull-right[
.small[
- npreg — number of pregnancies.
- glu — plasma glucose concentration.
- bp — diastolic blood pressure (mm Hg).
- skin — triceps skin fold thickness (mm).
- bmi — body mass index (weight in kg/(height in m)<sup>2</sup>).
- ped — diabetes pedigree function.
- age — age in years.
- type — Yes or No, for diabetic (WHO).
]
]

???

---

# Грамматика графиков

---

## Грамматика графиков (grammar of graphics)

![:scale 75%](img/gg-book-leland.png)

]
.pull-right-60[

Wilkinson, L. (2012). The grammar of graphics. In Handbook of computational statistics (pp. 375-414). Springer, Berlin, Heidelberg.

![](img/gg-hadley.png)

Wickham, H. (2010). A layered grammar of graphics. Journal of Computational and Graphical Statistics, 19(1), 3-28.

]

---

## Компоненты грамматики графиков

![](img/gg-components.png)

.tiny[Источник: [towardsdatascience.com](https://towardsdatascience.com/a-comprehensive-guide-to-the-grammar-of-graphics-for-effective-visualization-of-multi-dimensional-1f92b4ed4149)]

Т.е. графики создаются послойно.

---

## Графики при помощи пакета `ggplot2`

gg в названии пакета — это grammar of graphics.

Активируем пакет `ggplot2`

```r
library(ggplot2)
```

---

## Данные

Данные для графика `ggplot2` должны быть в виде датафрейма.

Попробуем нарисовать данные из датасета `penguins` про пингвинов Адели, Генту и Чинстрап, который хранится в пакете `palmerpenguins`.

]

![:scale 80%](img/palmerpenguins.jpg)

]

```r
library(palmerpenguins)

head(penguins, 2)
```

```
# A tibble: 2 × 8
  species island    bill_length_mm bill_…¹ flipp…² body_…³ sex    year
  <fct>   <fct>              <dbl>   <dbl>   <int>   <int> <fct> <int>
1 Adelie  Torgersen           39.1    18.7     181    3750 male   2007
2 Adelie  Torgersen           39.5    17.4     186    3800 fema…  2007
# … with abbreviated variable names ¹bill_depth_mm,
#   ²flipper_length_mm, ³body_mass_g
```

```r
colnames(penguins)
```

```
[1] "species"           "island"            "bill_length_mm"   
[4] "bill_depth_mm"     "flipper_length_mm" "body_mass_g"      
[7] "sex"               "year"             
```

---

## 1. Откуда брать данные?

```r
ggplot(data = penguins)
```

![](05-data-visualisation_files/figure-html/gg-1-1.png)

---

## 2. Что рисовать?

При помощи функции `aes()` задаем __эстетики__ — свойства графика, при помощи которых будут отображены данные.

Простейшие эстетики — это `x` и `y` — координаты по осям.

```r
ggplot(data = penguins, 
       aes(x = flipper_length_mm, y = body_mass_g))
```

![](05-data-visualisation_files/figure-html/gg-2-1.png)

---

## 3. В виде чего рисовать?

Геомы — графические объекты в виде которых будут изображены свойства данных.

Простейший геом — точки `geom_point()`

Отдельные слои графика разделяются знаком `+`. Разрыв строки можно ставить только после него, не до.

```r
ggplot(data = penguins, 
       aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point()
```

![](05-data-visualisation_files/figure-html/gg-3-1.png)

---

## Можно "жестко" указать свойства геома

Например, у точек есть свойства `shapе` — форма, `size` — размер, `colour` — цвет и т.д.

Изменим цвет точек на красный и зададим размер точек 3. Это не эстетики, т.к. ни цвет ни размер никак не связаны с данными, поэтому не используется функция `aes()`.

```r
ggplot(data = penguins, 
       aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(colour = "red", size = 3)
```

![](05-data-visualisation_files/figure-html/gg-4-1.png)

---

## Можно задать другие эстетики

Если цвет должен отражать какое-то свойство данных — это эстетика. Пусть цвет отражает вид пингвинов.

Размер здесь по-прежнему не эстетика.

```r
ggplot(data = penguins, 
       aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(aes(color = species), size = 3)
```

![](05-data-visualisation_files/figure-html/gg-5-1.png)

---

## Шкалы `scale_*()` управляют эстетиками

Цветовой палитрой эстетики `colour` управляют шкалы `scale_color_*`.

`scale_color_brewer()` — брюйеровские цветовые палитры. У них есть имена.

```r
ggplot(data = penguins, 
       aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(aes(color = species), size = 3) +
  scale_color_brewer(palette = "Set2")
```

![](05-data-visualisation_files/figure-html/gg-6-1.png)

---

## Лейблы labs() управляют подписями

```r
ggplot(data = penguins, 
       aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(aes(color = species), size = 3) +
  scale_color_brewer(palette = "Set2") +
  labs(x = "Flipper length, mm", y = "Body mass, g")
```

![](05-data-visualisation_files/figure-html/gg-7-1.png)

---

## Фасетки `facet_*()` делят график на части

![](05-data-visualisation_files/figure-html/gg-8-1.png)

---

## Графики можно сохранять в переменные

```r
gg_peng1 <- ggplot(data = penguins, 
                   aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(aes(color = species), size = 3) +
  scale_color_brewer(palette = "Set2") +
  labs(x = "Flipper length, mm", y = "Body mass, g") +
  facet_wrap(~ island)
gg_peng1
```

![](05-data-visualisation_files/figure-html/gg-9-1.png)

---

## Тема `theme()` настраивает оформление графика

Например, можно отключить (или переставить) легенду,

изменить положение подписей для конкретного графика.

```r
gg_peng1 +
  theme(legend.position = "bottom", 
        axis.text.x = element_text(angle = 45, hjust = 1))
```

![](05-data-visualisation_files/figure-html/gg-10-1.png)

---

## Есть встроенные темы оформления

Встроенные темы `theme_*()` можно применить для конкретного графика, добавив их как отдельный слой.

`base_size` — задает базовый размер графических элементов и шрифтов

```r
gg_peng1 + theme_classic(base_size = 20)
```

![](05-data-visualisation_files/figure-html/gg-11-1.png)

---

## Темы для всех последующих графиков.

Можно установить какую-то тему для всех последующих графиков при помощи `theme_set()`

```r
theme_set(theme_bw(base_size = 20))
gg_peng1
```

![](05-data-visualisation_files/figure-html/gg-12-1.png)

---

## Сохранение графиков в файл

При помощи функции ggsave() можно сохранить график в векторный или растровый формат.

`filename` — путь (отн. рабочей директории) и имя файла.

```r
# Векторный формат svg
ggsave(filename = "plot_penguins.svg", plot = gg_peng1)

# Растровый формат png
ggsave(filename = "plot_penguins.png", plot = gg_peng1)
```

---

# Summary

---

## Что почитать

![:scale 100%](img/tufte-book-vdci.png)

![:scale 100%](img/chang-book-rcookbook.png)

]
.right-column[

### Принципы визуализации данных

- Tufte, E. R. (1985). The visual display of quantitative information. The Journal for Healthcare Quality (JHQ), 7(3), 15.

[Сайт, посвященный работам Эдварда Тафта](https://www.edwardtufte.com/tufte/)

### Ресурсы про `ggplot2`

- Chang, W. (2018). R graphics cookbook: practical recipes for visualizing data. O'Reilly Media.

[Сайт книги R Graphics Cookbook](https://r-graphics.org/) — книга Winston Chang про графики в ggplot2 с рецептами решений практически на все случаи жизни

- [Руководство по ggplot2](http://ggplot2.tidyverse.org/reference/)
- [Cheat-sheet по ggplot2](https://raw.githubusercontent.com/rstudio/cheatsheets/main/data-visualization.pdf)
 от [RStudio](https://www.rstudio.com)
- [ggplot2 Quick Reference: colour and fill](http://sape.inf.usi.ch/quick-reference/ggplot2/colour)
- [ggplot2 Quick reference: shape](http://sape.inf.usi.ch/quick-reference/ggplot2/shape)

]