- Правильно ли открылись данные? Правильно ли определены типы переменных?
- Сколько пептидов и сколько проб в файле с экспрессией? Для всех ли проб указаны значения факторов в файле с факторами? (т.е. соответствует ли число строк в файле с факторами числу столбцов в файле с экспрессией?)
- Сколько групп закодировано в каждом факторе? Сколько проб входит в каждую из групп?
- Сколько пропущенных значений экспрессии для каждого из пептидов? Если есть пропуски — проводим импутацию.
- Нужна ли нормализация? RI-plot или боксплот. Если нужно — нормализуем.
- Лог-трансформируем данные.
- (Не обязательно, но возможно) Разведочный кластерный анализ, чтобы выяснить нет ли таких отдельных пептидов или проб, которые сильно отличаются от других. Можно выявить технические ошибки.
- Усредняем технические повторности. (К сожалению, не могу предложить вам универсального способа сделать это в R, кроме как напрямую усреднить соответствующие столбцы)
- Строим дендрограмму проб. Получаем значения поддержки ветвей (и/или считаем другие индексы оценки качества кластеризации).
- Проводим анализ дифференциальной экспрессии. Полную таблицу дифференциально-экспрессируемых пептидов можно включить в приложения. Краткую таблицу и/или тепловую карту экспрессии всех дифференциальных пептидов можно включить в текст.
В итоге у вас должны получится:
- Дендрограмма проб.
- Таблица дифференциально-экспрессируемых пептидов (краткая или полная).
- Тепловая карта экспрессии дифференциальных пептидов.
(C) 2019 Marina Varfolomeeva, Arina Maltseva