1. Правильно ли открылись данные? Правильно ли определены типы переменных?
  2. Сколько пептидов и сколько проб в файле с экспрессией? Для всех ли проб указаны значения факторов в файле с факторами? (т.е. соответствует ли число строк в файле с факторами числу столбцов в файле с экспрессией?)
  3. Сколько групп закодировано в каждом факторе? Сколько проб входит в каждую из групп?
  4. Сколько пропущенных значений экспрессии для каждого из пептидов? Если есть пропуски — проводим импутацию.
  5. Нужна ли нормализация? RI-plot или боксплот. Если нужно — нормализуем.
  6. Лог-трансформируем данные.
  7. (Не обязательно, но возможно) Разведочный кластерный анализ, чтобы выяснить нет ли таких отдельных пептидов или проб, которые сильно отличаются от других. Можно выявить технические ошибки.
  8. Усредняем технические повторности. (К сожалению, не могу предложить вам универсального способа сделать это в R, кроме как напрямую усреднить соответствующие столбцы)
  9. Строим дендрограмму проб. Получаем значения поддержки ветвей (и/или считаем другие индексы оценки качества кластеризации).
  10. Проводим анализ дифференциальной экспрессии. Полную таблицу дифференциально-экспрессируемых пептидов можно включить в приложения. Краткую таблицу и/или тепловую карту экспрессии всех дифференциальных пептидов можно включить в текст.

В итоге у вас должны получится:

(C) 2019 Marina Varfolomeeva, Arina Maltseva