Анализ данных scRNA-Seq: проблемы и методы биоинформатики, часть 1

Анализ данных scRNA-Seq: проблемы и методы биоинформатики, часть 1

 

Технология scRNA-Seq обещает вынести на новый уровень наше понимание болезней и связанных с ними биологических процессов с беспрецедентным разрешением. Оно открывает возможности для выявления межклеточной неоднородности и применяется для самых разнообразных анализов, начиная от описания субпопуляций раковых клеток и кончая выяснением механизмов резистентности опухолей. Параллельно с совершенствованием экспериментальных протоколов для решения технологических проблем, получение новых аналитических методов для интерпретации сложности данных scRNA-Seq также имеет высокую сложность. В этом обзоре мы рассмотрим современные инструменты и методы биоинформатики для анализа данных scRNA-Seq, а также рассмотрим некоторые к проблемы, с которыми придется столкнуться.

 

Введение

Характеризация геномных сигнатур у отдельных пациентов является ключевым шагом к реализации точной медицины. В последнее время профилирование экспрессии РНК на основе секвенирования NGS (RNA-Seq) оказало широкое воздействие на биомедицину. Однако усредненная по популяции RNA-seq имеет ограниченную аналитическую способность и может также маскировать присутствие редких субпопуляций клеток (таких как раковые стволовые клетки) и, таким образом, может игнорировать важные биологические идеи. scRNA-Seq технология предназначена для преодоления этих ограничений путем исследования профилей экспрессии на клеточном уровне. Всего за несколько лет число экспериментов с scRNA-Seq выросло экспоненциально. Этот новый подход дает возможность расширить наше понимание болезней и связанных с ними биологических процессов, с возможностью выявления межклеточной неоднородности в определенной ткани с высоким разрешением. Используя признаки на уровне одиночных клеток, мы можем вывести линии клеток, идентифицировать субпопуляции и выделить клеточно-специфические биологические характеристики. Более того, анализы одиночных клеток уже продемонстрировали свою полезность в клинических применениях, начиная от характеристики субпопуляций раковых клеток, выделения специфических механизмов устойчивости , чтобы использоваться в качестве диагностических инструментов.

Несмотря на увеличение количества исследований scRNA-Seq и быстрое развитие экспериментальных методов, основные проблемы анализа данных экспериментов остаются решенными не до конца. Одна из основных проблем заключается в том, что наборы данных scRNA-Seq имеют очень высокий уровень шума (Brennecke et al., 2013; Kharchenko et al., 2014). Большая часть шума связана с природой технологии одиночных клеток. Из-за чрезвычайно низкого количества исходного биологического материала в одиночной клетке необходимы процессы амплификации. Эти процедуры подвергают образец искажениям и загрязнению. Для решения этих проблем были приложены серьезные усилия для разработки аналитических методов для данных scRNA-Seq. Здесь мы суммируем современные современные инструменты и методы биоинформатического анализа для scRNA-Seq

Общий процесс обработки данных scRNA-Seq
источник

 

и решаем некоторые критические аналитические задачи, с которыми мы сталкиваемся. В первом разделе описаны конкретные шаги предварительной обработки для удаления шумов из данных scRNA-Seq. Во втором разделе рассматриваются конкретные процедуры биоинформатического анализа данных scRNA-Seq с акцентом на выявление субпопуляций. Третий раздел посвящен микроэволюционному анализу данных scRNA-Seq. В последнем разделе мы осветим проблемы, которые необходимо решить, и работу, которая должна быть выполнена в области биоинформатики scRNA-Seq.

 

Подготовка данных и избавление от шума

 

Контроль качества

Эксперименты scRNA-Seq генерируют файлы FASTQ с секвенирующей машины, которые содержат миллионы ридов, состоящих из последовательностей РНК и вспомогательных последовательностей (тег UMI и тег клетки и т. д. ). Эти риды должны быть предварительно обработаны до того, как будут выровнены на референсный геном. Для scRNA-seq используются анализы предварительной обработки и контроля качества (QC), аналогичные анализу больших объемов RNA-Seq. Cutadapt - это инструмент, который удаляет адаптерные последовательности, а Trimmomatic выполняет "тримминг" ридов на основе качества обрезки в дополнение к обрезке адаптеров. Эти инструменты обычно используются в экспериментах scRNA-seq. Другие обобщенные инструменты контроля качества, такие как FASTQC или HTQC, также могут быть полезны для получения метрик качества. Наконец, стоит отметить, что инструментальные средства контроля качества прочтений на платформе Illumina,  такие тулы как SolexaQA, обеспечивают пайплайны контроля качества, с обрезкой и фильтрацией на основе качества.

Интерфейс FASTQC

Другие процедуры контроля качества для scRNA-seq включают анализ экспрессии генов домашнего хозяйства, общих паттернов экспрессии генов и количество генов или ридов детектированных на каждую клетку. Однако одна из этих проблем состоит в том, что пороговые значения, выбранные для фильтрации, являются произвольными и должны различаться в соответствии с набором данных. SinQC и SCell являются двумя инструментами контроля качества, специально разработанными для данных scRNA-seq. SinQC использует качество библиотеки секвенирования, чтобы выявить выбросы экспрессии генов. Он вычисляет различные метрики качества (например, общее количество выровненных ридов, качество выравнивания и сложность библиотеки), чтобы идентифицировать определенную пользователем долю набора данных как шум. SCell - это универсальный инструмент, который позволяет обнаруживать выбросы. Он оценивает гены, которые выражены на фоновом уровне с использованием индекса Джини(Gini index), который измеряет статистическую дисперсию и удаляет образцы, фоновая доля которых значительно выше средней. Недавно, Celloline  - новый пайплайн по картированию и оценке качества, который обнаруживает клетки низкого качества из профилей экспрессии, используя кураторские биологические и технические особенности был анонсирован (Ilicic et al., 2016).

 

Выравнивание

В настоящее время нет специальных выравнивателей, посвященных scRNA-seq, и в исследованиях scRNA-seq используются существующие выравниватели, выполненные для объемной RNA-Seq. Tophat2 является одним из самых популярных тулов для обнаружения новых сплайсинговых вариантов и широко используется в исследованиях scRNA-seq. RNA-Seq по Максимизации Ожиданий, или RSEM, - популярный тул, включающий выравниватель. Он также использовался в некоторых экспериментах scRNA-seq. Другие выравниватели, используемые в исследованиях scRNA-Seq:  MapSplice, GSNAP и STAR. Было обнаружено, что среди этих выравнивателей Tophat2 и STAR работают примерно в два раза быстрее, чем GSNAP и MapSplice. Совсем недавно разработанные выравниватели включают Kallisto и HISAT. Kallisto использует псевдо-выравнивание с хешированием  графа де Брюйна и вообще избегает выравнивания, что резко повышает скорость квантификации транскриптов. HISAT (hierarchical indexing for spliced alignment of transcripts) также кажется многообещающим с точки зрения скорости и точности. Следует упомянуть, что некоторые основные методы scRNA-Seq не позволяют получить достаточного покрытия гена для измерения альтернативного сплайсинга, поэтому алгоритмы измерения изоформ не так критичны в scRNA-Seq, по крайней мере, на данном этапе развития технологии.

 

Квантификация признаков

Квантификация признаков представляет собой процесс преобразования результатов выравнивания в профиль экспрессии генов. Профиль экспрессии обычно представлен в виде числовой матрицы, где строки - это гены, а столбцы - клетки. Каждая запись в матрице представляет собой распространенность определенного гена или транскрипта в конкретном образце. Точно так же, как в случае с выравнивателями, большинство исследований scRNA-Seq используют каноничные методы количественной оценки, применяемые к объемной RNA-Seq.

Методы количественной оценки экспрессии генов резко отличаются друг от друга. Самый простой подход, используемый в таких программах, как HTSeq и FeatureCounts, заключается в подсчете количества ридов, расположенных в границах гена. Эти программы имеют простые, но гибкие параметры для определения количества ридов в случае перекрывающихся генов и были использованы в некоторых исследованиях scRNA-Seq. Более сложные подходы вычисляют вероятностные оценки экспрессии генов. Например, RSEM и Cufflinks используют подход максимального правдоподобия. Эти программы основаны на статистических моделях, где считывания в выборке RNA-Seq наблюдаются случайные величины, предсказанные по скрытым переменным, такие как последовательность транскриптов, стрэнд цепи ДНК и длина. Показано, что новый пайплайн Kallisto, как описано выше, имеет улучшение по скорости в два раза по сравнению с предыдущими комбинациями выравниватель- квантификатор. Интересно, что хотя вероятностные подходы концептуально более совершенны, но простые программы подсчета, такие как HTSeq и FeatureCounts, показали сравнимую или даже более высокую производительность, выдвигая предположение, что эти вероятностные модели еще предстоит улучшить.

Показано, что с учетом сложности количественного определения фрагментов после амплификации было показано, что новый метод уменьшает шум амплификации, вводя случайные последовательности, называемые уникальными молекулярными идентификаторами, или UMI. UMI помечены на отдельных молекулах РНК перед амплификацией и используются для отслеживания транскриптов напрямую.

 

Фильтрация генов

Из-за высокого уровня шума в наборах данных scRNA-Seq, необходимо отфильтровывать гены и образцы низкого качетства. Различные методы фильтрации были изобретены для отфильтровывания генов, которые экспрессируются в слишком небольшом количестве образцов. Обычно ген определяется как «экспрессированный» с помощью минимального порога уровня экспрессии. Для экспериментов, которые количественно определяют экспрессию генов с подсчетом фрагментов, подходит пороговое значение FPKM (Fragment per Kilobase per Million Reads, Фрагмент на килобазу на миллион ридов). Обычными порогами FPKM являются 1 и 10. В других исследованиях также устанавливался порог с помощью Transcript Per Million (TPM) вместо FPKM. Тем не менее, лучший метод фильтрации был представлен  ERCC (External RNA Controls Consortium), суть метода в добавлении в эксперимент внешних контрольных образцов РНК, которые обеспечивают калибровку относительного количества исходного материала.

Недавно были разработаны специальные методы для фильтрации генов из набора данных scRNA-seq. OEFinder предназначен для идентификации генов артефактов из экспериментов scRNA-seq с использованием платформы Fluidigm C1 для захвата клеток. Для экспериментов, которые количественно определяют экспрессию генов с подсчетом UMI, можно непосредственно установить порог числа молекул, например 25. Также рекомендуется удалить UMI с количеством ридов <1/100 средних ненулевых показаний UMI, чтобы избежать ошибочных UMI, генерируемых во время амплификации.

 

Удаление искажающих факторов

Когда весь набор данных состоит из нескольких серий экспериментов с потенциально изменяющимися условиями, могут возникать систематические изменения, называемые групповыми эффектами(batch effects). Эти эффекты могут доставлять существенные проблемы для последующего статистического анализа или даже маскирование биологических сигналов. Для исследований, касающихся чрезмерной дисперсии экспрессии генов, необходимо выделить дополнительную дисперсию, вызванную систематическими различиями между партиями. Соответствующий способ компенсации группового эффекта зависит от метода количественной оценки, а также вида последовательного анализа. Для большинства исследований групповые эффекты могут быть устранены с  понижения количества данных однако разрешение данных тоже снижается. Для исследований, в которых используется традиционный подсчет фрагментов, COMBAT представляет собой метод удаления группового эффекта, основанный на эмпирических байесовских методах и подразумевающий устойчивость к выбросам для небольших размеров выборки. Первоначально он был разработан для данных микрочипов, но использовался в экспериментах scRNA-Seq. Хотя существуют методы обнаружения и удаления неконтролируемых групповых эффектов, наборы образцов, анализируемые такими методами, часто в значительной степени коррелируют с субпопуляциями, обнаруженными другими методами scRNA-Seq. Поскольку, как правило, субпопуляции рассматривают для ценной биологической информации, методы неконтролируемого удаления группового эффекта следует использовать с осторожностью в экспериментах на одиночных клетках.

Помимо удаления группового эффекта, важно также устранить технический шум. Уровень технического шума генов коррелирует с его средним уровнем экспрессии. Таким образом, вероятностная модель может быть построена таким образом, чтобы соответствовать этой корреляции с использованием технических контролей, и дополнительно выделять биологическую изменчивость каждого гена. Для большинства исследований также желательно избежать распространенной вариации, индуцированной реакциями клеточного цикла, чтобы не маскировать другие интересные биологические вариации. ScLVM представляет собой пакет, который пытается удалить влияние факторов клеточного цикла до обнаружения субпопуляций. Недавно был разработан новый пакет ccRemover, который удаляет основные компоненты, идентифицированные как связанные с клеточным циклом, которые утверждали, что работают лучше, чем scLVM в нескольких симулированных и реальных наборах данных.

 

Нормализация

В экспериментах scRNA-seq технические факторы, такие как глубина покрытия ридами, эффективность захвата клеток, 3`-смещение или полное покрытие последовательности, обусловленное конкретными методами подготовки библиотеки, могут отличаться в разных наборах данных scRNA-Seq. Таким образом, необработанные рид каунты должны быть нормализованы перед последующим анализом. Эта процедура дает максимальную гарантию, что разница между значениями в матрице правильно отражает разницу в содержании транскриптов или генов между клетками. Когда эксперименты разрабатываются с использованием контролей ERCC, которые могут использоваться в качестве внутреннего контроля и служить в качестве якоря для нормализации. GRM - это инструмент нормализации scRNA-seq, который использует гамма модель регрессии между ридами (FPKM, RPKM, TPM) и контролями. Затем обученную модель используют для оценки экспрессии гена из полученных значений.

BASiCS, еще один рабочий пайплайн, представляет собой байесовскую модель, позволяющую вывести специфический для клетки нормализующий фактор. Этот рабочий процесс оценивает техническую изменчивость с помощью контролей. Наконец, SAMstrt представляет собой более ранний алгоритм, который применяет процедуру нормализации ресамплинга от SAMseq к контролю, которая изначально была разработана для объемной RNA-Seq.

 

Для экспериментов без контролей, если количественная оценка основана на каунтах, можно нормализовывать профиль экспрессии с помощью методов масштабирования, используемых в DESeq и edgeR и т. д. Новый специальный scRNA-seq предлагает подход обратной свертки по объединенным подсчетам экспрессии гена для множественных клеток, что позволяет вывести размерный фактор для отдельных клеток без использования контролей. Авторы этой работы утверждали, что их подход улучшил точность нормализации по сравнению с существующими методами. Однако эксперименты, разработанные с использованием UMI, как уже упоминалось ранее, количественно оценивают экспрессию генов на абсолютной основе, и, следовательно, им не нужна нормализация.

 

Дифференциальная экспрессия

Анализ дифференциальной экспрессии (DE) представляет собой процесс анализа экспрессии гена, который показывает статистически значимое различие между заранее определенными группами образцов. Хотя DE, как правило, не является основной целью разработки экспериментов на одиночных клетках, поскольку для этого требуется предварительно известная информация о группировании среди интересующих клеток, тем не менее эта задача распространена в экспериментах с scRNA-Seq. Простые статистические методы, такие как t-критерий и тест Уилкоксона (Wilcoxon rank sum test), используются в анализе данных  scRNA-Seq в виде программных пакетов, таких как SINCERA. Интересно, что EdgeR и DESeq2, два метода оценки DE, разработанных для RNA-Seq, дали наилучшие результаты для некоторых данных scRNA-Seq.

Случай ”выпадения” гена является уникальным типом шумов scRNA-Seq, который редко встречается в масштабных экспериментах RNA-Seq. Он относится к явлению, когда ген экспрессируется хорошо в одной клетке, но не обнаруживается в другой клетке, что ведет к потере транскрипта на стадии обратной транскрипции. Для учета частых случаев выпадения и биологической изменчивости в популяции клеток были разработаны более сложные алгоритмы для данных scRNA-Seq. Дифференциальная экспрессия одиночных клеток (SCDE) представляет собой пакет, разработанный специально для оценки дифференциальной экспрессии одиночных клеток. Модель предполагает, что наблюдаемые уровни экспрессии в данных scRNA-Seq следуют смеси отрицательного биномиального распределения для амплифицированных генов, как было предложено ранее (Anders and Huber, 2010); И распределения Пуассона с низкими средними для генов выпадения, как это наблюдается в транскрипционно подавленных генах. Эта модель пригодна для использованием алгоритма максимизации ожиданий (Expectation Maximization algorithm). Он утверждал более высокую чувствительность дифференциально экспрессируемых генов по сравнению с DESeq и CuffDiff. Совсем недавно PAGODA усовершенствовала метод SCDE в нескольких аспектах, включая оптимизацию вычислительного процесса и усовершенствованную модель для лучшей модели описания данных. MAST - еще один метод обнаружения дифференциальной экспрессии scRNA-Seq, который использует двухсоставную генерализованную линейную модель и регулируется для фракции клеток, которые экспрессируют определенный ген.

 

Другая проблема, уникальная для scRNA-Seq, заключается в том, что некоторые гены могут проявлять бимодальность, что означает, что уровни экспрессии в группе клеток сосредоточены вокруг двух мод, а не одной.

Было предложено использовать бета-пуассоновское распределение для обеспечения более точного дифференциального экспресс-анализа, который учитывает бимодальность . Другой инструмент Monocle также имеет модуль для оценки дифференциального экспрессии, который подходит для данных с непараметрической обобщенной аддитивной моделью. Наконец, рабочий процесс BASiCS, описанный ранее, обеспечивает критерий для обнаружения генов с высокой или низкой вариабельностью в наборе данных отдельных клеток. Однако неясно, какие методы обычно имеют более высокую производительность.

 

На этом мы заканчиваем первую часть обзора о методах анализа данных scRNA-Seq, а в следующих частях мы поговорим о  тонкостях разделения клеток на субполяции и о микроэволюции одиночных клеток.

все для dle
+3
Добавить комментарий

Оставить комментарий