Кластеризация RNA-Seq стала еще умнее.

Кластеризация RNA-Seq стала еще умнее.

 

 

пример графика t-SNE кластеризации DIMM-SC

 

Секвенирование транскриптомов одиночных клеток (scRNA-Seq) стало революционным инструментом для изучения клеточных и молекулярных процессов на уровне одиночной клетки. Среди существующих технологий недавно разработанная платформа на основе технологии droplet обеспечивает эффективную параллельную обработку тысяч одиночных клеток с прямым подсчетом копий транскриптов с использованием Unique Molecular Identifier (UMI). Несмотря на технологические достижения, надежные статистические методы и вычислительные инструменты по-прежнему отсутствуют для анализа данных scRNA-Seq на основе технологии droplet. В частности, подходы для кластеризации крупномасштабных транскриптомных данных одиночных клеток все еще недостаточно изучены. Исследователи из Департамента биостатистики Университета Питтсбурга разработали DIMM-SC, новую статистическую модель на основе распределения Дирихле для кластеризации транскриптомных данных scRNA-Seq на основе технологии droplet. Этот подход явно моделирует данные каунтов UMI из экспериментов scRNA-Seq и характеризует вариацию в разных кластерах клеток через распределение Дирихле. Для вывода параметров использутеся алгоритм максимизации ожиданий.

 

Было проведено комплексное моделирование данных для оценки DIMM-SC и сравнеие его с существующими методами кластеризации, такими как K-means, CellTree и Seurat. Кроме того, авторы проанализировали общедоступные наборы данных scRNA-Seq с известными кластерными метками и стандартизированными наборами данных scRNA-Seq из исследования системного склероза с использованием предшествующих биологических знаний для проверки и проверки DIMM-SC. Как симуляционные исследования, так и анализы реальных данных показали, что в целом DIMM-SC обеспечивает существенно более высокую точность и значительно меньшую вариабельность кластеризации по сравнению с другими существующими методами. Что еще более важно, в качестве основанного на модели подхода DIMM-SC может количественно определять неопределенность кластеризации для каждой отдельной клетки, что облегчает строгий статистический контроль надежности результатов и биологической интерпретации, что, как правило, недоступно для существующих методов кластеризации.

 

Ссылка на R-пакет

Ссылка на статью

все для dle
0
Добавить комментарий

Оставить комментарий