Г.А. Андрианов, О.С. Кременецкая

Выбор функции плотности вероятности распределения экспрессии генов при обработке данных в методе RNA-Seq

В настоящий момент для выравнивания гистограммы распределения ридов, полученных в результате обработки транскриптомов различных особей, предлагают использовать отрицательное биномиальное распределение. В данной работе проанализировано «физическое» обоснование возникновения уширения пуассоновского распределения и сделан вывод, что истинный вид распределения есть действительно сложное распределение Пуассона (частным случаем которого является отрицательное биномиальное распределение), однако представляет собой другой частный случай данного распределения ‒ случай n-кратной (n ‒ случайная величина с распределением Пуассона) свертки случайных величин с экспоненциальным распределением, а не логарифмически распределенных случайных величин. Показано, что распределение интенсивности экспрессии генов у группы лиц, вычисленное по опубликованным данным, лучше описывается сверткой с экспоненциальным ядром.

 

КЛЮЧЕВЫЕ СЛОВА: отрицательное биномиальное распределение, RNA-Seq, сложное распределение Пуассона, экспрессия генов