В.А.Любецкий, К.Ю.Горбунов, В.В.Вьюгин, Л.Ю.Русин

Удаление шума в множественном выравнивании белковых последовательностей

Одна из основных проблем при построении дерева белкового семейства состоит в получении качественных первичных молекулярных данных (в том числе, множественного выравнивания семейства) для дальнейшего проведения филогенетического анализа. Авторами предлагается процедура удаления шума из исходного множественного выравнивания (МВ) белковых последовательностей с целью повышения качества самого МВ и филогенетического дерева белкового семейства, построенного на его основе. Для этого определены энтропия и условная энтропия (филогенетическая информативность) каждой колонки МВ, и предложен алгоритм для нахождения по исходному МВ нового МВ, наиболее информативного для построения филогенетического дерева семейства. Эффективность предложенного подхода проверена на многих белковых семействах из базы данных по кластерам ортологичных групп белков (COGs, NCBI) с помощью вычисления показателя правдоподобия для всех итеративно возникающих деревьев. В заметке численные результаты тестирования приводятся для пяти КОГов.