Г.Г. Федонин, М.Д. Казанов

Моделирование первичной специфичности протеаз семейства MMP методами машинного обучения

Исследовались восемь протеаз из разных подгрупп  семейства MMP. На основе измерений протеолитической активности для 1369 пептидов, отобранных экспериментально из 64 миллионов пептидов длиною шесть аминокислот с использованием фагового дисплея, и хорошо разрезаемых хотя бы одной из протеаз, были построены предсказательные модели первичной специфичности этих протеаз. Для предсказания протеолитической активности каждой  протеазы на пептиде по его аминокислотной последовательности использовались линейные регрессионные модели и метод ближайших соседей (kNN). Наивный байесовский классификатор, логистическая регрессия и метод ближайших соседей использовались для решения бинарной задачи классификации, в которой пептиды с известной активностью считались `положительными', а случайные пептиды --- `отрицательными'. Для определения релевантных для предсказания специфичности  позиций аминокислотной последовательности пептида использовался жадный отбор признаков. В работе предложен метод сокращения размерности пространства признаков, основанный на параметризации аминокислот, и показано, что его использование повышает качество предсказания регрессионных и классификационных моделей. Предложен специальный алгоритм обучения линейной  регрессионной модели: к обучающим пептидам добавляются случайные пептиды. Функционал качества для случайных пептидов полагался равным нулю, если предсказанное значение было меньше минимального значения активности в выборке для данной протеазы, и, в противном случае, равным квадрату отклонения предсказанного значения от минимальной активности (также как и в стандартном алгоритме наименьших квадратов OLS). Модели были проверены на CutDB --- базе экспериментально зафиксированных событий протеолиза. Для демонстрации эффективности предложенных моделей были построены ROC-кривые с использованием данных из CutDB.

 

КЛЮЧЕВЫЕ СЛОВА: биоинформатика, протеазы, матриксные металлопротеиназы, первичная специфичность протеаз, машинное обучение, сокращение размерности пространства признаков