Авторизация

SARS-CoV2: ученые приблизились к пониманию эволюционирования и эпидемиологии вируса

19.08.2021

SARS-CoV2: ученые приблизились к пониманию эволюционирования и эпидемиологии вируса
Учеными Центра био- и хемоинформатики Института биодизайна и моделирования сложных систем Сеченовского Университета, разработаны алгоритм и софт, которые помогают точно определять внутрихостовую вариативность вирусных геномов и исправлять ошибки секвенирования. Подробности работы мы узнали у руководителя Центра био- и хемоинформатики Юрия Порозова.
– Эта работа началась в 2017 году. Мой бывший аспирант Сергей Князев, который уже работал в университете Джорджии (г. Атланта) под руководством профессора Зеликовского (соавтора публикации) и в Центре по контролю за заболеваниями (СDC) предложил мне и моей коллеге Татьяне Малыгиной поучаствовать в разработке и бенчмаркинге нового алгоритма для анализа внутрихостовой вариабельности вирусных гаплотипов и надёжного определения минорных гаплотипов в «зашумлённых» результатах секвенирования.

Тогда мы даже не могли предположить, что через три-четыре года мир столкнется с проблемой SARS-CoV2, при которой внутрихостовая вариабельность и эволюционирование мажоритарных вирусных гаплотипов является большой проблемой.

От понимания и контроля этой проблемы зависят жизни множества людей, решения в экономиках, образовании, здравоохранении стран мира. Эту мысль подтверждает блестящая статья Ф. Кондрашова (S.A. Rella et al. Scientific Reports, 2021, V.11, 15729).

Задача, которую решает наш алгоритм и ПО – это фильтрация шума секвенирования и вычленение из зашумленных данных минорных вирусных гаплотипов. С одной стороны, есть NGS-техники секвенирования, общим для которых является shot-gun подход, при котором нужно собрать геном(ы) из коротких ридов. Эта задача, сама по себе сложная, многократно усложняется в гетерогенной вирусной среде, когда нужно выявить близкородственные вирусные варианты и оценить их частоты.

Секвенирование Pac-Bio (single-molecule sequencing) позволяет секвенировать вирусный геном целиком, но привносит в последовательность значительный шум (13-14%, что очень много). Есть несколько инструментов для сборки вирусных гаплотипов, но у всех них есть те или иные проблемы с масштабируемостью, определению гаплотипов, частота которых находится ниже частот ошибок секвенирования и пр.

С коллегами из CDC и университета штата Джорджия мы разработали и протестировали на наборах открытых данных (геномы ВИЧ) новый алгоритм CliqueSNV, базирующийся на статистическом анализе и кликах (cliques). Кроме того, мы представили два новых тестовых набора результатов секвенирования ВИЧ, полученных от существующего пациента.

При тестировании выяснилось, что CliqueSNV может верно восстановить до 87% гаплотипов внутрихостовой вирусной популяции, в то время как конкурирующие решения не способны сделать это и с одним гаплотипом без ошибок. И, что очень важно именно сейчас. CliqueSNV может верно определять минорные вирусные гаплотипы, частота которых не превышает 0,1%, и различать гаплотипы, отличающиеся всего на две пары нуклеотидов.

Резюмируя, хочу заметить, что для меня самого удивительно, как вовремя была закончена и опубликована работа, начавшаяся четыре года назад. Надеюсь, что наш труд поможет в понимании эволюционирования, эпидемиологии вируса SARS-CoV2 и даст в руки ученых  прогностический инструмент для подавления и контроля болезни, вызываемой им.

Работа опубликована в Nucleic Acid Research (if 16,971), препринт и предыдущие версии работы доступны на bioRχiv, сам инструмент CliqueSNV выложен на GitHub.