Будущие кардиологи, генетики и айтишники встретились в Вышке, чтобы научиться «читать» ДНК для диагностики сердечно-сосудистых заболеваний. Они изучили современные методы секвенирования и тонкости работы с цифровыми двойниками кардиопациентов.
Международная лаборатория биоинформатики Факультета компьютерных наук НИУ ВШЭ провела летнюю школу «Кардиогенетика: от секвенирования до разработки кардиопанели». В ее работе участвовали 18 слушателей: медики, биологи и представители IT-профессий.
Младший научный сотрудник Международной лаборатории биоинформатики Галина Охрименко во вводной лекции рассказала, что секвенирование, метод определения нуклеотидной последовательности ДНК и РНК, может использоваться в различных ситуациях. Результаты генетического тестирования облегчают выявление риска заболеваний, учитывая семейные истории, помогают подбирать терапию при неонатальном скрининге и наблюдении за беременностью и наконец, диагностировать проявившиеся заболевания, в том числе наследственные.
Как правило, генетический тест рекомендует сдать врач, биологический материал секвенируется, затем данные анализа интерпретируются и выявляются нарушения, на основе которых врач или интерпретатор с медицинским опытом выявляют причину болезни. Врач оценивает клиническую картину, изучает ранние проявления заболевания. Учитывая клиническую историю пациента, он может назначить генетическое тестирование.
Секвенировать можно отдельные конкретные гены, панель генов или все кодирующие участки генома, содержащие сведения о 85% наследственных заболеваний. При секвенировании генома целиком выявляются нарушения и в кодирующих, и в регулирующих регионах. Пациент посещает лабораторию, где ДНК выделяется из венозной крови (оптимальный вариант), а также гистологических образцов (при онкологии), и иных материалов. После выделения ДНК происходит подготовка библиотеки ДНК – фрагментов ДНК с прикрепленными адаптерами. Полученную библиотеку загружают в секвенатор, и в результате получается последовательности отдельных генов или всего генома, записанные на алфавите из четырех букв.

Галина Охрименко
Галина Охрименко также напомнила, что ДНК состоит из нуклеотидов. ДНК, переплетаясь с белками, образует хромосомы. Геном человека состоит из 3,2 млрд нуклеотидов. Она отметила, что кодирующие участки занимают лишь небольшую часть генома.
Докладчик выделила технологии обработки геномов: секвенирование по Сэнгеру (первое поколение, появившееся в 1977 г.) остается золотым стандартом, благодаря высокой точности. NGS – система второго поколения, с ее помощью возможно параллельно секвенировать много образцов и обрабатывать большие объемы данных. Системы третьего поколения позволяют прочитывать без фрагментации до 2 миллионов нуклеотидов, что значительно повышает точность прочтения сложных мест генома.
Галина Охрименко уточнила, что наибольшую производительность секвенирования и генотипирования показывает оборудование компаний Illumina и Nanopore. Секвенирование по Сэнгеру является наиболее точным методом, в отличие от других подходов, которые характеризуются некоторой частотой ошибок. Применение методов NGS позволяет обрабатывать большие базы данных.
Выбор технологии зависит от конкретных задач. При обработке конкретного участка генома предпочтительнее метод Сэнгера, а если нужно исследовать набор генов - Illumina, а исследование полного генома будет более эффективным с технологиями третьего поколения.
В каждой пробирке для анализа содержатся ДНК, праймер, ДНК-полимераза и другие препараты, затем в аппарат для анализа загружается фрагмент генома. Эксперименты показали, что на 1000 нормальных нуклеотидов есть один модифицированный, после которого следующий не может присоединиться, происходит обрыв цепи.
Секвенатор, пояснила докладчик, представляет шкаф с электронным микроскопом, причем для полногеномного секвенирования геном и ДНК выделяют и фрагментируют, затем происходит подготовка адаптеров, необходимых для секвенирования и обогащение целевых участков. Для фрагментирования применяются ультразвук и ферментативное расщепление. В ходе секвенирования выделяются индексные и уникальные последовательности, прикрепляются праймеры. Далее происходит денатурация, получение одноцепочечных ДНК, которые можно загружать в кювету, где есть несколько дорожек со специальными лунками, в которых располагаются нуклеотиды. Загруженные фрагменты связываются с олигонуклеотидами, добавляются праймеры и фрагмент достраивается до второй цепи ДНК, оригинальный фрагмент вымывается и остается фрагмент, дополняющий оригинальный. После этого происходит гибридизация, проверяется сигнал на внешние излучения и в итоге формируется финальный кластер, похожий на изначальные фрагменты ДНК/генома, который можно регистрировать и секвенировать.
Результатом секвенирования являются прочитанные миллионы фрагментов ДНК. Полученные файлы обрабатывают биоинформатики, изучающие причины генетических заболеваний.
Галина Охрименко пояснила, что слушателей научат анализировать качество данных секвенирования, а также поиску однонуклеотидных замен и фильтрацию данных). На практике они освоят поиск мутаций в предложенных образцах и анализ данных с учетом клинической картины пациента, включая возможные патологии.
Linux в помощь
Приглашенный преподаватель департамента больших данных и информационного поиска ФКН НИУ ВШЭ Герман Ашниев рассказал слушателям про особенности применения операционной системы Linux и ее дистрибутива Ubuntu в биоинформатике. Это операционные системы с открытым кодом, причем для применения в биоинформатике их пополнили новыми пакетами.

Герман Ашниев
Он пояснил, что работа в и Ubuntu отличается от привычной в Windows, но при этом позволяет писать команды, смотреть их историю и выполнение процессов и обращаться к файлам через ссылку внутри системы. Также пользователь может регулировать доступ к созданным им папкам через графическую систему и комбинации клавиш.
Далее Герман Ашниев разъяснил слушателям принципы работы в Linux и Ubuntu с файлами и данными, полученными из Illumina и других систем секвенирования, отличия в обработке файлов, полученных с разных типов оборудования. Пользователь может смотреть, редактировать, двигать, переименовывать, копировать, удалять и искать файлы и директории, используя автозаполнение их названий. Таким образом, на вводной лекции были рассмотрены базовые инструменты и утилиты операционной системы Linux, предназначенные для управления файловой системой и обработки данных, включая: pwd, cd, ls, cat, zcat/gunzip/gzip,cp, mv, rm, mkdir, nano, awk, grep, find, sort,uniq,less. Чтобы упорядочить файлы в сервере, компьютере и в голове, нужно организовать некоторую систему, создав несколько директорий (папок) и домашнюю директорию с ключевыми документам
Он уточнил конкретные детали операций с файлами: копирования, редактирования, переноса документов в другие директории и особенности процедуры удаления, позволяющую сохранить нужные материалы и предостерег от некоторых ошибок, например удаления файлов в корневых директориях. Он также уточнил, что в Linux можно создать несколько окружений для выполнения разных задач, чтобы избежать конфликтов между программами.
Экскурсия в «Биотек кампус»
Слушатели школы посетили ООО «Биотек кампус» — Проект «Национальная генетическая инициатива «100 000 + Я».
Специалист по биоинформатике «Биотек кампус» Иван Антонов пояснил, что большинство анализов ДНК и геномов сдали взрослые здоровые добровольцы, в сборе также участвовали пациенты с сердечно-сосудистыми и онкологическими заболеваниями, отдельно собиралась коллекция этнических геномов. В основном доноры сдавали анализ крови. Недавно программу сбора генетического материала расширили до 1 млн участников.
Докладчик пояснил, что изучение мутаций позволяет понять степень их патогенности, в частности, их регулярное появление у разных людей показывает, что они не являются причиной заболеваний.
Иван Антонов также сообщил, что география отличий генов разных народов России весьма близка к карте их расселения по территории страны, несмотря на большое число россиян со смешанным этническим происхождением.
Докладчик также рассказал, что заболевания делятся на моногенные, вызываемые одной мутацией, и многофакторные, например, вызванные сложными болезнями иммунной системы, где для оценки каждого фактора нужна работа экспертов. А для лечения онкологических заболеваний необходим анализ ДНК, полученный через биопсию и опухолевой, и здоровой клеток.
Он обратил внимание на важность исследований в сфере фармакогенетики, позволяющих, в том числе выявить влияние генов на сильное побочное действие отдельных лекарств и групп препаратов.
Другим интересным направлением работы Иван Антонов назвал изучение древних геномов, позволяющее исследовать эволюцию ДНК и геномов, а также выявить болезни и вероятные причины смерти доисторических людей.
Научный сотрудник «Биотек кампус» Егор Гоцманов продемонстрировал слушателям школы кардиогенетики работу оборудования по обработке генной информации. Он пояснил, что пробирки с кровью подвергаются предварительной очистке в специальном шлюзе. Далее из полученных образцов крови выделяются клетки, затем оценивается размер фрагмента ДНК и в случае его достаточности он отделяется от ядра клетки и проходит спектрометрическая оценка чистоты. Прошедшие проверку фрагменты приходят в библиотеку. Как сообщил специалист, в обычных проектах отсеивается около 2% образцов, в более сложных – до 10%.
Далее фрагменты разделяются в секвенаторах на двухцепочечные и одноцепочечные и формируются копии для генной библиотеки, затем в специальных подложках и расположенных на них чипах идет реакция с добавлением специальных реактивов и многократное прочтение нуклеотидов. В сутки, по словам Егора Гоцманова обрабатываются полные геномы около 60 человек.
Студенческие проекты
В завершающий день работы школы слушатели представили свои проекты по использованию секвенирования для диагностики и лечения кардиологических заболеваний.
Слушатель школы, студент 6-го курса ИКМ Сеченовского университета Максим Никулин представил проект «Анализ данных полноэкзомного секвенирования с применением виртуальной кардиогенетической панели». Докладчик планировал оценить наличие патогенных/вероятно-патогенных вариантов, ассоциированных с развитием кардиологических заболеваний у пациента с семейным анамнезом нарушения проводимости сердца.
В анализ были включены данные полноэкзомного секвенирования пациента с семейным анамнезом нарушения проводимости сердца. Секвенирование проводилось с применением систем Illumina Genome Analyzer Iix, Illumina TruSeq Enrichment kit с использованием биоинформатической обработки данных NGS. Результаты интерпретировались с применением критериев патогенности ACMG.
Были изучены 76 баз, просмотрены 1 074 варианта в генетической панели GenCC по кардиомиопатии и 10 вариантов в генетической панели ClinGen по дилатационной кардимиопатии. В ходе исследования был выявлен один патогенный вариант гена LMNA. Данный ген кодирует белок, являющийся критически важным структурным компонентом ядерной оболочки клеток. Патогенные варианты гена связаны с высоким риском фатальных аритмий, что требует принципиального изменения тактики ведения пациента (имплантация кардиовертера-дефибриллятора и каскадный семейный скрининг).
По мнению докладчика, переподготовка исходных данных позволяет улучшить качество биоинформатической обработки, отделяя варианты низкого качества. Изученный вариант требует верификации секвенированием по Сэнгеру. Знание генотипа пациента означает принципиально иную тактику его ведения.
Александр Милек представил проект «Кардиогенетическое тестирование цифрового двойника пациента, больного наследуемым нарушением проводимости сердца». Докладчик планировал сформировать кардиогенетическую панель для наследуемых нарушений проводимости сердца, выявив по данным ДНК-секвенирования пациента варианты и замены в генах, отфильтровать и классифицировать варианты по частоте и клинической значимости и сопоставить полученные данные с клиническими базами для оценки патогенности.
Всего докладчик нашел 118 замен в генах панели, из них две известных, одну высоковероятную и одну редко встречаемую. Он подчеркнул, что в ключевых генах, ассоциированных с нарушениями проводимости сердца, не выявлено патогенных вариантов. Их отсутствие подчёркивает сложность интерпретации при наследуемых нарушениях проводимости сердца.
Непатогенный вариант в гене PRKAG2 ассоциирован с синдромом PRKAG2, вызывающим гипертрофическую кардиомиопатию, нарушения проводимости сердца и синдром Вольфа-Паркинсона-Уайта. Выявленные спорные (VUS) и неклассифицированные варианты следует изучать в будущих исследованиях и функциональных тестах.

Мария Попцова
Заведующий Международной лабораторией биоинформатики ФКН НИУ ВШЭ Мария Попцова, подводя итоги работы школы, отметила, что слушатели получили новые полезные знания, успешно освоили программу и защитили проекты по применению современных методов анализа генетической информации при диагностике и лечении пациентов. Она также отметила междисциплинарность биоинформатики и выразила надежду, что новые знания помогут специалистам разных наук лучше понимать методы экспертов смежных профессий в повседневной деятельности и налаживать взаимодействие для повышения качества работы.
Школа была проведена при поддержке Yandex Cloud. Материалы школы по Интерпретации генетических вариантов частично были взяты из разработок Института биоинформатики.