GENCODE
» » GENCODE

GENCODE

15.12.2020


GENCODE — проект геномных исследований, являющийся составной частью проекта «Энциклопедия элементов ДНК» (ENCODE).

GENCODE был создан в рамках пилотной фазы проекта ENCODE с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE. Сейчас проект нацелен на создание энциклопедии генов и их вариантов с полным описанием их структурных характеристик в геномах человека и мыши с помощью методов вычислительного анализа, ручной аннотации и экспериментальной проверки.

Конечная цель проекта — создание базы аннотаций, включающей все белок-кодирующие локусы с альтернативными транскриптами, некодирующие локусы с обнаруженными транскриптами и псевдогены.

История

В сентябре 2003 года Национальный институт исследований генома человека (NHGRI) открыл публичный исследовательский консорциум ENCODE для реализации проекта по определению всех функциональных элементов человеческого генома. Этот проект является продолжением проекта «Геном человека» (англ. The Human Genome Project), запущенного в 1990 году Национальной организацией здравоохранения США (NIH). Целью проекта была расшифровка последовательности ДНК человека. В 2003 году были опубликованы результаты, и научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний. Для этого и был запущен проект ENCODE. Он был разделен на три фазы: пилотная (начальная) фаза, разработка методологии и продуктивная фаза. В ходе пилотной фазы планировалось исследовать около 30 Mb генома человека, а полученные результаты учесть в дальнейшем при анализе остального человеческого генома. Для картирования на этот фрагмент генома известных белок-кодирующих генов был создан проект GENCODE.

В апреле 2005 года была выпущена первая версия GENCODE с аннотацией 44 локусов человеческого генома. В ней было описано 416 известных геномных локусов, 26 новых белок-кодирующих локусов, 82 транскрибирующихся и 170 псевдогенных локусов. Во втором релизе (14 октября 2005 года) была обновлена и подтверждена информация об аннотированных раньше локусах, в основном, благодаря экспериментальным данным RACE и RT-PCR.

В июне 2007 года пилотная фаза ENCODE была завершена. Проект был признан удачным, и институт Сэнгера (Welcome Trust Sanger Institute) получил грант от NHGRI для масштабирования проекта GENCODE.

В 2012 году был выпущен крупнейший релиз GENCODE 7 (на основе данных на момент декабря 2011 года), в котором была скомбинирована автоматическая аннотация Ensembl и аннотация вручную. С 2013 года GENCODE был удостоен второго гранта на продолжение работы по аннотации генома человека, а также на аннотацию мышиного генома для сравнительных исследований геномов мыши и человека.

В апреле 2018 года была выпущена версия GENCODE 28 (содержащая данные, обработанные до ноября 2017 года).

Задачи

Задачи, решавшиеся в проекте GENCODE, вставали перед научным сообществом по мере расширения познаний в области генетики. Как правило, эти задачи были связаны с уточнением определений генетических терминов и с изучением функций геномных участков, ранее не подвергавшихся близкому рассмотрению. Ниже приведены примеры интересных вопросов и тем, которые исследуются в рамках GENCODE.

Определение понятия «ген»

Задача определения понятия «ген» стоит перед учеными на протяжении всего времени с тех пор, как исследователи задумались о вопросах наследственности. В 1900-х годах ген рассматривался как некая дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до геномного фрагмента, транскрибирующегося в РНК. Хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были подробнее описаны ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг, межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов, продуцирующих некодирующие РНК. Поскольку глобальной целью проекта GENCODE является создание энциклопедии генов и генных вариантов, эти проблемы поставили проект перед необходимостью дать обновленное определение понятия гена.

Псевдогены

Псевдогены — это белок-кодирующие (или сходные с ними) последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ показал, что некоторые из псевдогенов не просто экспрессируются, но и функционируют, играя роль в различных биологических процессах. Чтобы разобраться со всеми сложностями описания псевдогенов, в рамках GENCODE исследователи создали онтологию псевдогенов с использованием автоматических, ручных и экспериментальных методов, чтобы связать воедино их различные свойства, в том числе свойства последовательности, эволюцию и возможную биологическую функцию. Количество аннотированных псевдогенов растет с каждой новой версией GENCODE (см. Основная статистика).

Длинные некодирующие РНК (lncRNA)

Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent.

Датасет длинных некодирующих РНК, представленный в GENCODE (в частности, в версии GENCODE 7), считается самым большим из всех представленных датасетов lncRNA. При этом он мало перекрывается с другими существующими датасетами. Транскрипты, аннотированные как lncRNA, далее могут быть классифицированы на следующие типы на основе их положения в геноме относительно белок-кодирующих генов:

  • Антисмысловая РНК: локус, для которого был найден хотя бы один транскрипт, перекрывающийся с экзоном белок-кодирующего гена на противоположной цепи, или есть опубликованные данные об антисмысловой регуляции какого-либо гена;
  • Длинная межгенная некодирующая РНК (lincRNA);
  • «Перекрывающийся»: локус, содержащий белок-кодирующий ген внутри интрона на той же цепи;
  • «Интронный»: локус, расположенный внутри интрона, но не перекрывающийся с экзонами на той же цепи;
  • Процессированный транскрипт: локус, для которого ни один транскрипт не содержит открытую рамку считывания, и который не может быть отнесен ни к одной из предыдущих категорий из-за сложной структуры.
  • Основные участники

    В таблице приведены институты, чье участие было анонсировано на сайте GENCODE.

    Основная статистика

    Полнота данных в аннотациях GENCODE непрерывно растёт. Ниже приведена статистика версии GENCODE 28. Эта версия соответствует выпуску Ensembl 92 и содержит аннотацию, сделанную по сборке человеческого генома GRCh38, но доступную также для сборки GRCh37).

    Сравнение версий GENCODE

    Сравнительная статистика четырёх основных релизов GENCODE продемонстрирована на графике справа.

    Данные свидетельствуют о том, что покрытие генома (количество обнаруженных и аннотированных локусов) стабильно увеличивается. При этом доля белок-кодирующих генов среди аннотированных уменьшается — в основном, из-за результатов аннотирования поли(A)-сайтов и кэп-анализа экспрессии генов (CAGE). Одновременно с этим увеличивается количество псевдогенов и локусов, аннотированных как длинные некодирующие РНК.

    Методология

    В проекте GENCODE применялись ручная и автоматическая аннотация. При верификации результатов использовались данные лабораторных экспериментов.

    Автоматическая аннотация (ENSEMBL)

    Информация о транскриптах Ensembl, полученных при автоматической аннотации генов, основывалась на экспериментальных данных о последовательностях белков и мРНК из публичных баз данных. Помимо белок-кодирующих участков, аннотировались нетранслируемые участки, длинные некодирующие РНК и короткие некодирующие РНК.

    Аннотация вручную (группа HAVANA)

    HAVANA (Human and Vertebrate Analysis and Annotation) — исследовательская группа, осуществляющая ручную аннотацию транскриптов в проекте GENCODE.

    Помимо группы HAVANA, в состав консорциума GENCODE входило ещё несколько групп, проводивших анализ аннотированных локусов с помощью программ Ensembl и помогавших аннотаторам в идентификации пропущенных либо неверно аннотированных локусов, в том числе сайтов сплайсинга. Для обмена информацией между группами использовалась трекинговая система AnnoTrack. В процессе также использовались данные экспериментов РНК-секвенирования, CAGE и Ditag.

    Помимо официально вовлечённых в проект групп, над улучшением качества аннотации GENCODE работали независимые исследователи.

    Объединение ручной и автоматической аннотаций

    При объединении все модели транскриптов, полученные автоматической и ручной аннотацией, сравнивались для перекрывающихся транскриптов. Найденные расхождения детектировались с использованием системы AnnoTrack.

    Автоматическая аннотация не всегда может считаться корректной (так, только в 45 % случаев автоматической аннотации корректно предсказываются все альтернативные транскрипты). В случае несовпадения аннотаций приоритетной являлась аннотация HAVANA, так как ручная аннотация в сложных случаях предполагала анализ геномного контекста, литературы и использование экспериментальных данных Mus musculus. Тем не менее, для таких случаев сохраняется информация, полученная обоими способами аннотации.

    Оценка качества

    Транскриптам присваивается определённый уровень поддержки на основании сравнения транскрипта GENCODE с выравниванием мРНК и маркерных экспрессирующихся последовательностей (EST), полученным из Ensembl и UCSC. В итоге аннотации каждого транскрипта делятся на определённые вручную, автоматически или слитые аннотации, то есть те, для которых и автоматический метод, и метод аннотирования вручную дали одинаковые результаты.

    Основные подходы, использованные в GENCODE 7

    Амплификация, секвенирование, картирование и валидация результатов

    С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания геномной библиотеки с помощью набора Illumina «Genomic DNA sample prep kit». Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) картировались на референсный геном человека сборки hg19 и предсказанные ампликоны с использованием программы Bowtie. Транскрипты валидировались только ридами, которые однозначно картировались на геном. Места соединений экзонов считались достоверными, если на них картировалось минимум 10 ридов, содержащими хотя бы 4 (для ридов длиной 35 нуклеотидов) или 8 (для ридов длиной 75 нуклеотидов) нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга.

    Прочие подходы

    Для аннотации альтернативных транскриптов генов использовался веб-сервис APPRIS (CNIO). APPRIS выбирает один вариант в качестве «главной изоформы» на основании информации о белковом продукте гена и об ортологах близких видов. APPRIS широко использовался при масштабировании проекта ENCODE и при аннотации геномов других видов (Mus sp., Danio sp., Rattus sp.).

    Для поиска кодирующих последовательностей в транскриптах, автоматически предсказанных на основании данных РНК-секвенирования, использовалась программа PhyloCSF. Она основывается на анализе паттернов эволюции, выравнивая транскрипт с экзонами позвоночных из UCSC (включая 33 плацентарных млекопитающих).

    Организация данных

    Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков. Они соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, сайты полиаденилирования, аннотированные группой HAVANA, псевдогены, предсказанные алгоритмами Йельского университета и университета Санта-Круз (США), длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan .

    Определение уровня аннотации

    Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации:

    • Уровень 1 (подтвержденный локус): включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями.
    • Уровень 2 (аннотированный вручную локус): к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl.
    • Уровень 3 (автоматически аннотированный локус): отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl.

    Определение статуса гена/транскрипта

    Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов.

    Известный («known»): представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq.

    Новый («novel»): не представлен в базах HGNC или RefSeq, но хорошо подтверждается либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе.

    Предполагаемый («putative»): не представлен в базах НGNC или RefSeq, но подтверждается признаками существования более короткого и редкого транскрипта.

    Связанные с GENCODE проекты

    Ensembl

    Проект Ensembl является важной частью проекта ENCODE и представляет собой геномный браузер, позволяющий визуализировать сборку генома и все данные проекта ENCODE, в частности, аннотированные в проекте GENCODE геномные участки.

    RGASP

    RGASP (The RNA-seq Genome Annotation Assessment Project) — проект, организованный в рамках консорциума GENCODE после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов. Было проведено две сессии семинаров для анализа результатов секвенирования РНК, а также рассмотрения его различных (методических и технических) аспектов. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном. Проект предоставил софт для аннотации транскриптов (определение, реконструкция и расчет количества транскриптов).