Linux для обработки геномов Сергей Науменко



Pdf просмотр
Дата09.12.2016
Размер5.03 Mb.
Просмотров151
Скачиваний0

Linux для обработки геномов
Сергей Науменко
Ренат Арифулов
Нина Попова
Лаборатория эволюционной геномики ФББ МГУ
Институт проблем передачи информации РАН
РХТУ им. Д.И. Менделеева
Ubuntu 13.10 Install Fest
МИЭМ НИУ ВШЭ 2.11.2013

Секвенирование
Секвенирование – прочтение последовательности ДНК или РНК
http://commons.wikimedia.org
1

Проект “геном человека”
ht tp
:/
/w eb
.o rn l.g ov
/s ci
/t ec hr es ou rc es
/H
um an
_G
en om e/
in de x.
sh tm l

3,5 миллиарда нуклеотидов

13 лет

3 миллиарда долларов
Цели проекта:

Все гены

Полный геном

Базы данных

Новые инструменты

Передача технологий

Разработка этических , правовых и социальных аспектов
2

Высокопроизводительное секвенирование
1)Фрагментация
ДНК, пришивание адаптеров
2) Связывание фрагментов с подложкой
3-4) Добавление нуклеотидов, образование двойных цепочек
5)Денатурация
(разрыв двойных цепочек, отрыв одного конца от подложки)
6) Амплификация - многократное копирование фрагментов , образование кластеров
1 2
3 4
5 6
http://www.illumina.com/
3

Высокопроизводительное секвенирование
7-8) Добавление меченых нуклеотидов,
определение первого нуклеотида при помощи лазера
9-11) Чтение остальных нуклеотидов
12) Анализ данных
7 8
9 10 11 12
http://www.illumina.com/
4
Illumina HiSeq 2000:

Две недели

600 миллиардов нуклеотидов

17 геномов человека с покрытием 10х

25 тысяч долларов США

Высокопроизводительное секвенирование в мире в России
Пекинский институт геномики
(128 секвенаторов)
http://www.genomics.cn/en/index
Институт Сэнгера http://www.sanger.ac.uk/
http://www.broadinstitute.org/
http://www.jgi.doe.gov/
Лаборатория эволюционной геномики ФББ МГУ
http://evolgenomics.fbb.msu.ru/
ЦНИИ эпидемиологии
Роспотребнадзора http://www.pcr.ru/
http://genome.sfu-kras.ru/
Центр геномный исследований
НОЦ СФУ
ИОГЕН РАН, лаборатория эволюционной геномики http://vigg.ru/
5

Основные задачи обработки данных

Приём данных с секвенаторов

Первичная обработка данных

Сборка геномов и транскриптомов

Картирование

Аннотация

Выравнивание

Филогенетика

Сравнительная геномика

Популяционная генетика
6

Задача сборки генома
Исходная ДНК разрезается на фрагменты.
Фрагменты прочитываются с двух концов.
Схожие фрагменты объединяются в длинные строки. http://www.cbcb.umd.edu/research/assembly_primer.shtml
7

Алгоритм сборки генома

Фрагменты разбиваются на слова (k-mer)

Строится строковый граф

Удаляются дублирующие пути

На графе находится максимальный путь
Paul Flicek & Ewan Birney. Nature Methods 6
http://www.homolog.us
8

Аннотация генома – «разметка» генома
ГЕНОМ
Распознавание
генов
Поиск генов в
существующих
базах
Секвенирование
мРНК
Картирование
на геном
ОБЪЕДИНЕННАЯ АННОТАЦИЯ
Genome Browser выделение последовательностей белок-кодирующих генов и РНК
9

Собранный и аннотированный геном
10

Потоки данных
Illumina HiSeq2000
Illumina MiSeq
Центр обработки данных
Лаборатория
эволюционной
геномики ФББ
МГУ
Пользователи:
(более 50)
УНЦ
Биоинформатика
Лаборатория
биоинформатики
ФББ МГУ
11

Вычислительный кластер
Особенности:

Много ядер

Мало оперативной памяти

Небольшое хранилище
хранилище
С Е Р В Е Р Ы
Предназначен для решения задач:

Вычислительной гидродинамики

Квантовой химии

Физики высоких энергий
12

Центр обработки данных
Количество серверов сопоставимо с количеством хранилищ
хранилище
хранилище
хранилище
сервер
сервер
сервер
сервер
Switch
13

Схема ЦОД лаборатории эволюционной геномики ФББ МГУ
Управляющий узел 2шт
Узел с большой памятью
48 ядер 512 ГБ
Расчетные узлы сети хранения
24 ядра 48 ГБ
10шт
Расчетные узлы
24 ядра 48 ГБ
20шт
Сеть хранения данных
Хранилище 144 ТБ
Хранилище 144 ТБ
Хранилище 144 ТБ
Сеть обмена данными
Сервер данных
Сервер данных
Сервер мета данных
Графические процессоры 2 шт
Вычислительная сеть
Служебная сеть
14

Программное обеспечение

Управление ресурсами (очередь задач) – torque

Мониторинг – nagios

Управление конфигурациями – puppet

Файловые системы (XFS, lustre)

OS – Enterprise Linux (Scientific
Linux)

Биоинформатические пакеты
16

Биоинформатические пакеты

Velvet

Soapdenovo

Platanus

GATK

MUMmer

Clustal

R

Biopython

BioPerl

PHYLYP

SHRiMP

STAR

Agalma

Bambus

Bamtools

Blast

Blat

RAxML

MCScanX

Python

Pal2nal

AdapterRemoval

MCScanX

HaploMerger

Paml

Mrbayes

geneid

bowtie

HaploMerger

Megan

Cuda

Orthomcl

Jellyfish

Cegma

Annovar

Abyss

AdapterRemoval

Statistics-Descriptive

beagle-lib

libsequence

BaseSpaceSHREC

wise

RepeatMasker

И др
17

NFS Сервер
18

Сеть хранения данных
19

Результаты тестов чтения/записи для файловых систем NFS, OCFS2, GFS2
20

Распределенная файловая система Lustre
21

Сравнение производительности файловых систем Lustre и NFS
22

Распределение дисковых ресурсов по проектам
23

Выводы

Высокопроизводительное секвенирование – ключевая технология для современной биологии и медицины

Для обработки геномных данных необходимы соответствующие вычислительные мощности

Оптимизация потоков данных критична для работы ЦОД

Сочетание распределенной файловой системы
Lustre и инфраструктуры Fiber Channel является оптимальным решением для ЦОД
24

Document Outline

  • Оптимизация потоков данных в центре обработки геномных данных
  • Секвенирование
  • Проект геном человека
  • Высокопроизводительное секвенирование
  • Slide 5
  • Высокопроизводительное секвенирование
  • Основные задачи обработки данных
  • Задача сборки генома
  • Алгоритм сборки генома
  • Аннотация генома – «разметка» генома
  • Собранный и аннотированный геном
  • Потоки данных
  • Slide 13
  • Slide 14
  • Slide 15
  • Программное обеспечение
  • Биоинформатические пакеты
  • Slide 18
  • Slide 19
  • Slide 20
  • Распределенная файловая система Lustre
  • Сравнение производительности файловых систем Lustre и NFS
  • Распределение дисковых ресурсов по проектам
  • Выводы

Каталог: pub -> nixp -> conf
pub -> Самообследование гоу сош «Школа надомного обучения» №196 по направлениям деятельности. Общие вопросы
pub -> Занятие для математического кружка. Задачи работы
pub -> Доклад муниципальное образовательное
pub -> Публичный доклад. 2013 год Общая характеристика образовательного учреждения. Место расположения
pub -> Публичный доклад муниципального общеобразовательного учреждения средней общеобразовательной школы №13
conf -> Mandriva  2010 г. Mandriva получила инвестиции от фонда ngi и перешла под контроль русских людей


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал