| Лаборатория алгоритмической биологии

Павел Певзнер прочёл первую лекцию для курса «Алгоритмы в биоинформатике» на «Курсере»

В Санкт-Петербурге Павел Певзнер провел перую лекцию по «Алгоритмам в биоинформатике» для «Курсеры».

Лекции будут посвящены алгоритмам решения фундаментальных задач биоинформатики: сборка геномов, сравнение ДНК и белковых последовательностей, поиск генов и консервативных мотивов, анализ экспресии генов, построение эволюционных деревьев и анализ перестановок, идентификация белков.

Авторы курса — заведующий Лабораторией Павел Певзнер, Филипп Компо и автор проекта «Розалинд» Николай Вяххи.

Источник — @bioinforussia.

English

Презентации летних практик стажеров лаборатории

В пятницу 6 сентября стажёры лаборатории представили свои проекты.

Артем Тарасов рассказал про улучшение сборки с помощью референса:

Петр Иванов — про использование химерных ридов для сборки генома:

Виталий Демьянюк — про секвенирование антител из масс-спектров:

English

Летняя школа биоинформатики

В начале августа в Москве прошла летняя школа Института биоинформатики.

Школа была посвящена анализу геномов и транскриптомов, анализу данных NGS, эпигенетике, сравнительной геномика, молекулярной эволюции. Студенты были разделены на две группы — биологов и информатиков; для первых проводились интенсивные курсы по программированию; для вторых — по молекулярной биологии и биотехнологиям.

биологи и информатики

В программный комитет вошли сотрудники лаборатории Алла Лапидус, Павел Певзнер, Андрей Пржибельский. Кроме того, читали лекции и проводили занятия Сергей Нурк, Алексей Гуревич, Антон Коробейников, а также Алла Лапидус и Андрей Пржибельский.

English

Конференция и школа в Новосибирске

С 21 по 25 июля 2013 г. в Новосибирске проводилась конференция по высокопроизводительному секвенированию. В качестве приглашённых докладчиков выступили сотрудники лаборатории Алла Лапидус и Андрей Пржибельский: Алла рассказала про роль надежных эталонных последовательностей при сборке и финальной доработке геномов; Андрей — про развитие алгоритмов черновой сборки начиная с зарождения области.

Кроме того, прямо перед конференцией прошла научно-практическая школа геномного секвенирования и анализа данных. Алла Лапидус рассказала участникам школы про применение новых сиквенсных технологий на практике; Андрей Пржибельский объяснил, как просто собрать геном за полчаса.

English

Выпущен SPAdes 2.5 с поддержкой нескольких библиотек парных ридов

Версия 2.5 геномного ассемблера SPAdes вышла в свет.

Новая версия поддерживает множество библиотек парных ридов (paired-end и mate-pair). С помощью коммандной строки можно указать до 5 библиотек каждого типа (помимо библиотек непарных ридов). Если у вас имеется большее число библиотек, напишите нам, пожалуйста.

Мы также изменили стратегию разрешения повторов, что уменьшило число неверно определённых нуклеотидов и вставок-удалений.

Новую версию ассемблера можно скачать здесь.

English

Вышел QUAST 2.2

Инструмент для измерения качества геномных сборок QUAST теперь приспособлен для оценки метагеномных сборок. Программе можно передать несколько референсных геномов, на выходе будет набор таблиц со статистиками:
1. для всех контигов с учетом выравнивания на склеенный из всех референсов геном (при этом отдельно считаются как translocations ошибочные контиги, собранные из кусков разных геномов);
2. для контигов, хотя бы частично покрывающих один из переданных геномов — по таблице на каждый референс;
3. отдельно для контигов, не выровнявшихся ни на один геном.

Использование:

metaquast.py contigs_1 contigs_2 ... -R reference_1,reference_2,reference_3,...

Все остальные опции для скрипта metaquast.py те же, что для quast.py.

Для поиска генов теперь используется MetaGeneMark (и в quast.py только с опцией --meta, в metaquast.py по умолчанию).

Кроме того, появилась опция --labels (or -l) для присвоения сборкам удобных названий. Названия используются в таблицах, графиках и логах. Примеры:

-l SPAdes,IDBA-UD

-l SPAdes,"Assembly 2",Assembly3

-l "SPAdes 2.5, SPAdes 2.4, IDBA-UD"

Ещё одно изменение: вместо --allow-ambiguity теперь используется опция --ambiguity-usage (-a). Она позволяет указать способ учета неоднозначно выровненных контигов: -a one, -a all или -a none.

Также исправлен баг в определении мисассемблов.

Скачать QUAST 2.2.

English

Биоинформатический семинар в Репино

С 31 мая по 2 июня в Репино прошел совместный выездной семинар сотрудников Центра геномной биоинформатики им. Ф. Г. Добржанского СПбГУ и Лаборатории алгоритмической биологии Санкт-Петербургского Академического университета РАН. Молодые ученые под руководством профессора О’Брайна обсуждали текущие проекты, обменивались опытом и строили планы дальнейшей совместной работы. В работе семинара приняли также участие сотрудники других лабораторий СПбГУ, заинтересованные в расширении своих познаний в биоинформатике и установлении контактов со специалистами.

English

Paper of McLean JS et al. P. gingivalis assembly using SPAdes was recognized as the top research paper by F1000

Faculty 1000 recognized “Genome of the pathogen Porphyromonas gingivalis recovered from a biofilm in a hospital sink using a high-throughput single-cell genomics platform” as the top research paper by F1000. Authors used SPAdes to perform single-cell assembly.

The paper was recommended as being of special significance in its field by our Faculty Member Edward Feil. You can read Dr Feil's recommendation at http://f1000.com/prime/718011804?subscriptioncode=c3554e8b-dea8-45c0-bc5.... It requires a subscription to F1000Prime, but it's posible to activate a 3-month subscription to the site via the link.

Assembling Long Illumina Paired-End Reads (2x150 and 2x250) with SPAdes

Submitted by akorobeynikov on 6 Май 2013, Mon, 17:46

Introduction

Recent advances in DNA sequencing technology led to rapid increase of a read length. Nowadays it is a common situation to have a dataset consisting of 2x150 or 2x250 paired-end reads produced by Illumina MiSeq or HiSeq2500. However, the use of longer reads alone will not automatically improve assembly quality. Proper assembler that can make use of all their advantages is needed.

As far as SPAdes uses iterative k-mer length, it allows to benefit from the full potential of the long paired-end reads. Currently one has to set the assembler options up manually but we plan to incorporate automatic calculation of necessary options soon.

Please note that not only the read length matters, but insert length does matter a lot. It is suboptimal to sequence 300bp fragment into a pair of 250bp reads. We suggest using 350-500 bp fragments with 2x150 reads and 550-700 bp fragments with 2x250 reads.

Multi-cell dataset with read length 2 x 150

General rules

Make sure your reads are corrected prior to assembly with Quake (recommended), or BayesHammer (integrated into SPAdes pipeline).
The default selection of k-mer lengths is 21, 33, 55 and might work well. If you have enough coverage (50x+), then you may want to try to set k-mer lengths of 21, 33, 55, 77.
Make sure you run assembler in a ‘Careful’ mode to minimize number of mismatches in the final contigs (you can try non-careful mode as well, it might work well with respect to mismatch rate since SPAdes 2.5).
We recommend you to check the SPAdes log file at the end of the each iteration to control the average coverage of the contigs.

spades.py command line

For reads corrected prior to assembly run: spades.py -k 21,33,55,77 --careful --only-assembler <your reads>
For non-corrected reads run: spades.py -k 21,33,55,77 --careful <your reads>

Multi-cell dataset with read lengths 2 x 250

General rules

Make sure your reads are corrected prior to assembly with Quake (recommended), or BayesHammer (integrated into SPAdes pipeline).

By default we suggest to increase k-mer lengths in increments of 22 until the k-mer length reaches 127. The exact length of the k-mer depends on the coverage: k-mer length of 127 corresponds to 50x k-mer coverage and higher.
Make sure you run assembler in ‘Careful’ mode to minimize number of mismatches in the final contigs (you can try non-careful mode as well, it might work well with respect to mismatch rate since SPAdes 2.5).

We recommend you to check the SPAdes log file at the end of the each iteration to control the average coverage of the contigs.

spades.py command line

For reads corrected prior to assembly run: spades.py -k 21,33,55,77,99,127 --careful --only-assembler <your reads>
For non-corrected reads run: spades.py -k 21,33,55,77,99,127 --careful <your reads>

Single-cell dataset with read lengths 2 x 150 or 2 x 250

The default options are recommended.
However, it might be tricky to fully utilize the advantages of long reads you have. Consider contacting us for more information & discussions of assembling strategy

Union-Tribune spotlights the P. gingivalis paper

Submitted by kira on 14 Apr 2013, Sun, 23:04

The San Diego Union-Tribune published an article on the P. gingivalis paper (McLean et al., 2013). Congratulations go to Sergey Nurk who significantly contributed to and co-authored this work!