Skip to main content

Разрешение повторов с помощью прямоугольных графов

Разрешение повторов с помощью прямоугольных графов

Хотя некоторая реализация подхода уже включена в поставку ассемблера SPAdes, мы, помимо этого, выпускаем алгоритм отдельным модулем, чтобы его можно было запускать независимо от нашего ассемблерa. Этот модуль немного отличается от текущей реализации подхода, используемой в ассемблере, но в будущем мы полностью интегрируем его в SPAdes.

Модуль можно запустить с другими геномными сборщиками при условии, что они поддерживают формат файлов для хранения графов, который используется в ассемблере SPAdes.

Подробности читайте в статье Николая Вяххи, Шона Фама и Павла Певзнера From de Bruijn Graphs to Rectangle Graphs for Genome Assembly (Lecture Notes in Bioinformatics 7534 (2012), pp. 249-261.)

По вопросам обращайтесь к Николаю Вяххи.

Системные требования: Питон версии 2.7 (работу на 2.5 и 2.6 не гарантируем, но скорее всего сработает)

Использование:

  1. Запустите SPAdes в отладочном режиме (spades.py --debug) — это сгенерирует дополнительную директорию с необходимыми данными
  2. Запустите модуль разрешения повторов по графу прямоугольников: python rrr.py -s project_name/saves [options] [-o out_dir=out]
  3. Контиги и логи будут в директории out_dir

Все опции скрипта rrr.py:

  -h, --help       показывает это сообщение
  -s SAVES_DIR     директория для сохранения of directory with saves
  -g GENOME        файл с геномом (опционально)
  -o OUT_DIR       директория для вывода, по умолчанию out
  -d DEBUG_LOGGER  файл для отладочного лога (опционально)
  --sc             данные получены из одной клетки (single-cell) (optional)