Новое программное обеспечение разработанное в Национальной детской больницы в Огайо, может взять необработанные данные о последовательности человеческого гена и найти в нем вызывающие болезнетворные изменения в течение нескольких часов. Создатели программы утверждают, что их творение на данный момент является самым быстрым аналитическим программным обеспечением генома. Они также считают, что теперь стало возможным выполнить крупномасштабный анализ у всего населения.
Учитывая тот факт что, первая попытка упорядочить геном человека заняло 13 лет и стоило 3 миллиарда долларов США, старший автор Питер Вайт (Peter White) отмечает, что теперь «даже самые малочисленные исследовательские группы могут закончить геномное упорядочивание в течение нескольких дней». Проблема заключается в следующем шаге: калибровка и анализ миллиардов генерируемых точек данных генетических вариантов, которые могут служить ответом о заболевании.
Питер Вайт и его команда занялись проблемой, автоматизировав аналитический процесс в «вычислительный конвейер», который они назвали Черчиллем (Churchill). Черчилль распространяет каждый аналитический шаг через многократные вычислительные случаи – процесс, который его создатели называют — сбалансированное региональное распараллеливание – взятое с особой тщательностью, чтобы сохранить целостность данных так чтобы результаты были «на 100 процентов воспроизводимы».
Тесты показали, что Черчилль может проанализировать целую последовательность генома всего за 90 минут. Производительность Черчилля была подтверждена противопоставляя точность получаемых данных из Национального института стандартов и технологий, с результатом в 99.7 процентов на чувствительность, 99.99 процентов на точность и 99.66 процентов на эффективность в диагностики.
В то время как цель исследования состояла в том чтобы создать ультра-быстрый анализ, Питер Вайт и его команда обнаружили неожиданный эффект. Черчилль эффективно делает измерение используя множество серверов, что позволяет выполнить анализ в масштабе всего населения.
Они взяли исходные данные из Проекта «1000 геномов» – международный проект стартовавший в 2008 году, с целью собрать обширный общественный каталог человеческой наследственной изменчивости по всему миру – и поместили все 1088 целых образцах генома в Черчилль, при этом они использовали вычислительные мощности группы компьютеров из веб-сервиса Amazon, все действия которого выполнялись в «Облаке». Черчилль в своем недельном анализе вычислял каждый геном человека за девять минут, что быстрее в сравнении с подобным анализом выполненным в 2013 на суперкомпьютере Cray XE6.
Похожие страницы: Инфографика: Россия решила построить первый в мире банк ДНК
Суперкомпьютерный тест Cray XE6 проанализировавший 61 целых генома за два дня, в среднем это делал за 50 минут вычисляя один геном человека – это приблизительно в пять раз дольше, чем Черчилль это делал через серию серверов в «Облаке».
«Учитывая, что ведутся масштабные геномные исследования, мы считаем, что Черчилль может быть оптимальным решением чтобы заняться проблемами анализа данных, которые представляют собой эти исследования», считает Peter White.
Алгоритм Черчилля был лицензирован компанией под названием GenomeNext, которая адаптировала технологию для использования в коммерческих целях. Люди смогут упорядочить свой геном в местной лаборатории или клинике и затем загрузить исходные данные в систему GenomeNext для анализа.
Работа описывающая алгоритмы Черчилля и исследование, была опубликована в журнале Genome Biology. Программное обеспечение Черчилля также доступно, в целях исследования, но только через его страницу Проекта: www.churchill.nchri.org.