Увеличивающийся объем генетических данных стал проблемой для науки

Большие объёмы данных требуют уникального подхода к их хранению и обработке
(иллюстрация Wikimedia Commons).

Команда биологов и программистов подсчитала, что вычислительные ресурсы, необходимые для обработки генетических данных, в скором времени побьют рекорды Twitter и YouTube. Учёные утверждают, что справляться с таким огромным потоком постоянно поступающей информации будет всё сложнее.

Феномен, вероятно, связан с тем, что расходы на секвенирование геномов — как финансовые, так и любые другие — постепенно снижаются. Процесс занимает всё меньше времени, да и стоимость расшифровки генетической информации уменьшается с каждым годом.

К 2025 году генетики будут располагать данными о геномах от 100 миллионов до 2 миллиардов человек. Об этом заявляют авторы исследования, которые представили свой отчёт в журнале PLoS Biology. Для хранения подобного объёма данных необходимо от 2 до 40 эксабайт места.

Генетики напоминают, что объём данных, требуемый для хранения информации об одном геноме, в 30 раз превышает размер самого генома.

Авторы исследования пришли к выводу, что по этому параметру собираемая генетическая информация превышает прогнозируемые ежегодные требования для хранения данных на портале YouTube, которому потребуется 1-2 эксабайта к 2025 году. Большие данные геномики в скором времени также побьют рекорд Square Kilometre Array — крупнейшего астрономического проекта современности.

Тут стоит отметить, что места хранения данных — лишь часть проблемы, поскольку вычислительные требования для получения, распространения и анализа полученной информации будут ещё выше.

"Чтобы справиться с объёмом данных и скоростью анализа, которые будут необходимы в самое ближайшее время, потребуется настоящая революция в информатике", — утверждает соавтор исследования Джин Робинсон (Gene Robinson) из Университета Иллинойса.

По мнению информатика Нараяна Десаи (Narayan Desai), проблема заключается ещё и в том, что хранение и пользование данными в области геномики крайне децентрализовано. Другие ресурсоёмкие дисциплины, такие как физика высоких энергий, требуют координации и консенсуса для разработки инструментов сбора данных, и потому вся информация хранится в одном месте.

"Однако наборы данных в области геномики можно назвать раздробленными, даже несмотря на все попытки установить центр хранения всей информации в облаке", — говорит Десаи.

Астрономы и физики обрабатывают большое количество данных, однако по завершении расчётов и изысканий удаляют большую часть изначально полученной информации. Это упрощает более поздние стадии работы, такие как распределение и анализ. Геномика же пока не имеет стандартов для преобразования необработанных данных в последовательности обработанных данных.

Все учёные, которые принимали участие в исследовании, и эксперты, ознакомившиеся с результатами их трудов, убеждены, что проблема действительно серьёзная и требует немедленного разрешения. Придумать простое и элегантное решение требуется в самые ближайшие годы, поскольку объём данных растёт в геометрической прогрессии, отмечают исследователи.