Увеличивающийся объем генетических данных стал проблемой для науки
Большие объёмы данных требуют уникального подхода к их хранению и обработке (иллюстрация Wikimedia Commons).
Команда биологов и программистов подсчитала, что вычислительные ресурсы, необходимые для обработки генетических данных, в скором времени побьют рекорды Twitter и YouTube. Учёные утверждают, что справляться с таким огромным потоком постоянно поступающей информации будет всё сложнее.
Феномен, вероятно, связан с тем, что расходы на секвенирование геномов — как финансовые, так и любые другие — постепенно снижаются. Процесс занимает всё меньше времени, да и стоимость расшифровки генетической информации уменьшается с каждым годом.
К 2025 году генетики будут располагать данными о геномах от 100 миллионов до 2 миллиардов человек. Об этом заявляют авторы исследования, которые представили свой отчёт в журнале PLoS Biology. Для хранения подобного объёма данных необходимо от 2 до 40 эксабайт места.
Генетики напоминают, что объём данных, требуемый для хранения информации об одном геноме, в 30 раз превышает размер самого генома.
Авторы исследования пришли к выводу, что по этому параметру собираемая генетическая информация превышает прогнозируемые ежегодные требования для хранения данных на портале YouTube, которому потребуется 1-2 эксабайта к 2025 году. Большие данные геномики в скором времени также побьют рекорд Square Kilometre Array — крупнейшего астрономического проекта современности.
Тут стоит отметить, что места хранения данных — лишь часть проблемы, поскольку вычислительные требования для получения, распространения и анализа полученной информации будут ещё выше.
"Чтобы справиться с объёмом данных и скоростью анализа, которые будут необходимы в самое ближайшее время, потребуется настоящая революция в информатике", — утверждает соавтор исследования Джин Робинсон (Gene Robinson) из Университета Иллинойса.
По мнению информатика Нараяна Десаи (Narayan Desai), проблема заключается ещё и в том, что хранение и пользование данными в области геномики крайне децентрализовано. Другие ресурсоёмкие дисциплины, такие как физика высоких энергий, требуют координации и консенсуса для разработки инструментов сбора данных, и потому вся информация хранится в одном месте.
"Однако наборы данных в области геномики можно назвать раздробленными, даже несмотря на все попытки установить центр хранения всей информации в облаке", — говорит Десаи.
Астрономы и физики обрабатывают большое количество данных, однако по завершении расчётов и изысканий удаляют большую часть изначально полученной информации. Это упрощает более поздние стадии работы, такие как распределение и анализ. Геномика же пока не имеет стандартов для преобразования необработанных данных в последовательности обработанных данных.
Все учёные, которые принимали участие в исследовании, и эксперты, ознакомившиеся с результатами их трудов, убеждены, что проблема действительно серьёзная и требует немедленного разрешения. Придумать простое и элегантное решение требуется в самые ближайшие годы, поскольку объём данных растёт в геометрической прогрессии, отмечают исследователи. Источник: vesti.ru.
Рейтинг публикации:
|
Статус: |
Группа: Посетители
публикаций 0
комментариев 800
Рейтинг поста:
А что обрабатывать информацию не моут без компьютера - значит. тупеем. Мне бы очень хотелось увидеть список реальных и полезных (овечка Долли не в счет - любая овцы ее родить может) достижений генетиков за последние полвека. Компьютерных полвека, замечу.
Тогда есть смысл что-то обсуждать - если результат есть...