ОКО ПЛАНЕТЫ > Размышления о политике > Роботы умнеют. Сора научилась генерировать правдоподобное видео по запросу

Роботы умнеют. Сора научилась генерировать правдоподобное видео по запросу

18-02-2024, 10:11. Разместил: Око Политика

Зловещая корпорация ОпенАИ предъявила миру очередное технологическое чудо: генерацию правдоподобного видео по запросу. Система называется Сора, «небо» по-японски. Загружаешь сценарий и получаешь ролик кинематографического качества, вот как будто кто-то вышел с камерой на улицу и нажал кнопку «запись». Если ставить на паузу и разглядывать детали с лупой на большом мониторе, редкие артефакты заметить можно, однако обычный зритель видеозапись от реальной не отличит. Вот презентация от ОпенАИ — она на английском, но почти сразу начинаются примеры сгенерированного видео (ссылка):

Также короткие видео можно посмотреть вот здесь (ссылка). Это невероятный скачок вперёд по сравнению с тем, что мы видели ещё пару недель назад. Примерно как от паровоза до автомобиля, если брать аналогии из прошлых эпох.

Формально первый автомобиль появился ещё в год рождения Наполеона, в 1769, когда француз Никола-Жозеф Кюньо прикрутил паровой двигатель на телегу, вынудив её двигаться со скоростью вальяжного пешехода (ссылка). Тогда самоходные телеги оказались невостребованными из-за своего технического несовершенства — вначале как следует развились паровозы, и только потом транспорт съехал с рельс на асфальт. Настоящие автомобили, похожие на современные, разработали примерно через 100 лет после опытов француза-первопроходца.

В генерации видео аналогичный прогресс прошёл не за век, а всего лишь за несколько лет. Ещё недавно компьютер не умел делать ничего внятного, даже картинок. В 2022 году компьютер научился генерировать удовлетворительные статичные изображения, в 2023 — генерировать рисунки и фотографии хорошего (но ещё не идеального) качества. С видео не складывалось: в 2023 году вершиной достижений были едва шевелящиеся картинки. Переходите по ссылке осторожно — как вы сможете догадаться, в мотивационном перечне энтузиастов новой технологии похоть занимала не последнее место (видео).

В 2023, повторюсь, нормально генерировались ещё не движущиеся, но уже слегка шевелящиеся картинки. При попытке создать что-то более динамичное получался видеоряд для фильмов про наркоманов, с плывущими образами и мерцающим фоном. Вершина предыдущей ступени технологий выглядела примерно так (ссылка):

Как видите, паркет дрожит, одежда и черты лица меняются от кадра к кадру. Наблюдая вполглаза за этим эпилептическим буйством, я предполагал, что доводить технологию до ума будут долго — может быть, ещё 15-20 лет. Однако ОпенАИ сумел удивить меня второй раз — не до холодка в спине, как в случае с ЧатЖПТ, но всё же очень серьёзно. На презентации Соры мы видим настоящее кино — малоценное с художественной точки зрения, но уже до степени смешения похожее на кадры из реальной жизни.

Мне безразлично, как новая технология повлияет на наш мир — я полагаю, что изменения будут приятными, но косметическими. Даже видеовставки в играх не улучшатся, так как хорошая видеовставка всегда делается на родном движке, а не во внешних видеоредакторах: это важно, чтобы не нарушать погружение в игру, резко меняя стиль. Пожалуй, настоящий праздник придёт только на улицу пресыщенных любителей фривольных картинок, если вы понимаете, о чём я.

Вместе с тем, хоть я и смотрю на движущиеся картинки с тем же скепсисом, с которым я смотрел на модное «мультимедиа» в начале 1990-х, меня пугает кибермозг, который так быстро научился эти видеофайлы создавать. Судя по всему, развитие ИИ ещё не достигло своего пика и даже ещё не вышло на плато. Это значит, что в 2024, в 2025 или, может быть, в 2030 году нас может удивить уже не новая компьютерная забава, а появление искинов, которые будут неизмеримо умнее тех, которых мы наблюдаем сейчас.

Вернуться назад