Сделать стартовой  |  Добавить в избранное  |  RSS 2.0  |  Информация авторамВерсия для смартфонов
           Telegram канал ОКО ПЛАНЕТЫ                Регистрация  |  Технические вопросы  |  Помощь  |  Статистика  |  Обратная связь
ОКО ПЛАНЕТЫ
Поиск по сайту:
Авиабилеты и отели
Регистрация на сайте
Авторизация

 
 
 
 
  Напомнить пароль?



Клеточные концентраты растений от производителя по лучшей цене


Навигация

Реклама

Важные темы


Анализ системной информации

» » » Шокирующий отчет Apollo Research показал темную сторону ИИ

Шокирующий отчет Apollo Research показал темную сторону ИИ


Сегодня, 14:06 | Политика / Размышления о политике | разместил: Око Политика | комментариев: (0) | просмотров: (563)
ai_robot.webp


Большие языковые модели (также называемые LLM) уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.

К сожалению, заголовок - не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.



О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Только что опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)

Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей. Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Отчет Apollo Research показал, что этот поезд уже ушел.

- Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.

- И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).

Получается, уже приехали…


Обсуждаем околополитические темы на моем канале "Гражданин на диване", а интересную и познавательную информацию читаем на канале "Таблетка для головы". Есть у меня еще канал с юморными ситуациями для настроения "Вот так бывает", подписывайтесь. Кстати, у кого есть доступ до ТикТока подключайтесь к моему политическому каналу - @masterpolit



Источник: masterok.livejournal.com.

Рейтинг публикации:

Нравится6



Комментарии (0) | Распечатать

Добавить новость в:


 

 
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Чтобы писать комментарии Вам необходимо зарегистрироваться либо войти на сайт под своим именем.





» Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации. Зарегистрируйтесь на портале чтобы оставлять комментарии
 


Новости по дням
«    Декабрь 2024    »
ПнВтСрЧтПтСбВс
 1
2345678
9101112131415
16171819202122
23242526272829
3031 

Погода
Яндекс.Погода


Реклама

Опрос
Ваше мнение: Покуда территориально нужно денацифицировать Украину?




Реклама

Облако тегов
Акция: Пропаганда России, Америка настоящая, Арктика и Антарктика, Блокчейн и криптовалюты, Воспитание, Высшие ценности страны, Геополитика, Импортозамещение, ИнфоФронт, Кипр и кризис Европы, Кризис Белоруссии, Кризис Британии Brexit, Кризис Европы, Кризис США, Кризис Турции, Кризис Украины, Любимая Россия, НАТО, Навальный, Новости Украины, Оружие России, Остров Крым, Правильные ленты, Россия, Сделано в России, Ситуация в Сирии, Ситуация вокруг Ирана, Скажем НЕТ Ура-пЭтриотам, Скажем НЕТ хомячей рЭволюции, Служение России, Солнце, Трагедия Фукусимы Япония, Хроника эпидемии, видео, коронавирус, новости, политика, спецоперация, сша, украина

Показать все теги
Реклама

Популярные
статьи



Реклама одной строкой

    Главная страница  |  Регистрация  |  Сотрудничество  |  Статистика  |  Обратная связь  |  Реклама  |  Помощь порталу
    ©2003-2020 ОКО ПЛАНЕТЫ

    Материалы предназначены только для ознакомления и обсуждения. Все права на публикации принадлежат их авторам и первоисточникам.
    Администрация сайта может не разделять мнения авторов и не несет ответственность за авторские материалы и перепечатку с других сайтов. Ресурс может содержать материалы 16+


    Map