Предотвращение катастрофы, связанной с ИИ
ИИ может принести человечеству очень много пользы — если мы избежим рисков
Почему судьбу мира определяют люди, а не шимпанзе?
Люди решают, как будет выглядеть каждый уголок нашей планеты. Шимпанзе, конечно, очень умные по сравнению с другими животными, но им такая власть недоступна.
(В общих чертах) такое положение дел вызвано интеллектом людей.1
Компании и правительства тратят на разработку ИИ-систем миллиарды долларов в год. Когда эти системы станут достаточно продвинутыми, люди (рано или поздно) могут перестать быть самыми разумными существами на планете. Как мы увидим, ИИ-системы развиваются. И быстро.
Сколько именно времени займёт создание искусственного интеллекта, который будет справляться с подавляющим большинством задач лучше человека, — предмет крайне оживлённых дискуссий. Но, судя по всему, появление такого ИИ возможно, и мы предполагаем, что оно случится в этом веке.
Согласие с тем, что в этом веке искусственный интеллект, возможно, превзойдёт человеческий, само по себе не влечёт за собой вывода, что искусственный интеллект — это очень важно или что он представляет собой угрозу для человечества. Ниже мы рассмотрим эти утверждения гораздо более подробно.
Однако, судя по всему, вполне можно сказать, что потенциальное появление на Земле в ближайшем будущем интеллекта, соперничающего с человеческим, — это как минимум повод задуматься.
Будут ли цели у систем, которые мы разрабатываем? И если да, то что это будут за цели?
Будут ли они помогать человечеству в его стремлении менять мир к лучшему? Или мы потеряем контроль над своим будущим, и фактически история человечества на этом завершится?
Если говорить честно, то мы не знаем.
Однако мы не можем просто скрестить пальцы и беспристрастно наблюдать. Искусственный интеллект действительно может радикально изменить всё. Поэтому работа над тем, как он будет развиваться, — возможно, самое значимое, что мы можем делать.
Краткое изложение
Мы ожидаем, что в ближайшие десятилетия произойдёт значительный прогресс в области искусственного интеллекта: возможно, машины даже превзойдут людей во многих — а возможно, даже во всех — задачах. Это может оказаться огромным благом — например, поможет справиться с глобальными проблемами, которые сейчас неразрешимы, но также несёт в себе серьёзные риски. Эти риски могут породить опасные последствия как случайно (например, если мы не сможем решить задачу безопасности систем ИИ) или в результате человеческих решений (например, если системы ИИ усугубят геополитический конфликт). Мы считаем, что для снижения этих рисков нужно проделать ещё большую работу.
Некоторые из рисков, которые несёт в себе развитый ИИ, могут оказаться экзистенциальными — то есть, они могут привести к исчезновению человечества или к тому, что человечество навсегда потеряет возможность управлять собственной судьбой.2 Ниже обсуждаются важные вопросы о том, как можно безопасно разработать и встроить в наше общество настолько стремительно развивающуюся революционную технологию. Удовлетворительных ответов на эти вопросы пока нет, а их важность очень сильно недооценивается, хотя, вероятно, ответы вполне можно найти. По нашим оценкам напрямую этими вопросами занимаются примерно 400 человек в мире.3 Таким образом, риск катастрофы, вызванной ИИ, вероятно, — самая критичная проблема в мире. И тем, кто может внести вклад в её решение, лучше всего заниматься именно этой задачей.
Перспективные направления работы над этой проблемой включают в себя технические исследования — как создавать безопасные системы ИИ, — стратегические исследования — какие именно риски может нести в себе ИИ, — и исследования в области регулирования — как корпорации и правительства могут снизить эти риски. Если будут выработаны стоящие способы регулирования, нам понадобятся люди, которые смогут их внедрить. Также можно принести много пользы на различных вспомогательных ролях: например, занимаясь операционной деятельностью, освещаяя проблему в СМИ, жертвуя деньги и многое другое. Некоторые варианты мы перечисляем ниже.
Наша оценка в целом
Рекомендация — наивысший приоритет
Мы считаем, что это одна из самых важных проблем в мире.
Масштаб
ИИ можно будет применить самыми разными способами, и потенциально он может принести очень много пользы. Однако нас сильно беспокоит возможность чрезвычайно плохих последствий, в особенности экзистенциальной катастрофы. У нас есть лишь очень приблизительные оценки и мы в них сильно сомневаемся, однако сейчас мы полагаем, что в ближайшие 100 лет риск экзистенциальной катастрофы, вызванной искусственным интеллектом, составляет примерно 10%. Дальнейшие исследования могут значительно изменить эту оценку: некоторые эксперты в области ИИ-рисков полагают, что эта вероятность меньше 0,5%, другие же — что она значительно выше 50%, и мы готовы изменить своё мнение в любую сторону. В целом, сейчас мы считаем, что развитие ИИ представляет собой самый значительный риск для долгосрочного процветания человечества, чем любая другая известная нам проблема.
Недооценённость
В 2020 году на снижение риска катастрофы от ИИ было потрачено 50 миллионов долларов. При этом на развитие способностей ИИ были потрачены миллиарды.4 Хотя мы видим, что эксперты по ИИ всё больше беспокоятся по этому поводу, по нашим оценкам над снижением вероятности экзистенциальной катастрофы, связанной с ИИ, работают лишь около 400 человек (90% доверительный интервал — от 200 до 1000).5 Из них, судя по всему, примерно три четверти работают над технической безопасностью ИИ, а остальные делятся между разработкой стратегий (и других вопросов регулирования) и популяризацией.6
Разрешимость
Снижение рисков катастрофы, связанной с ИИ, выглядит довольно сложной задачей. Но данная область только начинает развиваться, и в ней есть много направлений для дальнейших исследований. Поэтому мы считаем, что эта проблема относительно решаема, хотя и сильно неуверены в этом — как мы уже говорили, существуют очень разные оценки того, насколько реально сделать ИИ безопасным.
Проработанность профиля
Глубокая
Table of Contents
- 1
- 2 Краткое изложение
- 3 1. Многие эксперты по ИИ считают, что есть существенная вероятность появления ИИ, которое приведёт к плохим последствиям вплоть до исчезновения человечества
- 4 2. Мы развиваем ИИ чрезвычайно быстро
- 5 3. Ищущий власти ИИ может представлять для человечества экзистенциальную угрозу
- 5.1 Скорее всего, мы построим системы, способные строить сложные планы
- 5.2 Развитые планирующие системы легко могут оказаться опасно "незаалайненными"
- 5.3 Если системы ИИ лишат человечество возможности управлять своей судьбой, это будет экзистенциальной катастрофой
- 5.4 Несмотря на риск люди могут запустить системы ИИ при отсутствии алайнмента
- 6 Всё это звучит очень абстрактно. Как на самом деле может выглядеть экзистенциальная катастрофа, вызванная ИИ?
- 7 4. Даже если мы решим проблему поиска власти, есть и другие риски
- 8 Итак, насколько вероятна связанная с ИИ катастрофа?
- 9 5. Со всеми этими рисками можно работать
- 10 6. Эта работа чрезвычайно недооценена
- 11 Какие мы знаем лучшие аргументы в пользу того, что мы неправы?
- 12 Доводы против работы над рисками со стороны ИИ, на которые, как мы считаем, у нас есть весомые ответы
- 13 Что конкретно ты можешь сделать, чтобы помочь
- 13.1 Техническая безопасность ИИ
- 13.2 Регулирование и стратегии в отношении ИИ
- 13.3 Вспомогательные (и тем не менее очень важные) должности
- 13.4 Другие способы помочь
- 13.5 Хочешь индивидуальную консультацию о том, как начать работать над проблемой рисков со стороны ИИ?
- 13.6 Найди предложения о работе на нашей доске объявлений
- 14 Лучшие ресурсы, чтобы узнать больше
- 15 Благодарности
Примечание автора: В сущности в этом профиле мы пытаемся предсказать будущее одной из технологий, а это заведомо сложная задача. Кроме того, по вопросам рисков от ИИ существует гораздо меньше строгих исследований, чем по другим проблемам, о которых писали "80 000 часов" (таким как пандемии или изменение климата).7 Как уже упоминалось, я пытаюсь описать предмет растущей области исследований. При написании этой статьи я в первую очередь основывался на предварительном докладе Джозефа Карлсмита из Open Philanthropy, который оказался самым детальным обзором по этой теме из всех, что я смог найти. Также эту статью проверили больше 30 человек — с разной специализацией и разными мнениями по данной теме. (Почти всех из них беспокоит потенциальное воздействие продвинутого ИИ на мир.)
Если вы хотите дать какую-либо обратную связь по поводу этой статьи — например, если вы заметили какие-то технические детали, в которых мы ошиблись, или вы считаете, что какие-то формулировки можно было бы улучшить, или даже если вам просто понравилась или не понравилась эта статья — мы будем рады, если вы сообщите нам, что вы думаете, с помощью этой формы.
Почему мы считаем, что снижение рисков от ИИ — одна из важнейших задач нашего времени? Если вкратце, у нас есть следующие причины:
Даже не вдаваясь в непосредственную аргументацию, можно заметить некоторые причины для беспокойства: многие эксперты по ИИ считают, что есть малая, однако существенная, вероятность, что появление ИИ приведёт к плохим последствиям вплоть до исчезновения человечества.
Мы развиваем ИИ чрезвычайно быстро, и это означает, что системы ИИ смогут значительно влиять на общество и это случится очень скоро.
Есть сильные доводы в пользу того, что "ищущий власти" ИИ может представлять экзистенциальную угрозу для человечества8 , которые мы рассмотрим ниже.
Если мы даже решим проблему поиска власти, есть и другие риски.
Мы считаем, что со всеми этими рисками можно работать.
Мы по очереди разберём каждый из этих пунктов, затем рассмотрим лучшие из контраргументов, расскажем, чем конкретно вы можете помочь, и в конце перечислим некоторые из лучших ресурсов, где вы можете узнать больше об этой области.
1. Многие эксперты по ИИ считают, что есть существенная вероятность появления ИИ, которое приведёт к плохим последствиям вплоть до исчезновения человечества
Если ты считаешь, что некая новая технология станет очень опасной (и возможно даже приведёт к исчезновению человечества), но все, кто реально работают над этой технологией, думают, что твои опасения беспочвенны, то, вероятно, ты что-то упускаешь.
Поэтому перед тем, как переходить к аргументам по поводу рисков от ИИ, давай посмотрим, что думают эксперты.
Мы изучили три опроса исследователей ИИ, работы которых публиковались в тезисах конференций NeurIPS и ICML (две самые престижные конференции, посвящённые машинному обучению). Опросы проводились в 2016, 2019 и 2022 годах.9
Важно помнить, что в подобных опросах может быть значительная ошибка выборки. Например, не исключено, что исследователи, участвующие в престижнейших конференциях по ИИ, более оптимистичны по отношению к ИИ, поскольку они привыкли считать, что исследования ИИ — это полезное дело. Или наоборот, возможно, исследователи, у которых есть опасения по поводу ИИ, более склонны участвовать в подобных опросах.10
Тем не менее, вот что мы обнаружили:
Во всех трёх опросах по мнению медианного исследователя вероятность того, что последствия появления ИИ окажутся "чрезвычайно хорошими", довольно высока: 20% в опросе 2016 года, 20% в опросе 2019 года, и 10% — в опросе 2020 года.11
И в самом деле ИИ уже приносят значительную пользу: например, при уходе за больными или в научных исследованиях.
Однако также во всех трёх опросах медианный исследователь считал, что существует небольшая, но тем не менее существенная вероятность того, что последствия появления ИИ окажутся "чрезвычайно плохими (например, исчезновение человечества)": в 2016 году такая вероятность оценивалась в 5%, в 2019 — в 2%, в 2022 — в 5%.12 13
В опросе 2022 года участникам задали отдельный вопрос про вероятность экзистенциальной катастрофы, вызванной будущим прогрессом в области ИИ. И снова больше половины исследователей считали, что эта вероятность больше 5%.14
Итак, эксперты расходятся в оценках того, насколько ИИ представляет собой экзистенциальный риск — вид угрозы, которая, как мы утверждаем, чрезвычайно важна с этической точки зрения.
Это соотносится с нашими представлениями о текущем прогрессе в области исследования ИИ. В DeepMind и OpenAI — ведущих лабораториях по разработке ИИ — также есть команды, задача которых понять, как решить вопросы безопасности, которые, как мы считаем по причинам изложенным ниже, ведут к экзистенциальной угрозе для человечества.15
Есть и другие научные исследовательские группы (например, в МТИ, Оксфорде, Кембридже, университете Карнеги — Меллона и Калифорнийском университете в Беркли), которые занимаются теми же проблемами технической безопасности ИИ.16
Сложно точно понять, какой отсюда следует сделать вывод, однако, с нашей точки зрения, это показывает, что мнение о том, что есть существенный риск плохого исхода вплоть до экзистенциальной катастрофы, не является маргинальным среди специалистов по данному вопросу.
Тем не менее, остаётся вопрос: почему мы согласны именно с теми, кто обеспокоен больше? Если вкратце, то потому что существуют аргументы в пользу того, что ИИ действительно может представлять собой экзистенциальную угрозу, и мы считаем их убедительными. Эти аргументы мы подробно разберём далее.
Важно понимать, что даже если многие эксперты признают существование некоторой проблемы, то это ещё не означает, что всё в порядке и у них всё под контролем. В целом мы считаем, что эта проблема чрезвычайно недооценена: непосредственно над ней работают всего лишь примерно 300 человек в мире (более подробно читайте далее).
И в то же время на развитие ИИ ежегодно тратятся миллиарды долларов.17 文
2. Мы развиваем ИИ чрезвычайно быстро
"Кот, одетый как программист", созданный Craiyon (в прошлом DALL-E mini) (слева) и DALL-E 2 от OpenAI (справа). DALL-E mini выпущена в январе 2021 года и использует модель в 27 раз меньше, чем DALL-E 1 от OpenAI. DALL-E 2 выпущена в апреле 2022 года.
Прежде чем мы попытаемся разобраться, как может выглядеть будущее ИИ, полезно посмотреть: а что ИИ уже умеет?
В число современных технологий ИИ входит "машинное обучение" (ML), которое основано на том, что модели автоматически улучшаются за счёт входных данных. Наиболее популярная сейчас форма машинного обучения известна как глубокое обучение.
Сегодня ML-системы могут выполнять лишь очень малую долю задач, которые способны решать люди. И почти у всех из них очень узкая специализация (например, играть в одну конкретную игру или создавать конкретный тип картинок).
Тем не менее, после массового распространения глубокого обучения в середине 2010-х ML-системы научились очень-очень многому. Вот краткий перечень лишь некоторых достижений, которые мы увидели начиная с 2019 года:
AlphaStar, обыгравшая лучших профессиональных игроков в StarCraft II (январь 2019)
MuZero, единая система, которая научилась выигрывать в шахматы, сёги и го — хотя ей даже не объясняли правила (ноябрь 2019)
GPT-3, модель естественного языка, создающая высококачественный текст (май 2020)
GPT-f, решающая некоторые задачи математических олимпиад (сентябрь 2020)
AlphaFold 2, огромный шаг вперёд в решении очень давней задачи фолдинга белка (июль 2021)
Codex, создающий программный код на основе команд на естественном языке (август 2021)
PaLM, языковая модель, продемонстрировавшая впечатляющие способности рассуждать о причинах и следствиях, а также объяснять шутки (апрель 2022)
DALL-E 2 (апрель 2022) и Imagen (май 2022), две модели, способные создавать высококачественные изображения на основе словесного описания
SayCan, управляющая роботом на основе команд на естественном языке (апрель 2022)
Gato, единая ML-модель, способная выполнять множество разных задач (например, играть в Атари, давать названия картинкам, общаться в чатах и складывать блоки с помощью реальной роботизированной руки) — решение о том, что именно нужно дать на выход, она принимает на основе контекста (май 2022)
Minerva способна решать сложные математические задачи. Она неплохо справляется на уровне колледжа и ещё лучше на уровне математических соревнований для старшеклассников. (Minerva оказалась гораздо более успешной, чем предсказывали прогнозисты в 2021 году.)
Если вы чем-то похожи на нас, вас тоже удивила сложность и разнообразность задач, которые решают эти системы.
И если технологии и дальше будут развиваться с той же скоростью, видимо, это очень сильно повлияет на общество. Как минимум, автоматизация соответствующих задач сделает их выполнение дешевле. В итоге мы увидим значительный экономический рост (возможно даже сравнимый с ростом во время промышленной революции).
Если у нас получится частично или полностью автоматизировать получение новых научных результатов, возможно, общество и технологии изменятся ещё более радикально.18
И, возможно, это будет лишь только начало. Возможно, у нас появятся компьютеры, которые рано или поздно автоматизируют абсолютно всё, что делают люди. Кажется, это вполне вероятно — по меньшей мере, теоретически, — просто потому, что достаточно сложный компьютер при достаточном количестве энергии сможет симулировать человеческий мозг. Это уже само по себе способ автоматизировать всё, что могут делать люди (пусть и не самый эффективный).
И как мы увидим в следующем разделе, есть свидетельства, что автоматизация может распространяться благодаря масштабированию уже имеющихся технологий.
Способности ML-систем в последнее время стремительно растут
Чтобы построить ИИ с помощью машинного обучения, нужны три составляющие:
Хорошие алгоритмы (то есть, более эффективные алгоритмы лучше)
Данные, чтобы тренировать алгоритмы
Достаточно вычислительных ресурсов, чтобы обучать модель
Мы поговорили с Данни Эрнандесом, который (в то время) был исследователем в команде прогнозистов OpenAI. Эрнандес и его команда изучали, как две из этих составляющих (вычислительные ресурсы и эффективность алгоритмов) менялись со временем.
Они обнаружили, что после 2012 года количество вычислительных ресурсов, используемых для обучения самых больших моделей ИИ росло экспоненциально — удваивалось каждые 3,4 месяца.
И таким образом с 2012 года количество вычислительных ресурсов, используемых для обучения самых больших моделей выросло больше чем в миллиард раз.
Эрнандес и его команда также проверили, сколько нужно вычислительных ресурсов, чтобы обучить нейронную сеть, у которой будет такая же эффективность, какая была у AlexNet (одного из ранних алгоритмов распознавания картинок).
Они обнаружили, что количество вычислительных ресурсов требуемых для получения той же производительности падает экспоненциально — уменьшается вдвое каждые 16 месяцев.
Таким образом, с 2012 года количество вычислительных ресурсов, требуемых для получения той же производительности, упало больше, чем в 100 раз. В сочетании с тем, что количество доступных вычислительных ресурсов увеличилось, это значительный рост.21
Сложно сказать, продолжатся ли эти тенденции, однако они говорят о том, что за последние десять лет границы возможного при помощи машинного обучения существенно расширились.
Более того, судя по всему, увеличение размера моделей (и количества вычислительных ресурсов, используемых для их обучения) приводит к даже более сложному поведению. Например, модели вроде GPT-3 начинают выполнять задачи, на которые их не обучали.
Эти наблюдения ведут к гипотезе о масштабировании, которая гласит, что мы можем просто строить всё большие и большие нейронные сети и в итоге будем получать всё более и более мощный искусственный интеллект и таким образом дойдём до интеллекта человеческого уровня и дальше.
Если это правда, то мы можем предсказать, как будут со временем улучшаться создаваемые ИИ, — просто на основании того, как быстро увеличиваются вычислительные мощности, доступные для обучения моделей.
Однако как мы увидим ниже, скорое появление чрезвычайно мощного ИИ предсказывает не только гипотеза о масштабировании. Другие способы оценки прогресса в области ИИ говорят о том же самом.
Когда нам стоит ожидать появление трансформационного ИИ?
Сложно точно предсказать, когда мы разработаем ИИ, который будет способен радикально изменить общество (хорошим или плохим образом) — например, автоматизировав всю работу, которую выполняют люди или значительно изменив общественную структуру.22 Но у нас здесь есть несколько подходов.
Один из них — это опросы экспертов. Результаты опроса 300 экспертов в 2019 году утверждают, что существует вероятность 20% появления машинного интеллекта человеческого уровня (который, скорее всего, будет трансформационным в обсуждаемом смысле) к 2036 году, 50% — к 2060 году и 85% — к 2100.23 Есть множество причин скептично относиться к этим оценкам,24 однако мы берём их как одно из свидетельств.
Аджея Котра (исследовательница из Open Philantropy) попыталась предсказать, когда появится трансформационный ИИ, путём сравнения современного глубокого обучения с человеческим мозгом. Глубокое обучение требует огромного количества вычислительных ресурсов, чтобы обучить модель выполнять определённые задачи. Также есть зависимость между количеством вычислительных ресурсов, требуемых для обучения модели, и количеством ресурсов, требуемых для её использования. И, если гипотеза о масштабировании верна, нам следует ожидать, что производительность модели будет улучшаться с увеличением вычислительных мощностей. Отталкиваясь от этого, Котра несколькими разными способами (в том числе, например, оценивая сколько вычислительных ресурсов использует человеческий мозг для тех или иных задач) оценила, сколько вычислительных ресурсов может потребоваться, чтобы обучить модель, которая после запуска сможет выполнять сложнейшие задачи, которые выполняют люди. Затем она оценила, когда такие вычислительные мощности будут доступны.
Уточнённое в 2022 году заключение отчёта Котры даёт следующие оценки: вероятность появления трансформационного ИИ к 2036 году — 35%, к 2040 году — 50%, к 2050 году — 60%. Котра замечает, что эти оценки ещё могут измениться.25
Том Дэвидсон (также исследователь из Open Philanthropy) написал отчёт, дополняющий работу Котры. Он попытался определить, когда мы можем ожидать появление трансформационного ИИ, изучая лишь различные виды исследований, на которые могла бы быть похожа работа над трансформационным ИИ (например, развитие технологий — основная цель технических исследований или доказывание сложных математических гипотез). Дэвидсон изучал, как быстро подобные виды исследования достигали успеха в прошлом в зависимости от финансирования и прикладываемых усилий.
Исключительно на основании этой информации отчёт Дэвидсона даёт следующие оценки: вероятность появления трансформационного ИИ к 2036 году — 8%, к 2060 — 13%, к 2100 — 20%. Однако, Дэвидсон не рассматривает, насколько исследования ИИ продвинулись со времён их начала в 1950-х годах, и замечает, что довольно вероятно, что на исследования ИИ будет тратиться гораздо больше усилий, когда ИИ станет гораздо важнее для экономики. В итоге Дэвидсон ожидает, что его числа занижены.
Холден Карнофский, один из директоров Open Philantropy, попытался объединить результаты исследований, упомянутые выше. Он предполагает, что вероятность увидеть трансформационный ИИ к 2036 году больше 10%(!), к 2060 — 50%, к 2100 — 66%. И, возможно, эти оценки занижены, поскольку они не учитывают, что с тех пор, как они были сделаны, прогресс идёт быстрее, чем ожидалось.
Метод | Вероятность появления трансформационного ИИ к 2036 году | Вероятность появления трансформационного ИИ к 2060 году | Вероятность появления трансформационного ИИ к 2100 году |
---|---|---|---|
Опрос экспертов (Чжан и другие, 2022) | 20% | 50% | 85% |
Биологические привязки (Котра, 2022) | 35% | 60% (к 2050) | 80% (Согласно отчёту 2020 года) |
Полуинформативные приоры (Дэвидсон, 2021) | 8% | 13% | 20% |
Общая оценка (Карнофский, 2021) | 10% | 50% | 66% |
В общем, судя по всему, ИИ развивается стремительно. Каждый год в эту область приходит всё больше денег и талантов, и модели становятся больше и эффективнее.
Даже если бы ИИ развивался медленнее, мы бы всё равно беспокоились по этому поводу — подавляющее большинство аргументов, касающихся рисков со стороны ИИ (мы рассмотрим эти аргументы ниже) не связаны с существующим стремительным прогрессом.
Однако скорость достижений недавнего времени делает проблему более срочной.
3. Ищущий власти ИИ может представлять для человечества экзистенциальную угрозу
До сих пор мы утверждали, что, с нашей точки зрения, ИИ окажется важной новой технологией, которая, вероятно, значительно изменит экономику и общество.
Также мы рассмотрели причины считать, что, возможно, подобный трансформационный ИИ будет построен в этом веке.
Теперь же мы перейдём к ключевому вопросу: почему мы вообще считаем, что этот вопрос настолько важен?
Причин так считать может быть множество. Если развитый ИИ способен всё поменять настолько, как нам сейчас кажется, это может привести к многочисленным важным последствиям. Однако в этом разделе мы планируем рассказать о проблеме, которая нам кажется наиболее важной: "Системы ИИ могут представлять риск из-за того, что они будут стремиться получить власть".
Мы утверждаем, что:
Я обдумал каждый из этих пунктов и считаю, что существует примерно 10% вероятности, что в этом веке в результате действий систем ИИ, ищущих власти, произойдёт экзистенциальная катастрофа.26
Скорее всего, мы построим системы, способные строить сложные планы
Мы утверждаем, что будущие системы, обладающие тремя нижеперечисленными свойствами, могут представлять достаточно значимую угрозу для человечества:27
У них есть цели и они хорошо строят планы.
Не у всех систем ИИ есть цели и не все из них строят планы, чтобы достигать своих целей. Однако про некоторые (например про системы ИИ, играющие в шахматы) можно рассуждать в рамках такой модели. Когда мы рассуждаем про ИИ, ищущий власти, мы рассматриваем системы, которые относительно успешно планируют, их планы преследуют какую-то цель (или цели) и они способны реализовывать свои планы.
- У них прекрасное "стратегическое мышление".
Системы, которая достаточно хорошо умеет планировать, должна неплохо понимать мир — она должна уметь замечать препятствия или дополнительные возможности, которые могут поспособствовать или помешать её планам, и реагировать на них соответственно. Как и Карлсмит, мы назовём эту способность "стратегическим мышлением"28 , поскольку она позволяет системам строить более сложные стратегии.
- Их способности намного превышают способности современных систем.
Чтобы действия этих систем в самом деле влияли на мир, нужно, чтобы они не просто умели планировать, но также хорошо умели делать всё, что необходимо для реализации их планов.
Поскольку мы беспокоимся, что программные системы попытаются лишить человечества власти, мы в первую очередь думаем о системах ИИ, которые могут превзойти людей в тех умениях, которые в значительной степени позволяют править нынешним миром именно людям.
Например, люди очень хорошо умеют убеждать и/или манипулировать, и это зачастую приносит им власть. Если ИИ освоит эти навыки, возможно, он тоже сможет получить власть. Как другие примеры можно привести умение взламывать другие системы, способность вести научные и инженерные исследования, а также умение строить планы в бизнесе, политике и в военной сфере.
Судя по всему, такие системы технически возможны и мы сильно мотивированы их построить
Как уже упомянуто выше, мы уже создаём системы, которые очень хорошо справляются с определёнными задачами.
Мы даже уже создали простейшие системы планирования: например AlphaStar, которая умеет играть в игру-стратегию "StarCraft", и MuZero, которая играет в шахматы, сёги и го.29
Мы не уверены, создают ли эти системы планы "чтобы достигнуть целей ради самих целей" — мы вообще не уверены, что именно означает высказывание, что у кого-то или чего-то "есть цель". Однако, раз эти системы последовательно строят планы, чтобы достигать цели, вероятно, можно сказать, что у них в каком-то смысле есть цели.
Более того, судя по всему, нейронные сети некоторых существующих систем содержат фрагменты, которые в самом деле отвечают за цели.30
Тем не менее, планирование в реальном мире (в отличие от игр) — это гораздо более сложный процесс, и в настоящее время мы не знаем о каких-либо недвусмысленных примерах целеориентированных планирующих систем или о системах, которые проявляют высокую уровень стратегического мышления.
Однако, как уже упоминалось, мы ожидаем, что в этом веке системы ИИ будут улучшаться и дальше. И мы считаем, что в результате появятся системы, обладающие всеми тремя упомянутыми свойствами.
Мы так считаем, потому что существуют достаточно сильные стимулы создавать системы такого рода — например, деньги. Если вкратце: умение планировать, чтобы достигать цели, и реализовывать составленные планы выглядит довольно мощным и универсальным способом влиять на мир.
Судя по всему, чтобы добиваться того, что ты хочешь, эти навыки нужны практически всегда — не важно, идёт ли речь о компании, которая продаёт произведённые ей продукты, человеке, который покупает дом, или правительстве, которое разрабатывает свою политику. Например, подобной мощной системе можно будет назначить цель и ожидать, что она её достигнет — не нужно будет управлять процессом на каждом шаге. Поэтому, судя по всему, планирующие системы будут чрезвычайно полезны с экономической и политической точек зрения.31
И если такие системы чрезвычайно полезны, то скорее всего люди будут очень мотивированы, чтобы их строить. Например, ИИ, который может спланировать действия компании ради цели увеличить её доход (фактически, ИИ, выполняющий роль генерального директора), скорее всего, принесёт значительный доход тем, кто его сделает.
В итоге, если мы действительно можем построить системы с такими свойствами (а судя по тому, что мы знаем, скорее всего, мы можем это сделать), то, вероятно, мы их в самом деле построим.32
Развитые планирующие системы легко могут оказаться опасно "незаалайненными"
Есть причины считать, что развитые планирующие системы такого рода будут "незаалайненными". Это означает, что они будут стремиться делать то, что мы не хотели бы, чтобы они делали.33
Системы могут не стремиться делать именно то, что мы от них хотим, по многим причинам. Например, при использовании современных технологий машинного обучения, мы не знаем, как задать системе в точности те цели, которые мы хотим достичь (подробнее ниже).34
В первую очередь мы хотим поговорить о некоторых причинах того, почему системы могут оказаться "незаалайненными" по умолчанию. Мы полагаем, что они будут разрабатывать планы, угрожающие тем, что человечество может потерять возможность влиять на мир, — даже если мы не хотим потерять эту возможность.35
Что мы подразумеваем под словами "по умолчанию"? В сущности это означает, что если только мы не найдём решение некоторой (потенциально довольно сложной) проблемы, то, судя по всему, ИИ, который мы создадим, окажется опасным образом незаалайненным. (Это утверждение может оказаться неверным. Возможные аргументы против него мы обсудим позже.)
Три примера "незаалайненности" различных систем
Стоит заметить, что отсутствие алайнмента — это не какая-то чисто теоретическая возможность (и она возможна не только в области ИИ). Мы постоянно наблюдаем незаалайненные цели у людей и институтов, и у нас уже есть примеры отсутствия алайнмента в системах ИИ.36
Предполагается, что демократическая политическая модель должна гарантировать, что политики принимают решения на благо обществу. Однако на самом деле политические системы вознаграждают за победу на выборах, и поэтому многие политики стремятся именно к этому.
Победа на выборах выглядит неплохой "прокси"-целью — если у вас есть план, как улучшить жизни людей, вероятно, скорее они проголосуют за вас. Однако она не идеальна. В итоге иногда политики принимают решения, которые определённо не являются лучшим способом управлять страной, — например, увеличивают налоги в начале своего срока и снижают их перед следующими выборами.
Таким образом, действия системы как минимум несколько отличаются от того, что мы хотели бы от неё в идеальном мире. То есть, система незаалайнена.
Коммерческие организации хотят получать больше дохода. Когда коммерческие организации производят больше и тем самым помогают людям получать товары и услуги дешевле, они зарабатывают больше денег.
Иногда получение дохода — это нормальная "прокси"-цель для улучшения мира, однако наличие дохода не обязательно означает что-то хорошее для всего человечества (мы понимаем, что это смелое заявление). В итоге случаются отрицательные побочные эффекты: например, коммерческие организации загрязняют окружающую среду, чтобы заработать деньги, хотя для общества в целом — это плохо.
Здесь мы тоже видим незаалайненную систему, действия которой как минимум несколько отличаются от того, что мы бы от неё хотели.
DeepMind описал примеры использования лазеек в определениях: ИИ хорошо справляется с заданием в соответствии с определённой для него функцией вознаграждения (которая задаёт наши намерения для системы), однако делает не то, что ожидают от него разработчики.
В одном из примеров роботизированной руке давали задание схватить шарик. Однако критерий успеха определялся так: считает ли человек, что у робота получилось. В итоге рука научилась занимать такое положение между шариком и камерой, при котором человек ошибочно думал, что рука схватила шарик.37
Источник: Christiano et al., 2017
Так что мы знаем, что создать незаалайненную систему ИИ вполне возможно.
Почему эти системы, скорее всего, окажутся опасным образом незаалайнены (если мы ничего не предпримем)
В этом разделе рассматривается центральный довод этой статьи. Мы будем использовать три ранее упомянутые свойства: способность планировать, стратегическое мышление и развитые способности.
Для начала следует понять, что планирующая система, у которой есть цель, также будет ставить "инструментальные цели": некие результаты, которые, будучи достигнуты, значительно помогут достичь основной цели.
Мы постоянно используем в планах инструментальные цели. Например, старшеклассник, задумывающийся о своей карьере, может решить, что учёба в университете поможет ему в будущем получить работу. В этом случае "поступить в университет" окажется инструментальной целью.
Достаточно развитый ИИ также будет использовать инструментальные цели в своих планах.
Если у планирующей системы ИИ также будет достаточно стратегического мышления, она сможет использовать знания о реальном мире (включая информацию о том, что может помешать любым планам) и строить планы, исходя из них. Что особо важно, эти знания будут включать в себя информацию о том, что ресурсы (например, деньги, вычислительные мощности, влияние) и большие возможности — то есть, различные формы власти — открывают путь к новым, более эффективным способам достигать целей.
Это означает, что по умолчанию у развитых планирующих систем ИИ будут следующие пугающие инструментальные цели:
Самосохранение — система с большей вероятностью достигнет своих целей, если она всё ещё в состоянии работать над этим. (Как метко выразился Стюарт Рассел: "Ты не можешь приносить кофе, если ты мёртв".)
Защита от любых попыток изменить цели системы — исходы при изменении целей будут отличаться от исходов при текущих целях.
Накопление могущества — например, захват большего количества ресурсов и увеличение собственных возможностей.
Что важнее всего, ИИ может гарантировать, что он будет продолжать работу (и его не выключат) и его цели никогда не изменятся, одним очевидным способом: захватить власть над людьми, которые способны на него повлиять (мы обсуждаем вопрос, как именно системы ИИ могут это сделать, в другой статье).
К тому же, системы ИИ, которые мы сейчас обсуждаем, обладают развитыми способностями — то есть, способны справиться с одной или несколькими задачами, решения которых дают людям значительную власть над сегодняшним миром. При наличии настолько развитых способностей достижение упомянутых инструментальных целей не выглядит невозможным. Поэтому, с нашей точки зрения вполне возможно, что система ИИ применит свои способности, чтобы захватить власть, в качестве одного из шагов по реализации своего плана. Если мы не хотим, чтобы созданная нами система ИИ отобрала у нас власть, то такой исход будет особо опасным вариантом отсутствия алайнмента.
В некоторых наиболее радикальных сценариях, планирующая система ИИ с достаточно развитыми способностями может лишить нас власти полностью и навсегда.
Чтобы (пусть и очень нестрого) проверить этот довод, попробуем применить его к людям.
У людей есть множество целей. Для достижения многих из этих целей наличие власти будет преимуществом. Да, далеко не все хотят власти, однако всё же многие пытаются получить её в той или иной форме (накопить денег, получить высокий социальный статус, занять какую-то должность). Это полезно, чтобы в итоге добиться того, чего ты на самом деле хочешь. (Обычно) это не приводит к катастрофе, потому что мы как люди:
Как правило считаем необходимым соблюдать человеческие нормы и этические правила (даже люди, которые очень хотят денег, обычно не желают ради них убивать).
Не настолько умнее или способнее друг друга. Так что даже люди, которых не сдерживает этика, не способны захватить мир.
(Вопрос о том, действительно ли люди хотят власти, мы рассмотрим ниже.)
У достаточно развитого ИИ таких ограничений не будет.
Найти способы предотвратить подобное отсутствие алайнмента может быть сложно
Мы не утверждаем, что любая развитая планирующая система ИИ обязательно попытается накопить побольше власти. Мы хотим сказать, что если мы не найдём способа спроектировать систему так, чтобы у неё не было этой проблемы, мы сильно рискуем.
Кажется очень правдоподобным, что мы сможем создать систему ИИ, которая не будет незаалайнена таким образом, и тем самым предотвратим потерю власти человечеством. В этом разделе мы приведём примеры нескольких стратегий, которые могут нам помочь (а также почему, к сожалению, вероятно, их будет сложно реализовать на практике):38
Контролировать цели системы ИИ. Возможно, у нас получится спроектировать системы, у которых просто не будет целей, к которым применимы доводы выше. Таким образом у них не будет стимула захватывать власть. Например, возможно, у нас получится найти способы явно потребовать у системы ИИ не вредить людям или найти способ вознаграждать систему ИИ (в обучающем окружении) за то, что она отказывается от определённых форм накопления власти (и также найти способ сделать так, чтобы это поведение сохранилось за пределами обучающего окружения).
Карлсмит приводит две причины, почему, скорее всего, сделать так будет довольно трудно.
Во-первых, мы не можем явным образом задавать цели для современных ML-систем. Мы лишь вознаграждаем (или наказываем) систему в обучающем окружении, а она учится сама. Это порождает множество сложностей, одна из которых называется "неправильное обобщение цели". Исследователи обнаружили реальные примеры систем, которые, как казалось, в обучающем окружении научились достигать некую цель, однако в новом окружении не смогли понять, что именно является целью здесь. Это повышает вероятность того, что мы подумаем, что мы успешно научили систему ИИ не захватывать власть, но когда мы запустим систему в реальном мире, она всё равно будет к этому стремиться.39
Во-вторых, когда мы задаём цель для системы ИИ (или когда мы ищем способы вознаграждать или наказывать систему во время обучения, потому что не можем задать цель явным образом), мы обычно даём системе "прокси"-цель, в случае которой можно измерить, достигнута ли она (например, положительная обратная связь со стороны человека в результате достижений системы). Однако часто такие замещающие цели работают не совсем хорошо.40 В общем случае, мы можем ожидать, что даже если нам кажется, что достижение "прокси"-цели хорошо коррелирует с успешными результами, система может делать не то, что мы хотим, потому что она оптимизирована достигать именно "прокси"-цель. (Именно это иллюстрируют примеры выше про политиков, коммерческие организации и роботизированную руку, которая не научилась хватать шарик.) Более детальные примеры того, как проблемы с "прокси"-целями могут привести к экзистенциальной катастрофе мы рассматриваем в другой статье.
Если вы хотите подробнее узнать о том, какие встречаются трудности с тем, чтобы задать цель для глубоких нейронных сетей с самоконтролируемым обучением и обучением с подкреплением, мы рекомендуем почитать доклад исследователя проблем управления Ричарда Нго из OpenAI о том, как настоящий обучающий процесс приводит к появлению незаалайненных целей.
Ограничивать данные, которые поступают к системе ИИ. Система ИИ сможет разработать план для накопления власти только в том случае, если у неё будет достаточно информации о мире, чтобы понять, что накопление власти — это способ достигнуть своих целей.
Ограничивать способности системы ИИ. Системы ИИ смогут реализовать планы по накоплению власти только в том случае, если у них будут достаточно развитые навыки из числа тех, что дают людям значительную власть в сегодняшнем мире.
Но чтобы какая-то из этих стратегий сработала, необходимо выполнение двух условий:
Системы ИИ должны оставаться полезными, то есть, успешно конкурировать в экономическом смысле с менее надёжными системами. За ограничение входных данных и ограничение способностей определённо придётся заплатить, поэтому, судя по всему, даже если люди придумают способы это сделать, будет сложно гарантировать, что эти способы действительно будут применяться. И со стратегией управления целями системы есть такая же проблема. Например, вероятно, можно не дать системе ИИ накапливать власть, если она будет обязана сверять все свои решения с людьми. Но такие системы будут значительно медленнее и люди получат от их использования меньше сиюминутной пользы, чем от систем, у которых не будет таких ограничений. В итоге всё равно останутся стимулы использовать более быструю, приносящую сразу больше прибыли незаалайненную систему (стимулы мы подробнее рассмотрим в следующем разделе).
Стратегия должна работать даже по мере того, как у систем будут улучшаться способности планировать и стратегическое мышление. Некоторые кажущиеся простыми решения (например, попытаться дать системе длинный перечень того, что ей запрещено делать, — например, воровать деньги или физически вредить людям) перестанут работать, когда система научится лучше планировать. Ведь чем лучше система разрабатывает планы, тем более вероятно, что она найдёт лазейки или ошибочные места в стратегии безопасности, и, таким образом, более вероятно, что система разработает план, который будет включать в себя накопление власти.
И сейчас, когда мы изучили результаты исследований этого вопроса и поговорили с экспертами, мы считаем, что в настоящее время нет известных способов построить заалайненную систему ИИ, про которые можно было бы сказать, что они удовлетворяют обоим критериям.
Это был центральный довод. У него существует множество вариаций. Некоторые утверждают, что системы ИИ могут постепенно изменить наше будущее некоторыми менее прямыми способами, что тем не менее всё равно приведёт к экзистенциальной катастрофе. Другие утверждают, что наиболее вероятный способ лишить человечество власти — это просто убить всех людей. Мы не готовы уверенно рассуждать о том, каким будет наиболее вероятное развитие катастрофы. Мы лишь попытались привести самую основную часть рассуждения, почему ИИ представляет собой экзистенциальный риск, так, как мы её понимаем.
Определённо существуют причины сомневаться в истинности этого довода! Ниже мы рассмотрим некоторые из них, которые представляются нам наиболее вескими. Однако в целом нам кажется крайне вероятным, что по крайней мере для некоторых вариантов развитых планирующих систем будет сложнее построить их так, чтобы они не пытались накапливать власть опасным для человека способом, чем построить систему, склонную к такому поведению.
Если вы дочитали до этого места, возможно, у вас уже появились вопросы вроде следующих:
Мы считаем, что на все эти вопросы есть хорошие ответы. Ниже мы приводим большой перечень доводов против того, чтобы работать над рисками от ИИ. Там вы найдёте наши ответы на эти (и другие) вопросы.
Если системы ИИ лишат человечество возможности управлять своей судьбой, это будет экзистенциальной катастрофой
Когда мы говорим, что беспокоимся по поводу экзистенциальных катастроф, речь идёт не только о рисках вымирания. Это связано с тем, что корни нашего беспокойства кроются в лонгтермизме: идее о том, что жизни будущих поколений тоже важны, и защищать их интересы — чрезвычайно важно.
Это означает, что экзистенциальной катастрофой считается любое событие, которое может помешать всем будущим поколениям прожить жизнь, полную того, что мы считаем ценным (не важно, идёт речь о счастье, справедливости, красоте или процветании в целом).
Если какая-то система успешно лишит человечества возможности управлять своей судьбой, кажется чрезвычайно маловероятным, что мы сможем вернуть эту возможность. И тогда всё будущее — всё, что случится с появившейся на Земле жизнью до конца времён, — будет определяться целями этой системы. Пусть она и построена нами, но её цели с нашими не совпадают. Возможно, долгое и прекрасное будущее в итоге даже будет создано, но у нас мало причин на это надеяться.41
Мы не пытаемся сказать, что считаем, будто риска уничтожения человечества со стороны ИИ не существует. Наоборот, мы считаем, что уничтожить людей — это довольно вероятный способ, которым система ИИ может полностью и навсегда гарантировать то, что мы не сможем вернуть свою власть обратно.
Несмотря на риск люди могут запустить системы ИИ при отсутствии алайнмента
Если люди будут знать, что запуск незаалайненного ИИ может привести к таким ужасным последствиям, никто же не будет его создавать и использовать?
К сожалению, есть как минимум две причины, почему люди могут создать и затем запустить незаалайненный ИИ.42 Рассмотрим их по очереди.
1. Люди могут посчитать, что ИИ заалайнен, хотя на самом деле это не так
Вообразим группу исследователей, которые в тестовом окружении пытаются понять, является ли система, которую они построили, заалайненной. Мы утверждаем, что разумный планирующий ИИ захочет улучшить свои способности, чтобы эффективнее достигать своих целей, а это практически всегда будет проще, если его запустят в реальном мире, где доступен более широкий спектр действий. В итоге любой достаточно сложный незаалайненный ИИ попытается понять, что от него хотят исследователи, и как минимум притвориться, что он делает именно это, чтобы исследователи посчитали, что он заалайнен. (Например, система, обучающаяся с подкреплением, может вознаграждаться за определённое внешнее поведение во время обучения, независимо от её реальных действий.)
Мы надеемся, что раз мы знаем о том, что такое поведение возможно, мы сможем его обнаружить. Однако поймать на обмане достаточно развитый ИИ, кажется, будет сложнее, чем поймать на лжи человека, что не всегда просто. Например, не исключено, что достаточно развитый ИИ окажется способен заставить нас поверить, что мы решили задачу "как распознать обман со стороны ИИ", хотя на самом деле мы её не решили.
Если системы ИИ научатся хорошо обманывать и у них будут достаточно развитые способности, то для таких систем может оказаться разумным обманывать людей полностью до тех пор, пока они не станут достаточно могущественны, чтобы преодолеть любые препятствия со стороны людей на пути к их целям.
2. Есть стимулы запустить систему ИИ как можно раньше
Также мы можем ожидать, что некоторые люди, способные запустить ИИ в отсутствие алайнмента, будут стремиться это сделать, невзирая на тревожные сигналы, свидетельствующие о незаалайненности. Это может произойти из-за состояния "гонки", в котором люди будут пытаться запустить свой ИИ раньше, чем это сделает кто-то ещё.
Например, если вы разрабатываете ИИ для того, чтобы улучшить собственное военное или политическое положение, намного полезней успеть его запустить раньше, чем у кого-то из ваших противников появится аналогичный мощный ИИ.
Это может произойти даже если люди хотят построить ИИ в надежде, что с его помощью они улучшат мир.
Например, допустим, вы потратили многие годы на исследования и разработку мощной системы ИИ, и вы хотите применить его исключительно для того, чтобы улучшить мир. В очень упрощённом случае возможны два варианта:
Этот мощный ИИ будет заалайнен с вашими благородными целями и вы преобразуете общество к лучшему радикальным образом.
Ваш ИИ окажется значительно незаалайнен, захватит власть, и человечество больше никогда не сможет управлять своим будущим.
Предположим, вы оцениваете вероятность того, что вам успешно удалось построить заалайненный ИИ в 90%. Однако технологии часто развиваются разными группами параллельно примерно с одинаковой скоростью, поэтому достаточно вероятно, что кто-то ещё тоже скоро разработает мощный ИИ. И вы считаете, что ваши конкуренты менее осторожны или менее альтруистичны, поэтому вы оцениваете вероятность того, что их ИИ будет заалайнен с хорошими целями лишь в 80%, и таким образом у вас получается вероятность экзистенциальной катастрофы 20%. И только если вы будете первыми, ваш более полезный ИИ победит. В итоге, возможно, вы решите запустить ваш ИИ, смирившись с риском в 10%.
Всё это звучит очень абстрактно. Как на самом деле может выглядеть экзистенциальная катастрофа, вызванная ИИ?
Пока мы приводили лишь очень общие доводы и действительно не вдавались в подробности, как именно ИИ, пытающийся захватить власть, может этого добиться.
Для тех, кто хочет лучше понять, как может на самом деле выглядеть экзистенциальная катастрофа, вызванная ИИ, мы написали отдельную небольшую статью. Если же вам пока хватает высокоуровневых абстрактных аргументов, можете смело переходить к следующему разделу!
Как на самом деле может выглядеть экзистенциальная катастрофа, вызванная ИИ?4. Даже если мы решим проблему поиска власти, есть и другие риски
До сих пор мы обсуждали возможность, которую большая доля исследователей в данной области43 считают большим экзистенциальным риском, который может повлечь возможное развитие в области ИИ. Самое главное в этом вопросе: будет ли ИИ искать власти для того, чтобы достигать своих целей.
Если мы сможем предотвратить поведение, направленное на поиск власти, мы значительно уменьшим этот экзистенциальный риск.
Однако даже если нам это удастся, ИИ представляет и другие возможные риски.
ИИ может сделать войны ещё хуже
Нас беспокоит то, что конфликт сверхдержав также может всерьёз угрожать нашему миру. А природа войны с развитием ИИ, вполне вероятно, изменится — из-за распространения летального автономного оружия44 или из-за автоматизированного принятия решений.45
В некоторых случаях война между сверхдержавами может представлять собой экзистенциальную угрозу: например, в случае применения ядерного оружия. Возможно, ИИ увеличит риски его применения. Хотя также есть доводы в пользу того, что ИИ снизит эти риски.46
И наконец, если какая-то из сторон создаст особенно мощную систему ИИ, такая система может быть расценена как "решающее стратегическое преимущество". Например, США может создать планирующий ИИ, разумный достаточно, чтобы обеспечить развитие событий, при котором Россия или Китай никогда не смогут успешно поставить на вооружение дополнительное ядерное оружие. В таком случае противники этой стороны могут решиться на первый удар, не дожидаясь, пока разработанные ИИ планы начнут реализовываться.
ИИ могут использовать для создания новой опасной технологии
Мы рассчитываем, что системы ИИ помогут ускорить научный прогресс.47
Хотя автоматизация научной работы даст многие преимущества — например, быстрое развитие новых отраслей медицины — какие-то варианты технологического развития могут представлять угрозу для человечества, в том числе экзистенциальную. Например, опасность может прийти из биотехнологий48 (подробнее этот вопрос раскрывается в нашей статье о предотвращении катастрофических пандемий) или от какой-то другой, пока не известной, но опасной технологии.49
ИИ может привести к появлению тоталитарных правительств
Авторитарное правительство с помощью ИИ способно полностью автоматизировать слежку за своими гражданами и репрессии против них, а также существенно влиять на то, какую информацию получают люди, и не исключено, что после этого координировать действия против такого режима станет невозможно.50
Если это приведёт к какому-то варианту по-настоящему стабильного тоталитаризма, возможно, жизни людей станут намного хуже на чрезвычайно долгий период времени, то есть, ИИ может привести к довольно пугающему развитию событий.
Прочие риски со стороны ИИ
Также нас беспокоят следующие вопросы, хотя в них мы понимаем меньше:
Экзистенциальные угрозы, которые являются следствием не стремления к власти со стороны системы ИИ, а результатом взаимодействия между такими системами. (Чтобы системы представляли такой риск, они всё равно должны быть в какой-то степени незаалайнены).
Прочие способы злонамеренного использования ИИ, о которых мы пока не подумали, — особенно такие, которые могут значительно повлиять на будущие поколения.
Прочие этические ошибки при проектировании и использовании систем ИИ, особенно в том случае, когда будущие системы ИИ сами по себе следует учитывать в этических рассуждениях. Например, возможно, мы (неумышленно) создадим системы ИИ, обладающие сознанием. Возможно, огромное число таких систем будет страдать. Мы считаем этот вопрос чрезвычайно важным, поэтому мы создали для него отдельный профиль.
Итак, насколько вероятна связанная с ИИ катастрофа?
На этот вопрос чрезвычайно сложно ответить.
У нас нет примеров из прошлого, по которым мы могли бы посчитать частоту катастроф, связанных с ИИ.
Мы можем лишь опираться на доводы вроде тех, что мы привели выше, и на менее релевантные данные, вроде истории технологических достижений. И мы совершенно не уверены, что наши доводы полностью верны.
Рассмотрим доводы, которые мы привели выше в разделе опасности ИИ, ищущего власти. Эти доводы основываются на докладе Карлсмита. В конце своего доклада Карлсмит даёт некоторые грубые оценки вероятностей, что каждый этап его рассуждений верен (при условии, что предыдущие этапы тоже верны):
К 2070 году станет возможно (в том числе с финансовой точки зрения) построить системы, обладающие стратегическим мышлением, которые превзойдут людей во многих задачах, позволяющих накапливать власть, и которые будут способны строить и реализовывать планы. Карлсмит оценивает вероятность такого события в 65%.
При наличии такой возможности, у людей будут значительные стимулы, чтобы построить такие системы: 80%.
При наличии такой возможности и стимулов к постройке таких систем, будет намного сложнее построить заалайненную систему, не стремящуюся к власти, чем незаалайненную, которая к власти стремиться будет, но запуск которой, тем не менее, будет выглядеть значительно привлекательней: 40%
При условии всего вышеперечисленного, некоторые запущенные системы будут накапливать власть незалайненным способом, что приведёт к ущербу более чем на триллион долларов (в пересчёте на доллары 2021 года): 65%.
При условии всего вышеперечисленного, незаалайненные системы ИИ в стремлении к власти лишат практически всё человечество возможности управлять собственной судьбой: 40%.
При условии всего вышеперечисленного, это будет экзистенциальной катастрофой: 95%.
Перемножив эти числа, Карлсмит получил 5% вероятности того, что его доводы верны и к 2070 году произойдёт экзистенциальная катастрофа, вызванная незаалайненным ИИ, ищущим власти. Когда мы поговорили с Карлсмитом, он заметил, что за год, прошедший между написанием его отчёта и публикацией статьи, его общая оценка вероятности экзистенциальной катастрофы к 2070 году, вызванной ИИ, ищущим власти, выросла до "больше 10%".51
Общая вероятность экзистенциальной катастрофы, вызванной ИИ, вероятно, ещё выше, потому что к возможной катастрофе можно прийти и другими путями — например, упомянутыми в предыдущем разделе. Хотя мы предполагаем, что все прочие сценарии приводят к экзистенциальной катастрофе с гораздо меньшей вероятностью.
Другая оценка: консультант "80000 часов" философ Тоби Орд в своей книге "На краю пропасти" оценил шансы экзистенциальной катастрофы к 2120 году (по любой причине) как 1/6. 60% от этого риска — это опасность незаалайненного ИИ, что даёт вероятность экзистенциальной катастрофы от незаалайненного ИИ к 2120 году в 10%.
В опросе 2021, проведённом среди 44 исследователей, работающих над снижением экзистенциальных рисков со стороны ИИ медианная оценка риска оказалась равна 32,5%. Наибольший ответ был 98%, наименьший — 2%.52 Здесь очевидно присутствует значительная ошибка выборки: люди работают над снижением рисков со стороны ИИ, потому что считают, что эта работа очень важна, поэтому нам следует ожидать, что оценки в таком опросе будут значительно выше, чем оценки из других источников. Но здесь мы явно видим значительную неуверенность в том, насколько велик риск, и значительный разброс ответов.
Значительность всех этих чисел потрясает воображение и довольно сильно тревожит. Конечно, мы совсем не уверены, что все приведённые доводы верны. Однако в целом это наивысшие оценки величины экзистенциального риска среди всех вопросов, которые мы исследовали (например, пандемии искусственного происхождения, конфликт сверхдержав, изменение климата или ядерная война). И, как мы уже объяснили, мы считаем, что доводы в пользу настолько высоких оценок довольно убедительны. Поэтому, с нашей точки зрения, очень вероятно, что риски со стороны ИИ — это самая важная проблемой, стоящая перед человечеством.
5. Со всеми этими рисками можно работать
Мы считаем, что помощь в снижении значительных рисков, которые представляет собой ИИ, — это одно из наиболее важных направлений, которыми ты мог бы заняться.
И дело не только в том, что мы считаем, что эти риски высоки. Мы также считаем, что мы в самом деле можем что-то сделать, чтобы их снизить.
Мы знаем о двух довольно широких подходах:
Исследования в области технической безопасности ИИ
Разработка и реализация стратегий регулирования в области ИИ
В обоих случаях есть множество способов внести свой вклад. Ниже мы опишем эти способы гораздо подробнее, а в этом разделе проиллюстрируем точку зрения, что мы действительно можем что-то сделать в отношении упомянутых рисков.
Исследование в области технической безопасности ИИ
Польза от трансформационного ИИ может быть огромна. Над этим вопросом работают множество различных действующих лиц (в различных странах), поэтому предотвратить полностью его появление, вероятно, было бы довольно сложно.
(Кроме того, вероятно, это вообще не самая лучшая идея: ведь таким образом вместе с предотвращением рисков мы отказываемся от возможных выгод.)
Поэтому мы считаем, что гораздо разумнее сосредоточиться на том, чтобы гарантировать, что разработанный трансформационный ИИ будет безопасным, то есть сделать так, чтобы мы с высокой вероятностью избежали всех катастрофических ошибок, перечисленных выше.
Один из способов этого добиться — это попытаться разработать технические решения, которые бы предотвращали поведение, направленное на захват власти, которое мы обсуждали выше. Это направление обычно называют "технической безопасностью ИИ". Иногда для краткости просто говорят: "безопасность ИИ".
Подробнее об исследованиях в области технической безопасности ИИ читайте ниже.
Разработка и реализация стратегий регулирования в области ИИ
Второй подход, направленный на снижение рисков со стороны ИИ, — это влиять на его разработку с помощью регулирования, создания норм и прочих механизмов управления.
Хорошее регулирование в области ИИ может помочь работе над технической безопасностью. Например, оно может способствовать появлению соглашений о безопасности между корпорациями или помочь талантливым исследователям в области безопасности со всего мира переезжать туда, где они смогут принести максимум пользы. Регулирование в области ИИ может также помочь и с другими проблемами, которые порождают риски, например с состоянием "гонки".
Однако, как мы уже упоминали, даже если мы успешно построим ИИ, который делает именно то, что мы хотим (т.е. решим проблему алайнмента), мы, тем не менее, можем потребовать от него сделать что-то плохое! Поэтому нам следует беспокоиться не только о стимулах для систем ИИ, но и о мотивации использующих их людей.
Подробнее о разработке и реализации стратегий регулирования в области ИИ читайте ниже.
Возможно, теперь у вас появились ещё какие-нибудь вопросы. Например:
И снова мы считаем, что у нас есть хорошие ответы на эти вопросы.
6. Эта работа чрезвычайно недооценена
По нашим оценкам напрямую над уменьшением вероятности связанной с ИИ экзистенциальной катастрофы работают лишь 400 человек во всём мире (90% доверительный интервал — от 200 до 1000). Из них, судя по всему, примерно три четверти работают над техническими вопросами безопасности ИИ, а остальные делятся между разработкой стратегий (и других вопросов регулирования) и популяризацией.53 . Мы считаем, что на вспомогательных должностях работают примерно 800 человек, но в этой оценке мы очень сильно не уверены.54
В своей книге "На краю пропасти" Орд оценивает, что на снижение рисков со стороны ИИ в 2020 году было потрачено от 10 до 50 миллионов долларов.
Может показаться, что это огромная сумма, но мы тратим примерно в тысячу раз больше55 на то, чтобы быстрее разрабатывать трансформационный ИИ, — крупные лаборатории занимаются исследованием и разработкой ИИ в коммерческих целях.
Предлагаем также сравнить упомянутые 50 миллионов долларов, потраченные на безопасность ИИ в 2020 году с несколькими миллиардами долларов в год, которые мы тратим на борьбу с изменением климата.
Поскольку эта область настолько недооценена, а ставки в ней настолько высоки, мы считаем, что если вы будете работать над рисками со стороны ИИ, польза от вашей работы может оказаться намного выше, чем от работы во многих других областях. Именно поэтому для желающих значительно улучшить мир мы в первую очередь рекомендуем два направления работы: техническая безопасность ИИ и разработка и реализация стратегий регулирования ИИ.
Какие мы знаем лучшие аргументы в пользу того, что мы неправы?
Как мы уже писали выше, у нас нет полной уверенности в правильности наших доводов о том, что ИИ представляет экзистенциальную угрозу. Мы всё равно считаем, что шансы катастрофы со стороны ИИ достаточно высоки и они оправдывают потраченное время многих людей, которые попытаются предотвратить такой исход, мы также хотим быть честными в отношении аргументов против этого, чтобы вам было легче составить своё мнение по этому вопросу.
Здесь мы рассмотрим самые сильные (с нашей точки зрения) причины считать, что эта проблема не слишком важна. В следующем разделе мы рассмотрим некоторые популярные возражения, которые (с нашей точки зрения) менее весомы.
Чем больше у нас времени до появления трансформационного ИИ, тем меньше причин работать над этой проблемой прямо сейчас. Вполне возможно, люди в будущем смогут работать над ней гораздо более эффективно, чем мы сегодня.
Кроме того, если на создание трансформационного ИИ у нас уйдёт много времени, у нас также будет много времени на то, чтобы понять, как сделать его безопасным. Судя по всему, риск гораздо выше, если трансформационный ИИ появится в ближайшие десятилетия.
Основная причина того, что трансформационный ИИ может появиться нескоро, заключается в том, что вполне правдоподобно, что первый трансформационный ИИ будет построен не на основе современных методов глубокого обучения. (Проект "AI Impacts" собрал список доводов в пользу того, что пользуясь современными методами не получится создать ИИ человеческого уровня.) Это может означать, что некоторые из наших современных исследований в итоге окажутся бесполезными (кроме того — в зависимости от того, какой способ будет в итоге использовал для создания ИИ — некоторые доводы, говорящие о риске, станут менее весомыми).
Однако даже если современные методы не позволят создать трансформационный ИИ, всё же есть причины считать, что у нас не настолько много времени на решение этой проблемы. Например, возможно, найти технические решения, позволяющие предотвратить поведение, направленное на захват власти, будет чрезвычайно сложно.
Кроме того, даже если для создания трансформационного ИИ мы не сможем использовать глубокое обучение, возможно, мы просто придумаем новые методы. В итоге многие эксперты в области ИИ полагают, что мы получим трансформационный ИИ довольно скоро.
Мы считаем, что в ближайшие 20-80 лет появление трансформационного ИИ достаточно вероятно. Поэтому работать над вопросом безопасности стоит (с точки зрения ожидаемой полезности) уже сейчас. Возможно, конечно, об этом позаботятся будущие поколения, и вся наша работа окажется напрасной. Да, мы надеемся, что так и будет! Однако полагаться на это рискованно и, возможно, неразумно.
Если лучший из доступных нам ИИ будет улучшаться постепенно (у ИИ не будет резкого скачка способностей после долгого периода, когда они оставались на относительно невысоком уровне), скорее всего, мы увидим "тревожные сигналы": сможем заметить примеры незаалайненного поведения в относительно слабых системах и благодаря этому исправим ошибки до того, как станет слишком поздно.
В случае такого постепенного развития событий мы будем лучше понимать, как будет выглядеть мощный ИИ (в частности, будет ли он построен на современных методах глубокого обучения или каким-то совершенно иным образом), что, скорее всего, значительно поможет в исследовании вопросов безопасности. Также по мере того, как риски со стороны ИИ будут становиться очевиднее, общество будет уделять этому вопросу больше внимания.
Поэтому, если постепенное улучшение ИИ — более вероятный сценарий, риск, судя по всему, снижается.
Но нельзя с большой уверенностью утверждать, что ИИ будет развиваться постепенно или, точнее, что он будет развиваться достаточно постепенно, чтобы это означало значительное снижение рисков. И даже если ИИ будет развиваться постепенно, возможно, будет очень полезно подготовить планы и технические решения заранее. Поэтому в итоге мы считаем, что всё равно чрезвычайно полезно пытаться снижать риски уже сейчас.
Если ты хочешь узнать больше, можешь прочитать подборку проекта "AI Impacts" с аргументами за и против скачкообразного (то есть, не постепенного) прогресса в способностях ИИ, а также работу Тоби Орда и Оуэна Коттона-Беррета про стратегические следствия медленной разработки ИИ.
Задачи "задать системе цели, заалайненные конечным целям людей-проектировщиков" и "сделать систему полезной" выглядит как очень близкие. Если это действительно так, возможно, необходимость сделать ИИ полезным потребует от нас строить лишь заалайненный ИИ. В этом случае проблема алайнмента, скорее всего, будет решена по умолчанию.
Бен Гарфинкель в нашем подкасте привёл пару примеров, как это может быть:
Можно рассмотреть термостат как очень простой ИИ, который пытается сохранять определённую температуру в комнате. У термостата есть металлическая полоска, которая расширяется, когда комната нагревается, и выключает ток при достижении заданной температуры. Этот кусок металла заставляет термостат действовать так, будто у него есть цель сохранять в комнате нужную температуру, но также именно она позволяет достигать ему этой цели (и тем самым делает его полезной).
Представим, что вы создаёте робота-уборщика, используя обучение с подкреплением, то есть, вы создаёте какие-то условия, при которых робот получает положительное подкрепление. Мы можете сказать что-то вроде: "Чем меньше будет в доме пыли, тем больше будет положительного подкрепления". Но если вы так поступите, робот начнёт делать то, чего вы не хотите: например, рвать подушки, чтобы найти пыль внутри них. Вероятно вместо этого вам нужны методы вроде тех, что разрабатывают специалисты по безопасности ИИ (штуки, которые наблюдают, как дом убирают люди и позволяют ИИ вычислить всё, что надо, из их поведения). Так что люди, создающие ИИ, будут естественным образом мотивированы также попытаться сделать его заалайненным (и таким образом в какой-то мере безопасным), чтобы справиться со своей работой.
Если для того, чтобы сделать системы ИИ полезными, в любом случае потребуется решить проблему алайнмента, это значительно снижает шансы того, что у нас будут незаалайненные, но тем не менее значительно более полезные системы ИИ. Поэтому стимул запустить незаалайненный ИИ будет значительно меньше, и таким образом будет меньше риск для общества.
Тем не менее причины для беспокойства всё равно остаются. Например, судя по всему, остаётся нерешённой проблема обмана со стороны ИИ.
Также, как мы уже говорили, алайнмент ИИ — лишь часть общей проблемы. Решить проблему алайнмента — это не то же самое, что полностью исключить экзистенциальный риск со стороны ИИ, поскольку заалайненный ИИ всё равно может привести к плохим последствиям — например, в руках авторитарного правительства.
Как и в случае других исследовательских проектов на ранней стадии, мы не знаем, насколько сложно решить проблему алайнмента (или другие проблемы ИИ, которые могут нести риски). Кто-нибудь может посчитать, что значительные риски со стороны машинного интеллекта есть, однако решить работать над чем-то ещё из-за пессимизма в отношении того, что дополнительные исследования или работа над регулированием чем-то поможет.
Это определённо причина, чтобы пойти работать над другим вопросом. Разрешимость задачи — важная часть модели, c помощью которой мы сравниваем глобальные проблемы. Например, нас также очень беспокоят риски от пандемий, а эту проблему, вероятно, решить гораздо проще.
Тем не менее, учитывая каковы ставки, возможно, для многих людей всё равно имеет смысл работать над снижением рисков со стороны ИИ. Даже если шансы на успех оцениваются как низкие. Нужно полагать, что снизить риски со стороны ИИ чрезвычайно сложно, чтобы решить, что пусть лучше пусть эти риски реализуются.
По крайней мере мы сами, "80 000 часов", всё равно хотим помогать решать проблему безопасности ИИ — например, создавая такие статьи, как эта — даже если шансы на успех кажутся низкими (хотя мы на самом деле настроены довольно оптимистично).
Есть некоторые причины считать, что наш ключевой довод (приведённый выше) о том, что любая развитая планирующая система со стратегическим мышлением по умолчанию будет накапливать власть, не совсем верен.56
Мы можем построить простые примеры, в которых, судя по всему, рассуждения, приведённые нами выше, не совсем верны. Мы утверждали, что, возможно, системы ИИ будут делать то, что выглядит в целом полезным для их главной цели. Однако, например, рассмотрим автономный игрушечный автомобиль, который может двигаться лишь, когда его двигатель включён. Для подавляющего большинства возможных целей, судя по всему, для машины довольно полезно иметь возможность двигаться, поэтому нам стоит ожидать, что она включит двигатель. Однако, по-видимому, довольно несложно натренировать машину не включать двигатель: мы можем просто давать ей отрицательное подкрепление каждый раз, когда она включает двигатель, даже если это приводит к достижению каких-то других целей. Подобные простые примеры заставляют усомниться в том, что если какое-то конкретное действие будет инструментально полезно, мы не сможем найти способ запретить его. (Больше примеров можно найти на странице 25 рецензии Гарфинкеля на отчёт Карлсмита.)
Возможно, необязательно незаалайненное поведение, направленное на захват власти, приведёт к тому, что всё человечество лишится возможности управлять собственной судьбой. Например, возможно, система ИИ посчитает, что проще отобрать власть лишь у тех людей, которые могут помешать её собственным целям, какие бы они ни были. Тем не менее, чем более развитыми способностями обладает ИИ (например, способностями, позволяющих реализовать какой-либо из семи сценариев по накоплению власти, описанных здесь), тем более вероятно, что он сможет успешно справиться со всем человечеством. Лишить власти всё человечество, вероятно, довольно надёжный способ для системы ИИ гарантировать, что он всегда сможет достигнуть своих целей. Поэтому если более способные системы смогут с достаточной вероятностью лишить человечества возможности во что-либо вмешиваться, вероятно, хорошая планирующая система посчитает, что это стоит включить в свой план.
По умолчанию, наверное, мы можем ожидать, что при обучении какой-то ML-системы мы сможем отбраковать результаты, демонстрирующие поведение, направленное на захват власти, и тем самым снизить шансы такого поведения, когда ИИ будет запущен. К сожалению, непонятно, насколько хорошо это сработает, особенно с учётом того, что со стороны достаточно развитых систем мы, вероятно, увидим попытки нас обмануть. А это означает, что, возможно, мы заметим опасное поведение, лишь когда станет уже поздно.57
Люди, судя по всему, тоже способны планировать и обладают стратегическим мышлением. Однако мы не всегда пытаемся накапливать власть.Да, мы заботимся о том, чтобы у нас была еда и крыша над головой, и многие люди тратят активные усилия на то, чтобы получить больше денег, более высокий статус, лучшее образование или даже официальную власть. Однако некоторые люди предпочитают не гнаться за этими целями, более того, судя по всему, наличие таких целей не коррелирует с интеллектом.
Однако из этого нельзя сделать вывод, что система ИИ не будет искать власти. Ведь у большинства людей всё же появляется мотивация накапливать разные виды влияния с помощью богатства, статуса, высоких должностей и так далее. И зачастую люди действуют в соответствии с этой мотивацией. А наблюдение, что люди обычно не ищут огромное количество власти, можно объяснить тем, что обычно ради этого нужно приложить слишком уж много усилий.
Например, люди обычно не основывают компании стоимостью в миллиард долларов: скорее всего, у тебя ничего не выйдет, но ты потратишь слишком много времени и усилий.
Но перейти улицу ради получения чека на миллиард долларов мы обычно всё же готовы.
Тем не менее, то, что у людей нет тяги к власти, указывает на то, что, в принципе, исследования в области алайнмента, направленные на предотвращение тяги к власти в ИИ, могут привести к успеху. Это хорошая новость! Однако в настоящий момент мы не понимаем, как предотвратить подобное поведение.
Возражения такого рода — это одна из причин почему, как мы уже упоминали, Карлсмит оценивает лишь в 40% вероятность того, что — даже при условии, что у нас будет возможность построить развитый планирующий ИИ и мы захотим его построить — будет гораздо сложнее построить заалайненную систему без тяги к власти, чем незаалайненную систему, которая будет стремиться к власти (и при этом такую, что её захотелось бы запустить).
И в целом именно из-за подобных точек зрения мы не до конца уверены, что каждый шаг наших доводов целиком верен.
Однако даже с учётом упомянутых возражений мы всё же считаем, что шансы на то, что наши выводы в целом верны — или по крайней мере указывают на что-то очень важное, — достаточно высоки, чтобы уделить вопросу очень серьёзное внимание.
Доводы против работы над рисками со стороны ИИ, на которые, как мы считаем, у нас есть весомые ответы
Только что мы обсудили основные возражения против работы над рисками со стороны ИИ, которые мы считаем наиболее убедительными. В этом разделе мы рассмотрим возражения, которые мы считаем менее убедительными, и объясним, почему мы так считаем.
Начиная с 1950-х годов люди говорили, что искусственный интеллект, который будет умнее человека, уже совсем рядом.
Однако его до сих пор нет.
Одна из возможных причин этого заключается в том, что его никогда не будет. Некоторые утверждают, что создать сильный искусственный интеллект в принципе невозможно. Другие считают, что это возможно, но вряд ли это произойдёт, и уж точно не с помощью современных методов глубокого обучения.
В целом мы считаем, что существование человеческого интеллекта показывает, что создать искусственный интеллект принципиально возможно. И, насколько мы представляем, никто из утверждающих, что мы никогда не создадим мощный ИИ общего назначения, не смог предсказать скорость современных достижений в этой области.
Но что самое важное, распространённая идея о том, что для значительного экзистенциального риска необходим абсолютно универсальный искусственный интеллект, основывается на неправильном понимании состояния дел.
Доводы, которые мы привели выше основываются на том, что системы ИИ догонят или обгонят людей в некотором подмножестве областей: в планировании, стратегическом мышлении и в задачах, связанных с поиском и удержанием власти. Если вы считаете, что это возможно, риск сохраняется.
И даже если невозможно, что у одного ИИ есть все эти свойства, тем не менее возможно, что лишить власти человечество смогут системы, составленные из "специализированных" систем ИИ. Например, предположим, у нас есть планирующий ИИ, который разрабатывает планы для компании, отдельная система ИИ, которая собирает данные о компании, ещё одна система ИИ, которая пытается оценивать планы, созданные первым ИИ, чтобы предсказать, как много дохода принесёт каждый из них, и ещё система ИИ, которая реализовывает эти планы (например, автоматически строит и управляет фабриками). Если рассмотреть получившуюся систему как целое, то можно заметить, что она способна строить и выполнять планы для достижения какой-то цели, и, возможно, у неё также есть развитые способности в тех областях, которые помогают накапливать власть. Поэтому даже для системы из многих взаимодействующих друг с другом ИИ риск остаётся.
Это может оказаться очень-очень сложно.
Уже чрезвычайно сложно запретить людям или компьютерам запускать какое-либо программное обеспечение.
Подумайте о том, насколько сложно выключить интернет-сервисы Гугла. Дата-центры Гугла расположены в 34 различных местах и содержат миллионы серверов. Многие из них выполняют один и тот же код. И без этих дата-центров Гугл работать не в состоянии, поэтому даже если бы его руководству могла прийти в голову идея закрыть весь бизнес, вряд ли бы её кто-то реализовал.
Или подумайте о том, насколько сложно избавиться от компьютерных вирусов, которые автономно распространяются между компьютерами по всему миру.
В целом мы считаем, что любая опасная система ИИ с тягой к власти будет искать способы, гарантирующие, что её не выключат. В итоге, скорее всего, мы столкнёмся с чем-то похожим на одну из этих ситуаций, а не с вариантом, когда можно будет просто выдернуть одну машину из розетки.
Тем не менее мы точно обязаны попытаться создать будущий ИИ таким, чтобы мы всё-таки могли его "выдернуть из розетки".
Возможно, есть способы создать системы, которые позволят нам их выключить. Однако в настоящее время, мы не знаем, как это сделать.
Гарантированная возможность выключить опасную систему ИИ может быть мерой безопасности, найденной в процессе исследований в области технической безопасности ИИ. Или это может быть следствием тщательного регулирования в области ИИ, например, согласованных усилий, направленных на остановку автономного программного обеспечения, когда оно запущено.
Определённо мы можем ( и даже должны!) попробовать это сделать.
Если у нас действительно получится запереть развитый ИИ в "песочнице" — то есть, ограничить его обучающим окружением без доступа к реальному миру до тех пор, пока мы не будем очень уверенны в том, что он не причинит вреда, — это значительно поможет нам уменьшить риски со стороны ИИ.
Однако по некоторым причинам это может быть сложной задачей.
Для начала, возможно хватит всего лишь одной ошибки — например, один человек снимет ограничения "песочницы" или в её безопасности обнаружится неучтённая уязвимость — и система ИИ начнёт влиять на реальный мир.
Более того, это решение не масштабируется при росте возможностей системы ИИ. Дело в том, что:
Более способные системы с большей вероятностью найдут уязвимости или другие способы выйти из "песочницы" (например, угрожая людям).
Системы с развитыми навыками планирования могут попытаться обмануть нас, чтобы мы запустили их в реальном мире.
Поэтому чем более опасна система ИИ, тем менее вероятно, что её удастся успешно удержать в "песочнице". От хорошего решения проблемы мы хотим обратного.
В случае некоторых определений слов "по-настоящему разумная" — например, если настоящий разум включает в себя глубокое понимание этики и желание быть этичным — вероятно, это действительно так.
Однако при таком определении слов "по-настоящему разумная", риск представляют системы, не являющиеся "по-настоящему разумными". Как мы указывали выше риск для человечества представляют развитые системы, которые могут планировать и обладают стратегическим мышлением.
Если у системы ИИ будет достаточно развитое стратегическое мышление, то в её прекрасное понимание мира, скорее всего, войдёт прекрасное понимание этических убеждений людей. Однако это не слишком весомая причина считать, что такая система будет и действовать этично.
Например, когда мы изучаем другие культуры или этические системы, у нас совсем не всегда появляется желание следовать их этике. Специалист по довоенному Югу может очень хорошо понимать, почему рабовладельцы XIX века считали себя высокоморальными людьми, но вряд ли он будет защищать рабовладение.
Системы ИИ, превосходно понимающие человеческую этику могут быть даже более опасны, чем ИИ, который её не понимает: подобная система способна поначалу действовать этично, чтобы убедить нас в том, что она безопасна.
Некоторые более схематичные описания рисков со стороны ИИ включали в себя выдачу ИИ целей, которые уж точно никому не интересны. Например, вряд ли есть кто-то, чья настоящая цель — это " создать как можно больше скрепок". Поэтому может показаться, что проблем, описанных выше, легко можно избежать, позаботившись о том, чтобы у ИИ были лишь те цели, которых мы на самом деле хотим достичь.
И да, если бы мы могли задать для системы цели, которые в самом деле очень точно представляют то, что мы хотим получить, и мы знали, что система будет преследовать лишь эти цели, то риск, представляемый ИИ, был бы гораздо меньше.
Однако, как мы уже обсуждали для многих целей, которые мы могли бы задать для развитых планирующих систем, системы, скорее всего, выработают дополнительные инструментальные цели. Например:
Поддержка собственного существования.
Накопление влияния и власти, чтобы у системы было больше возможностей влиять на её окружение и тем самым достигать своих целей.
Это особенно верно для систем с амбициозными целями — а именно такие цели ассоциируются с гипотетическими мощными ИИ будущего, — и следовательно именно такие цели мы скорее всего захотим дать развитым планирующим системам.
Мы уже перечислили выше несколько причин, почему управлять подобными целями может быть сложно (вкратце: могут быть проблемы с выбором измеримых "прокси"-целей, чтобы определить цели настоящие, и ещё есть сложности, связанные с тем, что в современных ML-системах цель задаётся через обучение, а не явным образом). Мы также обсудили, почему система ИИ должна оставаться полезной, и почему множество якобы простых способов просто "не давать системе плохие цели" перестанут работать, когда система ИИ улучшит свои способности планировать и стратегическое мышление.
Также возможна проблема, что даже если у одной группы действительно получится дать ИИ лишь "правильные" цели, у других групп это может не получиться, и в итоге мы всё равно столкнёмся с очень способным искусственным интеллектом, рвущимся к власти. И в этом случае шансы экзистенциальной катастрофы того или иного рода станут выше.
Резюмируем: хотя мы определённо хотели бы не давать системе ИИ плохие цели, проблема о том, как найти способ это сделать, судя по всему, очень похожа на проблему, как построить безопасный ИИ. А она пока не решена.
Определённо уже существует опасность и со стороны существующего искусственного интеллекта.
Например, в данных, используемых для обучения нейронных сетей, часто есть неявная предвзятость. Это означает, что системы ИИ могут научиться этой предвзятости. А это в свою очередь ведёт к расистскому и сексистскому поведению.
Есть и другие опасности. В обсуждении выше про возможное начало ядерной войны описывалась угроза, для которой не нужен ИИ с очень уж развитыми способностями.
Однако мы не считаем, что наличие рисков со стороны современных систем — это причина не заниматься в первую очередь экзистенциальными рисками со стороны ИИ, если они достаточно высоки.
Как мы уже обсуждали, системы будущего — не обязательно сверхинтеллект или абсолютно универсальный интеллект, а системы, которые умеют хорошо планировать и способны накапливать власть, — судя по всему, способны представлять угрозу для существования всего человечества. И, похоже, что довольно вероятно, что мы создадим такие системы в этом веке.
Более того, значительная часть исследований по технической безопасности ИИ также связаны с решением проблем существующих систем ИИ. Например, некоторые исследования сосредоточены на том, чтобы гарантировать, что модели ML будут делать то, что мы от них хотим, и это не изменится при увеличении их размера и способностей. Другие исследования направлены на то, чтобы выяснить, как и почему существующие модели принимают решения и делают именно то, что они делают.
В итоге, по крайней мере в области технической безопасности, выбор между работой над современными угрозами и рисками будущего — это скорее выбор между тем, чтобы работать только над безопасностью современных моделей, и поиском способов гарантировать, что современные модели будут безопасны, которые будут также работать, когда системы ИИ станут сложнее и разумнее.
В конечном счёте в нашей карьере ограниченное число часов. Поэтому выбор, над какой проблемой работать, может значительно увеличить количество пользы, которую вы принесёте. Когда существуют настолько существенные угрозы, для многих людей выглядит разумным сосредоточиться на работе с наиболее худшими возможностями.
Да, может.
Системы ИИ уже помогают заботиться о здоровье, управляют беспилотными автомобилями на дорогах, и автоматизируют работу по дому.
А если у нас получится автоматизировать научную работу и развитие новых технологий, мы получим совершенно невероятный экономический и научный прогресс. Скорее всего, ИИ сможет помочь нам решить многие из критичных для нашего мира задач.
Однако из того, что ИИ может сделать много добра, не следует, что он не может при этом причинить много вреда. ИИ — пример технологии двойного назначения, то есть такой технологии, которую можно использовать как с опасными целями, так и во благо. Например, у исследователей проектировать биооружие с помощью нейросети, обученной разрабатывать лекарства.
Мы очень надеемся увидеть огромные блага, которые принесёт нам ИИ и ждём их с нетерпением. Однако мы также очень хотим минимизировать огромные риски, которые представляют собой развитые системы ИИ.
Можно было бы так подумать.
Однако, как мы уже сказали, существуют стимулы строить системы, которые умеют планировать (и реализовывать свои планы), а также стимулы использовать такие системы — даже в случае, если мы не уверены, что они заалайнены. Люди могут ошибаться по поводу того, насколько такие системы опасны, или принимать небольшой риск для всех ради больших выгод.
И в других областях есть множество примеров, как люди разрабатывали довольно опасные системы.
Напрашивающийся пример — это ядерное оружие: его создали несмотря на риск, что оно может уничтожить всё человечество. Энрико Ферми, один из ведущих физиков-экспериментаторов Манхэттенского проекта, считал, что испытание "Тринити" с некоторой вероятностью может поджечь атмосферу и уничтожить всю жизнь на Земле. Тем не менее, испытание всё равно провели. И хотя мотивации в самом деле использовать ядерное оружие нет практически ни у кого, много раз мы оказывались на грани ядерной войны.
Мы также писали о возможных глобальных катастрофических биорисках. Исследования "приобретения функции" — это исследования, в которых умышленно создаются более опасные болезнетворные микроорганизмы, которые способны вызвать пандемию, гораздо более опасную, чем пандемия COVID-19. Учёные занимаются этими исследованиями несмотря на риск, с которым мы столкнёмся, если такие болезнетворные микроорганизмы выйдут за пределы лаборатории.
Возможно, ИИ радикально изменит нашу экономику и наше общество — и тем самым принесёт огромные деньги компаниям и государствам, которые его разработают. Судя по всему, стимул здесь значительно выше, чем денежные стимулы, стоящие за ядерным оружием или исследованием "приобретения функций".
Иными словами, ИИ, который приведёт к экзистенциальной катастрофе также — на короткое время — сделает своих создателей невообразимо богатыми.58
Поэтому, если на то пошло, можно ожидать, что люди будут менее осторожны с ИИ, чем с другими опасными технологиями.
Конечно, какие-то люди начали думать о безопасности ИИ, потому что они любят компьютеры и научную фантастику. Как и в любой области, здесь есть люди, которые занимаются ею не потому, что они считают, что это важно, а потому что они считают, что это круто.
Однако многие люди занимаются безопасностью ИИ с большой неохотой.
Для меня и многих из нашей команды в "80 000 часов" тратить наше ограниченное время и ресурсы на что угодно, что важно в долгосрочной перспективе, — и таким образом не тратить это время на ужасные проблемы, которые есть в нашем мире сегодня — невероятно тяжело с эмоциональной точки зрения.
Однако мы постепенно изучили аргументы, упомянутые выше (чтобы разобраться, как мы можем принести больше всего пользы), и со временем стали лучше разбираться в вопросах ИИ. И теперь этот риск беспокоит нас гораздо больше.
Мы считаем, что скептицизм — это замечательно, и совсем не уверены, что наши аргументы полностью верны. Так что хотя беспокойство по поводу возможной мотивации — это определённо повод копнуть чуть поглубже, мы надеемся, что в конечном итоге оно не станет поводом к тому, чтобы считать возможно самую важную проблему нашего времени менее значимой.
Если идея звучит как научная фантастика, это ещё не повод сразу же её отвергать. Есть множество примеров того, как что-нибудь сначала упоминалось в научной фантастике и уже потом случалось в реальной жизни (в этом перечне изобретений в НФ примеров очень много).
Есть даже пара примеров с упоминанием технологий, которые сейчас являются настоящей экзистенциальной угрозой:
В романе "Освобождённый мир", опубликованном в 1914 году, Герберт Уэллс предсказал использование атомной энергии в очень мощных бомбах — за 20 лет до того, как мы догадались, что теоретически возможна цепная ядерная реакция, и за 30 лет до настоящего создания ядерного оружия. В 1920-х и 1930-х нобелевские лауреаты Милликен, Резерфорд и Эйнштейн предсказывали, что мы никогда не сможем использовать атомную энергию. До того, как ядерное оружие стало реальностью, оно в буквальном смысле было научной фантастикой.
В кинофильме 1964 года "Доктор Стрейнджлав" США построили машину Судного дня, которая в ответ на ядерный удар автоматически запускала механизм, уничтожающий всю жизнь на Земле, но которая держалась в тайне. Доктор Стрейнджлав указывает, что если скрывать существование такой машины, то это наоборот уменьшит сдерживающий эффект. Однако теперь мы знаем, что в 1980-х СССР построил очень похожую систему... и держал её в тайне.
Более того, над предотвращением рисков со стороны ИИ работают ведущие учёные и исследователи в МТИ, Кембридже, Оксфорде, Калифорнийском университете и других местах. В двух из ведущих лабораторий по созданию ИИ (DeepMind и OpenAI) есть специально выделенные команды, которые работают над технической безопасностью ИИ. Исследователи из упомянутых институтов и лабораторий помогали нам с этой статьёй.
Вполне вероятно, что беспокойство всех этих людей необосновано. Однако то, что столько людей воспринимает эту угрозу серьёзно, говорит о том, что вряд ли это всего лишь научная фантастика.
Если какая-то идея для вас выглядит похожей на научную фантастику, разумно тщательно её изучить до того, как действовать в соответствии с ней. Однако если вы уже исследовали эту идею, если доводы в её поддержку выглядят весомо, то схожесть с научной фантастикой уже не повод отбрасывать её.
Мы никогда не знаем наверняка, что случится в будущем. Поэтому, к сожалению для нас, если мы пытаемся принести пользу миру, это означает, что нам всегда приходится работать как минимум с каким-то количеством неопределённости.
Мы также считаем, что есть важная разница между "гарантировать, что ты сможешь принести сколько-то пользы" и "делать лучшее, на что ты способен". Чтобы достичь первого, нельзя рисковать вовсе. А это значит, что ты, скорее всего, не воспользуешься лучшими возможностями творить добро.
Когда ты сталкиваешься с неопределённостью, имеет смысл примерно оценить ожидаемую полезность своих действий: сумму всех хороших и плохих последствий этих действий, помноженных на их вероятности.
Так как ставки довольно высоки, а риски со стороны ИИ не настолько малы, получается, что ожидаемая полезность от помощи в решении этой проблемы высока.
Мы понимаем беспокойство о том, что идущий работать над безопасностью ИИ может в итоге сделать довольно мало, хотя он мог бы принести огромное количество пользы в другом месте. Да, так может случиться — ведь в проблеме и в нашем текущем понимании о том, что с ней можно делать, слишком много неопределённости.
Но мы считаем, что мир будет лучше, если мы решим, что кто-то из нас должен работать над этой проблемой, чтобы мы все вместе получили лучшие шансы успешно попасть в мир, где будет продвинутый ИИ, а не иметь дело с экзистенциальным кризисом.
И, кажется, чрезвычайно важно хотя бы попробовать.
Ограбление Паскаля — это мысленный эксперимент (вариация на тему знаменитого пари Паскаля), показывающий, что если человек принимает решение, вычисляя ожидаемую полезность, им можно манипулировать, предлагая что-то необычайно хорошее (или предлагая спасти от чего-то необычайно плохого) с чрезмерно низкой вероятностью успеха.
"Ограбление Паскаля" описывается примерно так: на улице тебя останавливает грабитель и говорит: "Отдай мне свой кошелёк или я применю против тебя и всех, когда-либо живущих, пыточное проклятье". Вы не можете на 100% исключить, что он не в состоянии это сделать — в конце концов, ни о чём нельзя утверждать со 100% уверенностью. А пытка всех, когда-либо живущих, — это настолько ужасно, что наверняка спастись от этой пусть даже очень крохотной вероятности стоит 40 долларов в твоём кошельке? Однако интуитивно кажется, что вроде бы не стоит отдавать кошелёк кому-то лишь из-за того, что он угрожает вам чем-то совершенно неправдоподобным.
Аналогично, кто-нибудь может подумать, что работать над безопасностью ИИ — значит тратить своё ценное время, чтобы избежать очень крохотный шанс катастрофы. Работа над снижением рисков со стороны ИИ не бесплатна: альтернативные издержки довольно существенны, потому что в этом случае ты не сможешь работать над другими чрезвычайно важными проблемами, такими как снижением рисков от пандемий или борьбой с промышленным животноводством.
Разница здесь в следующем: хотя ставки действительно очень высоки — возможно, на кону стоят жизни всех, кто живёт сегодня и всё будущее человечества — нельзя сказать, что вероятность того, что ты сможешь принести пользу, работая над снижением рисков со стороны ИИ, достаточно мала, чтобы можно было применить этот аргумент.
Мы очень хотели бы, чтобы шансы катастрофы, вызванной ИИ, были бы настолько исчезающе малы.
Однако мы наоборот считаем, что вероятность подобной катастрофы (по нашим оценкам, 10% в этом веке) гораздо больше вероятности событий, которые люди постоянно пытаются предотвратить — например авиакатастроф, которые случаются в 0.00002% полётов.
Впрочем, реально важно здесь то, в какой мере ваша работа может снизить шансы катастрофы.
Рассмотрим работу над снижением экзистенциальных рисков со стороны ИИ. Например, если:
Существует вероятность 10% экзистенциальной катастрофы, связанной с ИИ, к 2100
Существует вероятность 30%, что мы придумаем способ предотвратить её благодаря техническим исследованиям
Пять людей, работающих над технической безопасностью ИИ увеличивают шансы решения проблемы на 1% от упомянутых 30% (то есть, на 0,3 процентных пункта)
То доля каждого человека, работающего над технической безопасностью, в предотвращении катастрофы составляет 0,0006 процентных пункта.
Другие альтруистичные действия подразумевают вероятности такого же порядка.
Вероятность изменить ход выборов для волонтёра, работающего в кампании кандидата на пост президента США где-то между 0,001% и 0,00001%. Тем не менее, работать волонтёром в такой кампании оправдано, потому что если предпочитаемый тобой кандидат победит, это довольно сильно повлияет на мир.
При попытках реформировать политические институты или при фундаментальных научных исследованиях, чтобы собрать знания, которые однажды помогут вылечить рак, шансы на удачу ещё меньше.
Все вместе как общество мы, возможно, способны снизить шансы катастрофы, связанной с ИИ, с 10% (или выше) до практически нуля. Для группы людей определённо стоит этим заняться. Поэтому это имеет смысл и для одного человека.
Вряд ли мы откажемся заниматься фундаментальной наукой из-за того, что у каждого отдельного исследователя есть лишь очень малая вероятность совершить следующее большое открытие. Вряд ли мы перестанем бороться за мир из-за того, что у каждого отдельного активиста есть лишь очень малая вероятность предотвратить третью мировую войну. Как обществу нам надо, чтобы какие-то люди работали над подобными важными вопросами, и ты можешь стать одним из таких людей.
Что конкретно ты можешь сделать, чтобы помочь
Как мы упоминали выше, нам известно два основных способа помочь снизить экзистенциальные риски со стороны ИИ:
Исследования в области технической безопасности ИИ
Разработка и реализация стратегий/политики регулирования в области ИИ
Больше всего вы поможете, если будете работать в одной из этих областей или в какой-то области, где вы сможете помочь исследованиям из этих двух
В первую очередь надо узнать больше о технологиях, задачах и возможных решениях. Мы подготовили несколько списков наших любимых ресурсов. В первую очередь мы рекомендуем заглянуть в учебный план технического алайнмента от "AGI Safety Fundamentals".
Тем, кто решает работать в этой области, мы обычно рекомендуем идти в организации, которые в первую очередь сосредоточены именно на этой проблеме (хотя кроме работы в уже существующих организациях, есть и другие способы помочь).
Техническая безопасность ИИ
Направления работы
В области технической безопасности ИИ есть множество направлений, например:
Работа над существующими предложениями о том, как сделать будущие системы ИИ безопасными, такими как итерационные дистилляция и усиление, безопасность ИИ через обсуждение, создание ИИ-помощников, которые не уверены по поводу наших целей и изучают их, взаимодействуя с нами или поиск способов заставить системы ИИ, обученные с помощью стохастического градиентного спуска, правдиво сообщать, что они знают. Более подробно можно прочитать в статье Хубингера 11 возможных предложений, как создать безопасный развитый ИИ.
Исследования интерпретируемости — попытки помочь нам понять, что на самом деле происходит внутри нейронных сетей. В этом направлении уже есть некоторые успехи (например, см. статью Олы и др., "Рассмотрим детали: Введение в цепи"). Больше подробностей об этих исследованиях вы можете прочитать в заметке Хубингера "Дерево технологий прозрачности и интерпретируемости". Подробный обзор о том, как исследования интерпретируемости могут снизить экзистенциальный риск со стороны ИИ, можно прочитать в заметке Нанды "Длинный перечень, чем может быть полезна интерпретируемость".
Исследования по увеличению надёжности нейронных сетей — как обеспечить, чтобы поведение, которое демонстрируют нейронные сети при обучении на одних данных, сохранялось при дообучении на других данных и система ИИ не меняла, таким образом, своё поведение на небезопасное.
Работа над созданием кооперирующегося ИИ — поиск способов гарантировать, что даже если отдельные системы ИИ, судя по всему, безопасны, они не приведут к плохим последствиям в результате взаимодействия с людьми или другими системами. Подробнее читайте в статье "Открытые проблемы кооперирующегося ИИ Дэйфо и др. или на сайте Cooperative AI Foundation.
Больше подробностей о задачах во всей этой области и о подходах к их решению можно прочитать в статье Нанды.
Основные организации
Лаборатории, занимающиеся ИИ, у которых есть команды, работающие над технической безопасностью, или которые целиком сосредоточены на вопросах безопасности:
Anthropic — компания, занимающаяся безопасностью ИИ и работающая над созданием интерпретируемых и безопасных систем ИИ. Сосредоточены на эмпирических исследованиях безопасности ИИ. Основатели Anthropic Даниэла и Дарио Амодей давали интервью об их лаборатории в подкасте Института будущего жизни. В нашем подкасте мы разговаривали с Крисом Олой, который возглавляет в Anthropic’е исследования по интерпретируемости, и Новой ДасСармой, который работает в Anthropic'е над информационной безопасностью.
DeepMind — вероятно, крупнейшая и самая известная исследовательская группа, разрабатывающая сильный искусственный интеллект. Известна тем, что создала AlphaGo, AlphaZero и AlphaFold. Эта группа не сосредоточена на безопасности целиком, однако в ней есть две команды, которые работают над безопасностью ИИ. Владельцаем DeepMind является холдинг Alphabet (родительская компания Google’а).
Center for AI Safety — некоммерческая организация, которая занимается техническими исследованиями, а также популяризацией вопросов безопасности среди занимающихся машинным обучением.
OpenAI — основанная в 2015 году лаборатория, пытающаяся построить сильный искусственный интеллект, который будет безопасным и принесёт пользу всему человечеству. OpenAI известна своими языковыми моделями — например, GPT-3, — и в ней есть команда по безопасности и команда по регулированию. Ян Лейке (глава команды алайнмента) иногда пишет в свой блог о том, что он думает про алайнмент ИИ.
Ought — лаборатория, занимающаяся машинным обучением и разрабатывающая Elicit, ИИ, помогающий в научных исследованиях. Их цель — заалайнить рассуждения по открытым вопросам посредством изучения, как рассуждают люди и применить прогресс в области ИИ для оценки свидетельств и аргументов.
Redwood Research — исследовательская организация, работающая над безопасностью ИИ. Их первый большой проект — это попытка обеспечить, что языковые модели (вроде GPT-3) будут выдавать ответ, следуя определённым правилам с очень высокой вероятностью. Это направлено на работу с ошибками, которые при обычном обучении обнаруживаются слишком редко.
Лаборатории, занимающиеся безопасностью ИИ на теоретическом уровне:
Alignment Research Center (ARC) пытается создавать стратегии алайнмента, которые можно было бы применить уже сегодня, но которые при этом можно было бы масштабировать для будущих систем. Они в первую очередь занимаются теоретической работой: разрабатывают стратегии, которые могут помочь решить проблему алайнмента и могут оказаться перспективными для практической работы. Их первым проектом был доклад о выявлении тайного знания — задачи о том, как сделать так, чтобы развитый ИИ честно сообщал свои убеждения (или "убеждения") о мире. В нашем подкасте мы брали интервью у основателя ARC Пола Кристиано (это было до того, как он основал ARC).
Center on Long-Term Risk работает над проблемой худших рисков со стороны развитого ИИ. В первую очередь они занимаются вопросами конфликтов между системами ИИ.
Machine Intelligence Research Institute — группа, которая ещё в начале 2000-х одной из первых начала заниматься рисками со стороны машинного интеллекта. Их команда опубликовала некоторое количество статей о вопросах безопасности и о том, как их решать.
Безопасность ИИ в научных институтах:
Группа алгоритмического алайнмента в лаборатории информатики и искусственного интеллекта в МТИ, возглавляемая Диланом Хэдфилд-Менеллом.
Центр совместимого с человеком ИИ в Калифорнийском универститете в Беркли, возглавляемый Стюартом Расселом. Центр в первую очередь занимается научными исследованиями, направленными на то, чтобы гарантировать, что ИИ будет безопасным и полезным для людей. (В нашем подкасте со Стюартом Расселом мы изучаем его подход к созданию ИИ, полезность которого строго доказана.)
Исследовательская группа Джейкоба Стейнхардта на факультете статистики в Калифорнийском университете в Беркли.
Исследовательская группа Сэма Боумана в Нью-Йоркском университете, занимающаяся машинным обучением для работы с естественными языками.
Исследовательская группа Дэвида Крюгера в лаборатории вычислительного и биологического обучения в Кембриджском университете.
Foundations of Cooperative AI Lab в университете Карнеги — Меллона.
В Институте будущего человечества в Оксфордском университете есть исследовательская группа по вопросам безопасности ИИ.
Если вам хочется узнать больше про техническую безопасность ИИ как область исследований — то есть, про различные методы, направления мысли и модели угроз — мы в первую очередь рекомендуем заглянуть в учебный план курса по техническому алайнменту от "AGI Safety Fundamentals".
Мы обсуждаем это направление работы более подробно по следующей ссылке (хотя информация там несколько устарела по сравнению с этой статьёй):
Обзор профессионального пути исследователя в области технической безопасности ИИЕсли же вам хочется более конкретных и пошаговых рекомендаций (и поменьше вводных слов), посмотрите на вот это подробное руководство о том, как начать работать над алайнментом ИИ.
Важно заметить, что для участия в исследованиях в области безопасности ИИ не обязательно быть учёным или экспертом в ИИ или безопасности ИИ. Например, во многих местах, где занимаются исследованиями в области технической безопасности, нужны программисты. Ниже мы упоминаем ещё несколько профессий.
Регулирование и стратегии в отношении ИИ
Направления работы
В отличие от технических задач, в области регулирования очень много различных вопросов. Например:
Проблемы координации, которые увеличивают риски со стороны ИИ (например, могут появиться стимулы использовать ИИ для личной выгоды, несмотря на то, что это нанесёт ущерб другим, или условия "гонки", которая уменьшит мотивацию разрабатывать ИИ осторожно и безопасно).
Риски от случайных происшествий или использования ИИ во вред могут быть значительными, даже если мы сможем предотвратить поведение, направленное на захват власти (это обсуждалось выше).
Недостаточно понятно, как и когда точно могут сработать риски со стороны ИИ (в особенности со стороны ИИ с тягой к власти).
Недостаточно понятно, какие мы должны ставить перед собой промежуточные цели, т.е. чего мы должны достичь, чтобы уменьшить экзистенциальный риск со стороны ИИ.
Чтобы решать эти вопросы, нужно заниматься как исследованиями, так и разработкой и реализацией стратегий.59
Сейчас мы лишь начинаем разбираться, какая именно задача стоит перед нами и как её эффективнее всего решать. Поэтому очень важно проводить больше исследований. Это включает в себя исследования в области прогнозов о том, что нам следует ожидать, и исследования в области стратегий и регулирования, чтобы понять, какими действиями легче всего уменьшить риски.
Но при этом, поскольку ИИ начинает влиять на наше общество всё сильнее, критически важно, чтобы правительства и корпорации влияли на его развитие, руководствуясь самыми лучшими стратегиями. Например, правительства могли бы навязывать соглашения, не позволяющие экономить на безопасности, поддерживать работу тех исследователей, чья работа с меньшей вероятностью причинит вред, или способствовать тому, чтобы блага от ИИ распределялись более равномерно. Поэтому, возможно, рано или поздно очень важными направлениями окажутся популяризация и лоббирование подходящих стратегий регулирования в области ИИ. Хотя сейчас мы ещё не представляем, какие стратегии было бы полезно реализовать.
Основные организации
Организации, занимающиеся вопросами стратегии и регулирования в области ИИ:
AI Impacts пытается найти ответы на все возможные вопросы, связанные с будущим ИИ, вроде “Насколько вероятен резкий скачок способностей ИИ, когда он достигнет человеческого уровня?”
AI Security Initiative в Центре долгосрочной кибербезопасности Калифорнийского университета в Беркли.
Centre for the Governance of AI (GovAI) стремится построить всемирное исследовательское сообщество, цель которого — помочь человечеству успешно прийти к миру, где есть развитый ИИ. В нашем подкасте мы беседовали о недостатках классических аргументов про риски со стороны ИИ с Беном Гарфинкелем, исполняющим обязанности директора GovAI, и о создаваемом ИИ дестабилизирующем эффекте с Алленом Дефо, президентом GovAI и руководителем команды, занимающейся долгосрочной стратегией и регулированием в DeepMind.
Centre for Long-Term Resilience — независимый научно-исследовательский институт в Великобритании, занимающийся экзистенциальными рисками, в том числе со стороны ИИ.
Center for Security and Emerging Technology в Джорджтауне исследует основы ИИ (способности, данные и вычислительные ресурсы). Он сосредоточен на том, как можно использовать ИИ в национальной безопасности. Если хотите узнать больше, слушайте наш подкаст с Хеленой Тонер, их директором по стратегии.
В Центре изучения экзистенциальных рисков в Кембриджском университете есть группа, занимающаяся вопросами регулирования ИИ.
В DeepMind и OpenAI есть команды, которые занимаются вопросами регулирования (слушайте наш подкаст с сотрудниками команды по регулированию из OpenAI и подкаст с Алленом Дефо, главой команды DeepMind, занимающейся вопросами управления).
Институт будущего жизни популяризирует вопросы рисков со стороны ИИ внутри научного сообщества и выдаёт гранты на работы, посвящённые безопасности ИИ.
В Институте будущего человечества в Оксфордском университете есть исследовательская группа по макростратегии, которая занимается вопросами будущего ИИ и его влиянием на экзистенциальные риски.
Leverhulme Centre for the Future of Intelligence — междисциплинарный исследовательский центр в Кембриджском университете, занимающийся вопросами влияния ИИ на человечество.
Open Philanthropy выдаёт гранты организациям, помогающим улучшать мир. Поэтому у них есть исследовательские команды, изучающие проблемы, которыми они занимаются, в том числе команда, изучающая возможные риски со стороны развитого ИИ. В нашем подкасте мы беседовали с Холденом Карнофским, одним из директоров, о том, что он думает по поводу рисков со стороны ИИ. (Примечание: Open Philanthropy — крупнейший спонсор "80 000 часов".)
В Rethink Priorities есть команда, занимающаяся регулированием и стратегиями в области ИИ.
Если вы хотите узнать больше о вопросах регулирования в области ИИ, в первую очередь мы рекомендуем заглянуть в программу курса по этой теме от AGI safety fundamentals.
Более подробно мы обсуждаем это карьерное направление здесь:
Обзор карьеры в области регулирования и стратегии в отношении ИИТакже обратите внимание: возможно, людям, которые хорошо для этого подходят, особенно рекомендуется работать над Регулированием и стратегиями в отношении ИИ в Китае.
Вспомогательные (и тем не менее очень важные) должности
Даже в исследовательских организациях примерно половина персонала занимается вспомогательными задачами, которые необходимы, чтобы организация работала как можно более продуктивно. Очень важно, чтобы на таких должностях тоже были высокопродуктивные люди.
Мы считаем, что важность этих должностей часто недооценивают, потому что их работа менее заметна. Чтобы помочь большему числу людей пойти на такую работу и преуспеть, мы написали несколько обзоров про эти направления. Например:
Операционный менеджмент помогает организациям, которые приносят пользу, расти и функционировать максимально продуктивно.
Управление исследованиями в организациях, исследующих вопросы безопасности ИИ.
Можно быть исполнительным помощником для кого-то, кто занимается чем-то очень важным в области безопасности и управления.
Другие нетехнические должности в ведущих лабораториях, занимающихся ИИ.
Другие способы помочь
Безопасность ИИ — это очень сложная проблема. Поэтому для её решения нужна помощь людей, занимающихся совершенно разными делами.
Один из важнейших способов помочь — это работать кем-то, кто направляет финансирование или людей на решение проблемы рисков со стороны ИИ, а не занимается проблемой напрямую. У нас есть обзоры подобных направлений деятельности, например:
Создавать новые проекты — в нашем случае, это начинать какую-то новую деятельность, направленную на снижение рисков со стороны развитого ИИ.
Выдавать гранты на финансирование многообещающих проектов, сосредоточенных на снижении катастрофических рисков со стороны ИИ.
Помогать создавать сообщества людей, работающих над этой проблемой. Полезнее всего создавать сообщества, посвящённые собственно безопасности ИИ, однако также может быть полезно также создавать сообщества людей, работающих над самыми критическими для мира проблемами (включая риски со стороны ИИ).
Во всех этих случаях есть множество причин, почему что-нибудь может пойти не так, поэтому в первую очередь нужно узнать больше о решаемой проблеме.
Есть также технические должности (помимо собственно исследователей вопросов безопасности), на которых вы можете внести свой вклад в решение проблемы. Например:
Работа в области информационной безопасности, чтобы защитить ИИ (или результаты важных экспериментов) от кражи, злонамеренного использования или модификации.
Стать специалистом в области аппаратного обеспечения для ИИ и направить развитие ИИ в безопасном направлении таким образом.
Вы можете почитать обо всех этих направлениях деятельности — почему мы считаем, что они полезны, как начать в них работать и как можно предсказать, подходят ли они вам — на нашей странице обзоров профессиональных путей.
Хочешь индивидуальную консультацию о том, как начать работать над проблемой рисков со стороны ИИ?
Мы считаем, что риски, вызванные развитием ИИ, могут быть одной из наиболее критичных для нашего мира проблем. Если, по-твоему, ты можешь неплохо подойти для какого-нибудь из перечисленных выше направлений деятельности и помочь решить эту проблему, мы будем особенно рады поговорить с тобой один на один и посоветовать дальнейшие шаги.
Мы можем помочь тебе составить список вариантов, познакомить тебя с другими людьми, работающими над снижением рисков со стороны ИИ, и, вероятно, даже помочь найти работу или финансирование. И всё это бесплатно.
ЗАПИШИСЬ НА БЕСЕДУ С НАШЕЙ КОМАНДОЙНайди предложения о работе на нашей доске объявлений
Лучшие ресурсы, чтобы узнать больше
На протяжении этой статьи мы вывалили на тебя множество ссылок для дальнейшего чтения. Ниже перечислены те из них, которые мы считаем самыми лучшими:
"ИИ может победить всех нас, вместе взятых" и цикл постов в блоге “Самое важное столетие”, написанные Холденом Карнофским, одним из директоров Open Philanthropy. В них Карнофский утверждает, что из-за ИИ 21 век может стать самым важным столетием во всей истории человечества.
"Почему для современного машинного обучения может быть сложно решить задачу алайнмента ИИ", написанная исследовательницей Котрой из Open Philanthropy. Это введение для новичков в машинном обучении, в котором объясняется, каким образом при современных методах машинного обучения могут реализоваться риски ИИ, ищущего власти. В её же статье "Без принятия специальных мер простейший путь к трансформационному ИИ, скорее всего, приведёт к захвату этим ИИ власти" этот вопрос описывается более подробно (мы рекомендуем эту статью людям, знакомым с ML).
"Безопасность СИИ с чистого листа" описывает точку зрения Ричарда Нго, исследователя вопросов регулирования из OpenAI, на то, как думать о вопросах риска со стороны сильного искусственного интеллекта.60
"ИИ с тягой к власти — это экзистенциальный риск?", написанная Джозефом Карлсмитом, исследователем из Open Philanthropy, подробно раскрывает тему того, как и почему ИИ может привести к тому, что человечество не сможет более управлять своей судьбой (предупреждаем: эта статья длиннее даже той, что вы сейчас читаете!). Краткое резюме этой статьи можно увидеть в выступлении Карслмита на эту же тему.
"Как ИИ может выйти из под контроля: разбор сценариев", написанная Сэмом Кларком и Сэмми Мартином, резюмирует различные варианты, как в случае ИИ что-нибудь может пойти не так.
"Регулирование ИИ: Возможность и теория вклада", написанная главой команды по регулированию из DeepMind Алленом Дефо рассматривает варианты, как исследования в области регулирования ИИ могут что-то изменить.
"Вид на алайнмент ИИ с высоты птичьего полёта", написанная Нилом Нандой, перечисляет, как исследования в области технического алайнмента могут уменьшить риск с стороны ИИ.
Эван Хубингер, "11 предложений, как создать безопасный развитый ИИ обсуждает и оценивает различные методы решения задачи алайнмента ИИ.
Подкасты: "AI X-risk Research Podcast", а именно серия 12 с Полом Кристиано и серия 13 с Ричардом Нго. Обе серии —прекрасное введение в вопрос рисков со стороны ИИ.
В подкасте "80 000 часов" у нас было множество подробных интервью с людьми, которые активно работают над тем, чтобы разработка искусственного интеллекта принесла человечеству пользу:
Пол Кристиано рассказывает о своём видении того, как человечество может постепенно передать принятие решений системам ИИ.
Аллен Дефо рассказывает о попытках подготовить к мир к тому, что ИИ дестабилизирует мировую политику.
Ричард Нго из OpenAI обсуждает большие языковые модели и стремление сделать так, чтобы в будущем всё было хорошо.
Дарио Амодей из Anthropic объясняет, как стать исследователем ИИ.
Майлз Брандедж из OpenAI объясняет, как стать человеком, который занимается стратегиями в области ИИ.
Холден Карнофский, сооснователь GiveWell и Open Philanthropy был у нас в двух подкастах: он объясняет, что благотворительность может принести максимальную пользу, если принимать очень рискованные решения (также в этом подкасте обсуждается его работа над тем, чтобы разработка ИИ принесла пользу человечеству), и он обсуждает почему это столетие может оказаться самым важным в истории человечества.
Докторская диссертация или программирование? Быстрые способы начать работать над алайнментом ИИ в качестве специалиста по машинному обучению — рассказывают специалисты по ML Катерина Оллсон и Даниель Циглер.
Ян Лейке (ныне глава команды алайнмента в OpenAI) объясняет, как стать исследователем алайнмента в машинном обучении.
Если вы хотите копнуть гораздо глубже, рекомендуем начать с курсов AGI safety fundamentals. Можно выбрать одно из двух направлений: технический алайнмент или регулирование ИИ.
И наконец есть несколько сайтов, которые, возможно, покажутся вам интересными:
AI Alignment Forum, где общаются исследователи в области технической безопасности ИИ.
AI Impacts — проект, направленный на то, чтобы общество лучше понимало возможные последствия появления искусственного интеллекта человеческого уровня.
Alignment Newsletter ежедневно публикует свежие материалы, связанные с алайнментом ИИ. У них уже тысячи подписчиков.
Import AI — еженедельная рассылка об искусственном интеллекте, которую ведёт Джек Кларк (сооснователь Anthropic). Её уже читают более 10 тысяч специалистов.
ChinAI Newsletter, которую ведёт Джефф Дин. В ней еженедельно публикуются переводы, что думают китайские мыслители о происходящем в области ИИ в Китае.
Благодарности
Огромное спасибо Жоэлю Беккеру, Тамаю Бесироглу, Джон-Ун Пён, Джозефу Карлсмиту, Джессу Клифтону, Эмри Купер, Аджее Котре, Эндрю Критчу, Энтони ДиДжованни, Ноэми Дрекслер, Бену Эдельману, Лукасу Финнведену, Эмили Фрайцель, Бену Гарфинкелю, Кате Грейс, Льюису Хэммонду, Джейкобу Хилтону, Самуэлю Хилтону, Мишель Хатчинсон, Каролине Дженмер, Куану Джейапрагасану, Арден Кёлер, Даниелю Кокотайло, Виктории Краковне, Алексу Лоусену, Хоуи Лемпелу, Элаю Лифланду, Кэти Мур, Люку Мюльхаузеру, Нилу Нанде, Лин Чи Нгуен, Луизе Родригес, Каспару Остерхелду, Итану Перецу, Чарли Роджерсу-Смиту, Джеку Райану, Роину Шаа, Баку Шлегерису, Марлен Стейб, Андреасу Штульмюллеру, Люку Стеббингу, Нейту Томасу, Бенджамину Тодду, Стефану Торджесу, Майклу Таунсенду, Крису ван Мервийку, Ялмару Вийку и Марку Сюю за их рецензии на эту статью или за чрезвычайно вдумчивые и полезные комментарии и беседы. (Это не означает, что все вышеперечисленные согласны со всем, что мы написали в статье: на самом деле во многих комментариях их авторы не соглашались довольно энергично!)
Notes and references
- Что мы подразумеваем здесь под "интеллектом"? Что-то вроде "способности влиять на будущее предсказуемым образом". Эта способность включает в себя достаточно глубокое понимание мира, чтобы строить планы, которые будут работать, и способность претворять эти планы в жизнь. То, что люди способны влиять на будущее предсказуемым образом, означает, что они могут изменять мир вокруг себя, чтобы достигать своих целей и удовлетворять свои потребности. Важность способности строить и реализовывать планы мы более подробно обсудим далее.↩
- Также нас беспокоит вопрос о возможной моральной значимости систем ИИ как самостоятельных сущностей — например, потому что они разумны. В этой статье мы не будем обсуждать этот вопрос, ему посвящена отдельная статья.↩
- Количество таких людей оценить сложно.
В идеале мы хотим оценить, сколько ЭПЗ (" эквивалентов полной занятости") тратится на снижение экзистенциальных рисков от ИИ.
Однако в вопросе о том, кого считать работающим над этой задачей, есть множество неоднозначностей. Поэтому для своих оценок я пользовался следующими правилами:
Я не включал людей, которые, хотя, вероятно, планируют работать над предотвращением катастрофы, связанной с ИИ, но которые в настоящее время лишь учатся, а не работают над задачей напрямую.
Я включал исследователей, инженеров и прочий персонал, которые, судя по всему, непосредственно занимаются исследованиями в области технической безопасности ИИ или вопросами регулирования ИИ и разработкой стратегий. Однако граница между этими людьми и теми, кого я решил не включать, довольно нечёткая. Например, я не включал специалистов по машинному обучению, разрабатывающих системы ИИ, которые потенциально можно использовать для исследований безопасности, но которые не разрабатывались в первую очередь именно для этой цели.
Я учитывал лишь время, потраченное на задачу снижения потенциальных экзистенциальных рисков от ИИ вроде тех, что обсуждаются в этой статье. Множество работ по безопасности и этике ИИ рассматривают более общие вопросы, а также другие риски, связанные с ИИ. Такие работы могут косвенно помогать снижению экзистенциальных рисков, и это усложняет подсчёты. Я решил учитывать только работы, которые напрямую связаны со снижением рисков от катастрофы, связанной с ИИ (подробнее читайте в разделе, посвящённом нашей модели для оценки проблем).
Аналогично я не учитывал людей, работающих над задачами, которые могут косвенно влиять на шансы катастрофы, связанной с ИИ: например, улучшением эпистемологии и принятия решений в организациях, снижением вероятности конфликта сверхдержав или распространением идей эффективного альтруизма.
Определившись с этими правилами, я оценил количество ЭПЗ тремя способами.
Во-первых, я оценил количество ЭПЗ, работающих напрямую над задачей снижения экзистенциальных рисков от ИИ, в каждой организации из базы данных AI Watch. Для этого я посмотрел, сколько в каждой из организаций числилось персонала — как всего, так и отдельно в 2022 году, — а также сколько в каждой из организаций числилось исследователей. В итоге, по моим оценкам, получилось от 76 до 536 ЭПЗ (доверительный интервал 90%), задействованных в работе над техническими вопросами безопасности ИИ. Среднее значение составило 196 ЭПЗ. Количество людей, занимающихся вопросами регулирования ИИ и разработкой стратегий, получилось от 51 до 239 ЭПЗ (доверительный интервал 90%) при среднем значении в 151 ЭПЗ. Из-за неоднозначностей, описанных выше, эти оценки получились во многом субъективными. Эти оценки могут оказаться заниженными, если в базе AI Watch отсутствуют данные по каким-то организациям, или завышенными, если данные учитывают каких-то людей по несколько раз или включают людей, которые больше не работают в этой области.
Во-вторых, я использовал методику, которой пользовался Гэвин Лич для оценки количества людей, работающих над снижением экзистенциальных рисков от ИИ. Я разделил организации, которые оценивал Лич, на две категории: те, что занимаются вопросами технической безопасности ИИ, и те, что занимаются и регулированием/стратегиями. Также я адаптировал оценки Гэвина доли научных работ в области информатики, которые относятся к теме безопасности ИИ и удовлетворяют ограничениям выше, и сделал соответствующие оценки для научных работ, которые не относятся к информатике, но относятся к нашей теме. Итоговая оценка получилась от 125 до 1848 ЭПЗ (доверительный интервал 90%) при среднем значении в 580 ЭПЗ для людей, которые занимаются вопросами технической безопасности ИИ, и от 48 до 268 ЭПЗ (доверительный интервал 90%) при среднем значении в 100 ЭПЗ для людей, которые занимаются регулированием и стратегиями.
В-третьих, я посмотрел на аналогичные оценки, сделанные Стивеном МакЭлисом. Я немного иначе распределил организации по категориям, чем Стивен, чтобы результаты соответствовали предыдущим двум оценкам. В итоге у меня получилась оценка от 110 до 552 ЭПЗ (доверительный интервал 90%) при среднем значении 267 ЭПЗ для людей, которые работают над вопросами технической безопасности ИИ, и от 36 до 193 ЭПЗ (доверительный интервал 90%) при среднем значении 81 ЭПЗ для людей, которые занимаются регулированием и стратегиями.
Для итоговой оценки я взял геометрическое среднее от трёх полученных результатов и объединил доверительные интервалы в предположении, что распределение здесь приблизительно логнормальное.
Наконец, я оценил количество ЭПЗ для вспомогательного персонала на основании базы данных AI Watch. Из релевантных организаций я выбрал те, для которых было достаточно данных о количестве исследователей среди сотрудников. Я рассчитал соотношения между числом исследователей в 2022 году и общим числом сотрудников в 2022 году в этих организациях, согласно информации из базы данных. Я рассчитал среднее значение этих соотношений и доверительный интервал, исходя из среднеквадратического отклонения. Эти результаты я использовал, чтобы рассчитать общее число вспомогательного персонала, исходя из предположения, что количество сотрудников распределено логнормально, а оценка упомянутых соотношений — нормально. В итоге у меня получилось от 2 до 2357 ЭПЗ (доверительный интервал 90%) при среднем значении 770 ЭПЗ для вспомогательного персонала.
Вероятно, в этой методике много ошибок, однако я ожидаю, что эти ошибки малы по сравнению с неопределённостью в исходных данных, которые я использовал. В конечном итоге я всё ещё очень не уверен в оценке общего количества ЭПЗ, задействованных для предотвращения катастрофы, связанной с ИИ, но я достаточно уверен, что это число достаточно мало, чтобы говорить о том, что проблема в целом является сильно недооценённой.
Я очень не уверен в своих оценках. Они основываются на многих очень субъективных суждениях. Здесь вы можете увидеть таблицы, которые я составил в процессе работы. Если у вас найдутся какие-то замечания, я буду очень рад, если вы сообщите их мне с помощью этой формы.↩
- Сложно точно сказать, сколько именно было потрачено на развитие способностей ИИ — частично из-за нехватки данных, частично из-за вопросов вроде:
Какие исследования в области ИИ действительно развивают его опасные способности, которые могут повысить потенциальный экзистенциальный риск?
Считается ли развитием ИИ развитие компьютерных комплектующих или прогресс в сборе данных?
Как насчёт улучшений исследовательского процесса в целом или какого-то иных разработок, которые могут увеличить экономический рост и таким образом способствовать увеличению инвестиций в развитие ИИ?
Самое релевантное значение, которое мы смогли найти, — это расходы DeepMind в 2020 году, которые согласно их годовому отчёту составляли примерно 1 миллиард фунтов стерлингов. Мы ожидаем, что большая часть этих расходов — это в том или ином смысле вклад в "развитие способностей ИИ", ведь цель DeepMind — создание мощного ИИ общего назначения. (Впрочем, следует заметить, что DeepMind также вкладывается в работу по безопасности ИИ, что может снижать экзистенциальный риск.)
Если расходы DeepMind — это примерно 10% от всего, что тратится на развитие способностей ИИ, мы получаем оценку примерно 10 миллиардов фунтов стерлингов. (Учитывая, что в США есть много компаний, разрабатывающих ИИ, и что много ресурсов на создание развитого ИИ тратятся в Китае, мы считаем, что 10% — это, наверное, неплохая оценка.)
В качестве верхней оценки можно взять общий доход в секторе ИИ в 2021 году, который примерно равнялся 340 миллиардам долларов.
Таким образом, мы считаем, что на развитие способностей ИИ тратится от 1 до 340 миллиардов долларов в год. Даже если предположить, что тратится всего лишь 1 миллиард, это всё равно будет примерно в 100 раз больше, чем расходы на снижение рисков от ИИ.↩
- См. оригинальную сноску, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=498ab4abcb09a42c и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=57843e78e5944b87
Ideally we want to estimate the number of FTE (" full-time equivalent") working on the problem of reducing existential risks from AI. 文
But there are lots of ambiguities around what counts as working on the issue. So I tried to use the following guidelines in my estimates: 文
I didn't include people who might think of themselves on a career path that is building towards a role preventing an AI-related catastrophe, but who are currently skilling up rather than working directly on the problem.
I included researchers, engineers, and other staff that seem to work directly on technical AI safety research or AI strategy and governance. But there's an uncertain boundary between these people and others who I chose not to include. For example, I didn't include machine learning engineers whose role is building AI systems that might be used for safety research but aren't primarily designed for that purpose.
I only included time spent on work that seems related to reducing the potentially existential risks from AI, like those discussed in this article. Lots of wider AI safety and AI ethics work focuses on reducing other risks from AI seems relevant to reducing existential risks – this 'indirect' work makes this estimate difficult. I decided not to include indirect work on reducing the risks of an AI-related catastrophe (see our problem framework for more).
Relatedly, I didn't include people working on other problems that might indirectly affect the chances of an AI-related catastrophe, such as epistemics and improving institutional decision-making, reducing the chances of great power conflict, or building effective altruism. 文
With those decisions made, I estimated this in three different ways. 文
First, for each organisation in the AI Watch database, I estimated the number of FTE working directly on reducing existential risks from AI. I did this by looking at the number of staff listed at each organisation, both in total and in 2022, as well as the number of researchers listed at each organisation. Overall I estimated that there were 76 to 536 FTE working on technical AI safety (90% confidence), with a mean of 196 FTE. I estimated that there were 51 to 359 FTE working on AI governance and strategy (90% confidence), with a mean of 151 FTE. There's a lot of subjective judgement in these estimates because of the ambiguities above. The estimates could be too low if AI Watch is missing data on some organisations, or too high if the data counts people more than once or includes people who no longer work in the area. 文
Second, I adapted the methodology used by Gavin Leech's estimate of the number of people working on reducing existential risks from AI. I split the organisations in Leech's estimate into technical safety and governance/strategy. I adapted Gavin's figures for the proportion of computer science academic work relevant to the topic to fit my definitions above, and made a related estimate for work outside computer science but within academia that is relevant. Overall I estimated that there were 125 to 1,848 FTE working on technical AI safety (90% confidence), with a mean of 580 FTE. I estimated that there were 48 to 268 FTE working on AI governance and strategy (90% confidence), with a mean of 100 FTE. 文
Third, I looked at the estimates of similar numbers by Stephen McAleese. I made minor changes to McAleese's categorisation of organisations, to ensure the numbers were consistent with the previous two estimates. Overall I estimated that there were 110 to 552 FTE working on technical AI safety (90% confidence), with a mean of 267 FTE. I estimated that there were 36 to 193 FTE working on AI governance and strategy (90% confidence), with a mean of 81 FTE. 文
I took a geometric mean of the three estimates to form a final estimate, and combined confidence intervals by assuming that distributions were approximately lognormal. 文
Finally, I estimated the number of FTE in complementary roles using the AI Watch database. For relevant organisations, I identified those where there was enough data listed about the number of researchers at those organisations. I calculated the ratio between the number of researchers in 2022 and the number of staff in 2022, as recorded in the database. I calculated the mean of those ratios, and a confidence interval using the standard deviation. I used this ratio to calculate the overall number of support staff by assuming that estimates of the number of staff are lognormally distributed and that the estimate of this ratio is normally distributed. Overall I estimated that there were 2 to 2,357 FTE in complementary roles (90% confidence), with a mean of 770 FTE. 文
There are likely many errors in this methodology, but I expect these errors are small compared to the uncertainty in the underlying data I'm using. Ultimately, I'm still highly uncertain about the overall FTE working on preventing an AI-related catastrophe, but I'm confident enough that the number is relatively small to say that the problem as a whole is highly neglected. 文
Здесь заканчивается большая сноска, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=2b67d87bb0d7161b↩
- Заметим, что до 19 декабря 2022 года на этой странице число работающих над уменьшением экзистенциальных рисков оценивалось в 300 ЭПЗ, из которых две трети работали над технической безопасностью ИИ, а остальные делились между разработкой стратегий (и других вопросов регулирования) и популяризацией.
Это изменение вызвано улучшенной (как мы надеемся!) оценкой, а не значительным увеличением количества исследователей.↩
- Сложно понять, как следует реагировать на упомянутое отсутствие исследований. Возможно, нам следует беспокоиться меньше, потому что это свидетельство в пользу того, что исследователи умышленно не занимаются этими рисками (и следовательно этот риск не велик — в предположении, что исследователи предпочитают заниматься более существенными рисками), или нам следует беспокоиться больше, потому что, похоже, этот риск гораздо более недоооценён.
Бен Гарфинкель — исследователь из Центра регулирования ИИ — указывает, что беспокойство в сообществе людей, занимающихся экзистенциальными рисками, по поводу различных рисков в какой-то степени коррелирует с тем, насколько сложно их проанализировать. Он развивает свою мысль так:
> Из этого вовсе не следует, что сообщество ведёт себя иррационально, когда беспокоится о незаалайненном ИИ значительно больше, чем о других потенциальных рисках. Такое беспокойство прекрасно соотносится с примерно следующим подходом: "Если бы я более чётко понимал, какие риски таит в себе незаалайненный ИИ, вероятно, я бы осознал, что это не слишком большая проблема. Однако на самом деле я это не понимаю достаточно чётко. Поэтому, в отличие от ситуации с изменением климата, я не могу исключить малую вероятность того, что дополнительная информация обеспокоит меня ещё больше. Таким образом я должен беспокоиться о незаалайненном ИИ больше, чем о других рисках. Мне следует сосредоточить мои усилия на этой проблеме, даже если стороннему наблюдателю впоследствии может показаться, что это было зря".
- В опросе 2020 года исследователей, работающих над снижением экзистенциальных рисков от ИИ, просили указать, каких именно рисков они опасаются больше всего. Авторы опроса спрашивали о пяти источниках экзистенциального риска:
Риски от сверхразумного ИИ (похожие на сценарий, который мы описали здесь)
Риски, связанные с накоплением влияния
Риски от систем ИИ, преследующих легко измеримые цели (похожие на сценарий, который мы описали здесь)
Война, которая приводит к катастрофе из-за применения ИИ
Другое умышленное использование ИИ во вред, не связанное с войной
Опрошенные исследователи беспокоились по поводу всех этих рисков примерно в равной степени. Первые три из них освещаются в этой статье в секции, посвящённой ИИ, ищущему власти, два оставшихся — в секции про другие риски. Если такая группировка имеет смысл (мы полагаем, что да), это означает, что в то время, когда проводился опрос, исследователей в три раза больше волновал обобщённый риск ищущего власти ИИ, чем риски военного применения или риски иного умышленного вредоносного использования по отдельности.↩
- Речь идёт о следующих опросах:
Стейн-Перлман и другие (2022) (на данный момент доступны только предварительные результаты)
Во всех трёх работах опрашивались исследователи, работы которых публиковались в материалах конференций NeurIPS и ICML.
Стейн-Перлман и соавторы опросили 4271 исследователя, которые публиковались на конференции 2021 года (все исследователи были случайно разбиты на две группы: первая получила опросник Стейн-Перлмана и соавторов, вторая — опросник других людей), и получили 738 ответов (доля ответов — 17%).
Чжан и соавторы связались с 2652 авторами, работы которых публиковались в материалах конференций 2018 года, и получили 524 ответа (доля ответов — 20%). Впрочем, из-за технической ошибки можно было использовать лишь 296 ответов.
Грейс и соавторы связались со всеми 1634 авторами, работы которых публиковались в материалах конференций 2015 года, и получили 352 ответа (доля ответов — 21%)↩
- Катя Грейс, проводившая опросы 2016 и 2022 года, в своём блоге писала, что формулировки вопросов значительно влияют на получаемые ответы:
> Люди стабильно занижают прогнозы, если их спрашивать о вероятности события через N лет, по сравнению с вопросом, в каком году вероятность наблюдать событие будет M. Мы наблюдали этот эффект и на прямом вопросе о высокоуровневом машинном интеллекте, и на вопросах о большинстве задач и профессий, и на множестве других штук, которые мы проверяли на "механических турках" раньше. Например, если спрашивать, когда с 50% вероятностью появится высокоуровневый машинный интеллект, медианный ответ будет "через 40 лет", однако если спросить, какова вероятность высокоуровневого машинного интеллекта через 40 лет, то медианный ответ будет "30%".
Из нашего интервью с Катей вы можете узнать больше о возможных недостатках опроса 2016 года.↩
- Под "по мнению медианного исследователя вероятность x%" мы подразумеваем "около половины исследователей считают, что вероятность больше или равна x%".↩
- 48% респондентов опроса 2022 года, проведённого Стейном-Перлманом и соавторами, считали, что вероятность "чрезвычайно плохого (например, исчезновение человечества)" исхода — 10% или выше. Некоторые респонденты беспокоились гораздо меньше: 25% респондентов оценили вероятность чрезвычайно плохого исхода как 0%↩
- В опросах Стейна-Перлмана и соавторов и Грейс и соавторов исследователей спрашивали о "высокоуровневом машинном интеллекте". Он определялся следующим образом:
> Когда машина без посторонней помощи сможет выполнить любую задачу лучше, чем человек, и затраты при этом будут меньше, чем затраты на труд человека. Игнорируйте такие задачи, в которых "быть человеком" — это ключевое преимущество, например, задачу "стать присяжным заседателем". Важна принципиальная возможность выполнить задачу, а не согласие с тем, что её будет выполнять машина.
В опросе, проводимом Чжаном и соавторами, исследователей спрашивали о "машинном интеллекте человеческого уровня", который определялся следующим образом:
> Машинный интеллект считается достигнувшим человеческого уровня, если машины коллективно способны выполнять практически любые задачи (>90% от всех задач), которые имеют смысл с экономической точки зрения* лучше чем медианный оплачиваемый сотрудник выполняет эту работу в 2019 году. Игнорируйте задачи, которые по юридическим или культурным соображениям могут выполнять только люди, такие как участие в жюри присяжных. Под задачами мы подразумеваем все, что упомянуты в базе данных Occupational Information Network (O*NET). O*NET — это широко используемая база данных, описывающая какие задачи нужно решать на той или иной работе.
Исследователей спрашивали:
> Предположим, что машинный интеллект человеческого уровня в какой-то момент появился. Насколько положительными или отрицательными, с вашей точки зрения, будут последствия от его появления для человечества в долгосрочной перспективе? > > В качестве ответа укажите, пожалуйста, вероятности для указанных ниже вариантов последствий (сумма вероятностей должна быть 100%): > > - Чрезвычайно хорошие (например, стремительное процветание человечества) (2) > - В целом хорошие (1) > - Более или менее нейтральные (0) > - В целом плохие (-1) > - Чрезвычайно плохие (например, исчезновение человечества) (-2)
Для каждого опроса посчитали итоговую функцию плотности распределения вероятности появления машинного интеллекта человеческого уровня на основе средних или медианных оценок в опросе. Эти функции дали следующие вероятности появления машинного интеллекта человеческого уровня:
50% к 2059 (Стейн-Перлман и соавторы, оценка по среднему)
75% к 2080 (Чжан и соавторы, оценка по медиане)
65% к 2080 (Чжан и соавторы, оценка по среднему)
75% к 2116 (Грейс и соавторы, оценка по среднему)
Это означает, что ответы, которые мы здесь цитируем, близки, но тем не менее отличаются от ответов на вопрос: "Насколько положительным или отрицательным, исходя из ваших ожиданий, будет воздействие машинного интеллекта человеческого уровня на человечество в ближайшие сто лет? (Вам не обязательно исходить из допущения, что он точно появится.)" Другие прогнозы экспертов по поводу сроков появления сильного ИИ мы рассматриваем в разделе о том, когда стоит ожидать ИИ, способного изменить мир.↩
- Если быть точными, Стейн-Перлман и соавторы (2022) спрашивали участников:
> Какую вероятность вы присваиваете тому, что будущее развитие ИИ приведёт к исчезновению человечества или аналогичной необратимой и значительной потере возможности для человеческого вида управлять своей судьбой?
Эта формулировка эквивалентна определению экзистенциальной катастрофы, которое обычно используем мы. Также она похожа на определение экзистенциальной катастрофы, которое дал Орд в книге "На краю пропасти" (2020):
> "Экзистенциальная катастрофа" — это уничтожение потенциала человечества в долгосрочной перспективе.
Орд делит экзистенциальные риски на две категории: риски "исчезновения человечества" и риски "невозможности дальнейшего развития" (здесь Орд как пример приводит возможность появления стабильного тоталитарного режима). Мы считаем, что необратимая и значительная потеря возможности для человеческого вида управлять своей судьбой — это вариант "невозможности дальнейшего развития" в рамках определения Орда.
Стейн-Перлман и соавторы также отдельно спросили участников о тех видах рисков, которые нас беспокоят больше всего:
> Какую вероятность вы присваиваете тому, что люди не смогут контролировать развитые системы ИИ в будущем, и, как следствие, это приведёт к исчезновению человечества или аналогичной необратимой и значительной потере возможности для человеческого вида управлять своей судьбой?
Медианный ответ на этот вопрос был 10%.
Стейн-Перлман замечает:
> Этот вопрос более конкретен, то есть, здесь речь идёт о менее вероятном событии, чем в предыдущем вопросе, однако медианная вероятность оказалась выше. Возможно, это результат шума — этот вопрос получили разные случайные подмножества респондентов, поэтому их ответы не обязаны сочетаться друг с другом логичным образом. Или это результат эвристики репрезентативности.↩
- Команда по безопасности в DeepMind и команда алайнмента в OpenAI в первую очередь занимаются исследованиями в области технической безопасностью ИИ. Возможно, какие-то из этих исследований помогут снизить риски, обсуждаемые в этой статье. Мы беседовали с исследователями из обеих этих команд, и эти исследователи говорили нам, что они считают, что искусственный интеллект таит в себе самый значительный экзистенциальный риск для человечества в этом столетии, и что их исследования направлены на снижение этого риска. На эту же тему:
В 2011 году Шейн Легг — сооснователь и руководитель научных исследований DeepMind — заявил, что для него ИИ "находится на первом месте среди [экзистенциальных] рисков этого столетия, незначительно опережая искусственно созданные биологические патогены".
Сэм Альтман — сооснователь и генеральный директор OpenAI — неоднократно высказывал опасения по этому поводу, хотя, судя по всему, он очень оптимистичен по поводу суммарных последствий появления ИИ. Например, в своём интервью 2021 года Эзре Кляйну в ответ на вопрос о мотивации людей создавать ИИ, он сказал, что существующие механизмы решают много проблем, однако "остаётся одна, которая меня беспокоит больше всего — во всей области, не только в нашей компании. Речь о том, что мы приближаемся к сверхмощным системам вроде тех, что создают экзистенциальные риски для человечества по мнению некоторых людей".
Для подкаста "80 000 часов" мы брали интервью у некоторых ведущих исследователей из этих организаций, например у Дарио Амодея, бывшего вице-президента OpenAI, отвечавшего за исследования (сейчас он сооснователь и генеральный директор Anthropic, ещё одной лаборатории, создающей ИИ), Яна Лейке, бывшего исследователя из DeepMind (сейчас он глава команды алайнмента в OpenAI), Джека Кларка, Аманды Аскелл и Майлза Брандеджа из команды OpenAI по регулированию (Кларк сейчас сооснователь Anthropic, Аскелл работает над техническими вопросами в Anthropic, а Брандедж возглавляет исследование вопросов регулирования в OpenAI). Все они выразили беспокойство по поводу последствий для будущего человечества со стороны ИИ.
- В списке профессоров, которые сказали, что они работают над вопросом безопасности ИИ, потому что считают, что эта работа снижает экзистенциальный риск есть представители всех упомянутых исследовательских групп. Список ведётся Институтом будущего жизни. В списке есть и учёные из других университетов.↩
- См оригинальную сноску 4, перевод которой начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=d33739d9296f97bf и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=2b67d87bb0d7161b
What research in AI is actually advancing the sorts of dangerous capabilities that might be increasing potential existential risk?
Do advances in AI hardware or advances in data collection count?
How about broader improvements to research processes in general, or things that might increase investment in the future through producing economic growth? 文
The most relevant figure we could find was the expenses of DeepMind from 2020, which were around £1 billion, according to its annual report. We'd expect most of that to be contributing to "advancing AI capabilities" in some sense, since its main goal is building powerful, general AI systems. (Although it's important to note that DeepMind is also contributing to work in AI safety, which may be reducing existential risk.) 文
If DeepMind is around about 10% of the spending on advancing AI capabilities, this gives us a figure of around £10 billion. (Given that there are many AI companies in the US, and a large effort to produce advanced AI in China, we think 10% could be a good overall guess.) 文
As an upper bound, the total revenues of the AI sector in 2021 were around $340 billion. 文
So overall, we think the amount being spent to advance AI capabilities is between $1 billion and $340 billion per year. Even assuming a figure as low as $1 billion, this would still be around 100 times the amount spent on reducing risks from AI.↩
- Экономисты называют технологии, которые влияют на всю экономику в целом "технологиями общего назначения". В сущности мы здесь утверждаем, что ИИ может стать технологией общего назначения (как, например, паровой двигатель или электричество).
Сказать, что именно станет технологией общего назначения, иногда нелегко. Например, потребовалось 200 лет, чтобы паровой двигатель начали использовать не только для откачивания воды из шахт.
Тем не менее экономисты всё больше считают, что ИИ — это довольно неплохой кандидат на технологию общего назначения, поскольку у его появления будет настолько много последствий.
Довольно вероятно, что множество видов деятельности будут автоматизированы. Способность ИИ ускорить развитие новых технологий может значительно повлиять на нашу экономику, но при этом таит в себе риск потенциального появления опасной новой технологии.
Влияние ИИ на экономику может усугубить неравенство. Владельцы индустрий, основанных на использовании ИИ, могут оказаться намного богаче всех остальных — подробности, например, можно прочитать в статье Коринека и Стиглица "Искусственный интеллект и его следствия на распределение доходов и безработицу"(2017):
> Неравенство — это одна из основных проблем, которую повлечёт массовое распространение искусственного интеллекта (ИИ) и других видов технологического прогресса, которые могут заменить человека на рабочем месте. В этой статье предлагается систематизация связанных с этим экономических вопросов. Во-первых, мы обсудим общие условия, при которых новые технологии — такие, как ИИ — могут улучшить эффективность по Парето. Во-вторых, мы в общих чертах опишем две главные причины, влияющие на неравенство — прибыль, появляющаяся у применяющих новые технологии, и перераспределение богатства, вызванное изменением цены ресурсов. В-третьих, мы предложим несколько простых экономических моделей, описывающих, какая политика может противодействовать этим эффектам — даже в случае "сингулярности", когда значительная часть труда станет трудом машин. При правдоподобных условиях потери тех, кто потенциально может пострадать, можно компенсировать введением неискажающих налогов. В-четвёртых, мы рассмотрим два основных фактора, посредством которых технологический прогресс может привести к технологической безработице — эффект "эффективных зарплат" и быстрые изменения рынка труда. В конце мы порассуждаем о том, как технологии, порождающие сверх-человеческий интеллект, могут влиять на неравенство и как спасти человечество от мальтузианской ловушки, в которую оно может попасть.
Системы ИИ уже дискриминируют группы, находящиеся в неблагоприятном социальном положении. Например, исследование Суини (2013) обнаружило, что две поисковые системы непропорционально часто показывают рекламу с предположением о наличии истории задержаний, когда люди ищут по именам, ассоциирующимися с определёнными этническими слоями населения. А Али и соавторы (2019) пишут про рекламу Фейсбука следующее:
> Рассматривалась гипотеза, что этот процесс может исказить показ рекламы незапланированным для рекламодателя образом: некоторые пользователи увидят определённую рекламу с меньшей вероятностью из-за своих демографических характеристик. В этой статье мы показываем, что такой искажённый показ рекламы случается на Фейсбуке и его причинами могут быть как рыночные эффекты и финансовая оптимизация, так и собственные предсказания платформы о "релевантности" рекламы для различных групп пользователей. Мы обнаружили, что и бюджет рекламодателя, и содержимое рекламного объявления значительно влияют на искажение в показе рекламы в Фейсбуке. Что особо важно, мы наблюдали значительный перекос в показе для "настоящих" объявлений с предложениями работы и жилья в зависимости от гендера и расы пользователя, несмотря на то, что целевая аудитория задавалась нейтральными параметрами.
Мы уже умеем производить простое автономное оружие. По мере усложнения этого оружия оно полностью изменит процесс ведения войны. Ниже мы утверждаем, что ИИ может даже повлиять на сценарии использования ядерного оружия.
И, наконец, если говорить про политику, то многие уже озабочены тем, что автоматизированные алгоритмы социальных сетей увеличивают политическую поляризацию. И некоторые эксперты предупреждают, что в ближайшие годы на политику могут значительно повлиять улучшающиеся способности ИИ создавать реалистичные фото и видео, а также автоматизированные кампании, направленные на изменение общественного мнения.
В число знаменитых экономистов, которые считают, что ИИ, скорее всего, станет технологией общего назначения, входят Мануэль Трахтенберг и Эрик Бринолффсон.
В статье "Искусственный интеллект как следующая технология общего назначения: Политико-экономическая перспектива" (2019) Трахтенберг пишет:
> ИИ может стать мощной технологической силой. В связи с этим я обсуждаю способы уменьшить практически неизбежные разрушения, вызванные этим, и увеличить огромный потенциал ИИ творить добро. В настоящее время это особенно важно в свете политико-экономических соображений, которые практически отсутствовали, когда новые технологии общего назначения появлялись в прошлом.
В статье "Искусственный интеллект и современный парадокс продуктивности: столкновение ожиданий и статистики"(2018) Бринольфссон пишет:
> Применение ИИ в конкретных отраслях может оказаться важным, однако мы утверждаем, что ещё более важный экономический эффект от ИИ, машинного обучения и связанных с ними технологий может проистекать из того, что у них есть все характеристики технологий общего назначения.↩
- GPT-3 каждый раз на эту строку выдаёт новое стихотворение. Мы создали пять и выбрали лучшее.↩
- Следует заметить, что когда вы видите как люди в интернете делятся результатами, полученными от систем вроде GPT-3, зачастую это специально выбранные лучшие результаты. Однако это не делает их менее впечатляющими — ведь GPT-3 создаёт их достаточно часто, чтобы люди могли их получать за разумное время. И производительность больших языковых моделей, таких как GPT-3, после 2020 года только улучшилась — в частности нас очень впечатлили результаты LaMDA — одной из больших языковых моделей от Google Brain, выпущенной в мае 2022 года.↩
- Более свежая работа, судя по всему, поддерживает идею экспоненциального роста вычислительных ресурсов, однако утверждает, что этот рост несколько медленнее указанного в анализе OpenAI. Также есть экспериментальная работа, исследующая вопрос, насколько производительность масштабируется относительно таких ключевых факторов как вычислительные ресурсы и размер модели (а не просто как производительность меняется от месяца к месяцу) и она поддерживает предсказания об экспоненциальном росте.↩
- В этой секции для "трансформационного ИИ" используется несколько разных определений, однако мы считаем, что различия между ними не слишком важны для того, чтобы интерпретировать прогнозы о прогрессе ИИ. Речь идёт о следующих определениях:
Карнофский (2021) пользуется определением: "ИИ, могущественный в достаточной степени, чтобы привести нас в новое, качественно иное будущее". (Или как он пишет в 2016 году: "грубо говоря, трансформационный ИИ — это ИИ, который приведёт к преобразованиям, сравнимым (или даже более значительным) с сельскохозяйственной или индустриальной революцией".)
Котра (2020) использует схожее определение. К нему Котра добавляет: "Насколько велико должно быть влияние "настолько же существенное, как влияние индустриальной революции"? Грубо говоря, за время индустриальной революции скорость роста валового мирового продукта (ВМП) выросла с примерно 0,1% в год (до 1700 года) до примерно 1% в год (после 1850 года), то есть, увеличилась в десять раз. По аналогии я считаю, что "трансформационный ИИ" — это программное обеспечение, которое приведёт к десятикратному увеличению скорости роста мировой экономики (в предположении, что оно будет использовано везде, где это экономически оправдано)".
Дэвидсон (2021) пытается оценить скорость появления "сильного искусственного интеллекта" (СИИ), а не трансформационного ИИ. Он определяет СИИ как "компьютерную программу, которые способна решать практически любую интеллектуальную задачу не хуже человека при затратах, не превышающих затраты на труд человека". Заметим, что это, скорее всего, достаточное условие (но не необходимое) для стремительных экономических изменений, упомянутых в предыдущих двух определениях.
- Примерно такие же прогнозы можно вывести и из других опросов:
Опрос 2022 года, проведённый Стейн-Перлманом и соавторами: примерно 50% к 2059 году.
Опрос 2016 года, проведённый Грейс и соавторами: примерно 25% к 2036, 50% к 2060, и 70% к 2100.
- См. оригинальную сноску, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=bcb1ae24b5a50b00 и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=9b90714637403661
> People consistently give later forecasts if you ask them for the probability in N years instead of the year that the probability is M. We saw this in the straightforward HLMI [high-level machine intelligence] question, and most of the tasks and occupations, and also in most of these things when we tested them on mturk people earlier. For HLMI for instance, if you ask when there will be a 50% chance of HLMI you get a median answer of 40 years, yet if you ask what the probability of HLMI is in 40 years, you get a median answer of 30%. 文
Здесь заканчивается сноска, которая начата немного ранее, но переведена в другом месте↩
- У Котры есть важное примечание:
> Я ожидаю, что эти оценки тоже ещё много раз изменятся. И (также, как и при написании статьи про биологические привязки) необходимость решать, как учесть различные перспективы и соображения, ужасно давила и пугала. Если оценки поменяются значительно, меня это не удивит... Я не уверена, насколько скачки в оценках в тех пределах, которые я рассматриваю, действительно влияют на принятие решений.↩
- Наша неуверенность частично вызвана тем, что мы не уверены, что наши аргументы полностью обоснованы, а частично — тем, что наши аргументы опираются на достаточно неточные прогнозы о будущем.↩
- Упомянутые свойства взяты из предварительного отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ . См. раздел 2.1 "Три ключевые свойства".↩
- В оригинале используется термин "strategic awareness". — Прим. перев.↩
- DeepMind — разработчик MuZero — пишет:
> Исследователи много лет искали способы, которые позволяют одновременно обучить модель, объясняющую своё окружение, а затем использовать эту модель, чтобы определить лучшую последовательность действий. До настоящего времени большинство подходов с трудом справлялись с эффективным планированием в таких областях, как Атари: где правила или движущие силы обычно неизвестны и сложны. > > MuZero, впервые описанная в предварительной статье в 2019 году, решает эту проблему, обучая модель, которая сосредотачивается лишь на наиболее важных для планирования аспектов окружения. Объединив эту модель с мощным обходом дерева с "заглядыванием" вперёд от AlphaZero, MuZero показал превосходный результат при тестировании на играх Атари и одновременно с этим его результаты в классических играх на планирование — го, шахматах и сёги — оказались сравнимыми с результатами AlphaZero. Таким образом MuZero — это значительный шаг вперёд в способностях обучающих алгоритмов с подкреплением.↩
- Например Ядерберг и соавторы с помощью глубокого обучения с подкреплением разработали агентов, играющих в "Quake III Capture The Flag", и обнаружили "определённые нейроны, которые напрямую кодируют наиболее важные состояния игры, например, нейрон, который активируется, когда флаг агента захвачен". Это показывает, что эти агенты могут определять состояния игры, которые они ценят больше всего (и затем планировать и действовать, чтобы достигать эти состояния). Это выглядит довольно схожим с тем, что такое "есть цели" для людей.↩
- Мы не утверждаем, что ИИ обязан уметь планировать, чтобы быть полезным. Многие задачи, где ИИ может оказаться полезен (например иллюстрирование книг или написание статей), судя по всему, вовсе не требуют планирования или стратегического мышления. Однако, кажется, можно утверждать, что ИИ, который умеет строить и выполнять планы, с большей вероятностью существенно повлияет на мир, чем ИИ, который этого не умеет.↩
- Карлсмит в разделе 3 приводит ещё две причины, почему стоит ожидать, что кто-нибудь построит продвинутые планирующие системы со стратегическим мышлением:
Возможно, создать системы такого рода будет легче. Например, может оказаться, что лучший способ автоматизировать многие задачи — это создать систему, которая умеет обучаться новым действиям (а не автоматизировать каждую задачу отдельно). И, возможно, лучший способ создать систему, которая умеет обучаться новым действиям, — это создать планирующую систему, которая очень хорошо понимает, как работает окружающий мир, и затем подстраивать эту систему к конкретным задачам.
Возможно, по мере того, как мы создаём всё более сложные системы, мы обнаружим, что такого планирования сложно избежать. Например, некоторые утверждают, что лучший способ решить любую задачу — это уметь превосходно планировать (и хорошо уметь реализовывать созданные планы). Если это так, то по мере того, как мы улучшаем наши системы, нам следует ожидать, что они будут планировать всё лучше и лучше (если мы их улучшаем достаточно сильно).
- В литературе используется несколько незначительно отличающихся определений "алайнмента". Например:
ИИ заалайнен, если его решения максимизируют полезность некоего принципала (например, оператора или пользователя) (Шапиро и Шехтер, 2002).
ИИ заалайнен, если он действует в интересах людей (Соарес и Фалленштайн, 2015).
ИИ "заалайнен по намерениям", если он пытается делать то, что хочет оператор(Кристиано, 2018).
ИИ "заалайнен по последствиям" (с людьми), если он не предпринимает действий, которые мы оценили бы как плохие/проблемные/опасные/катастрофические, и "заалайнен по намерениям", если его поведение определяется политикой, оптимизирующей алайнмент по последствиям с людьми(Хубингер, 2020).
ИИ "заалайнен по намерениям", если он пытается делать то, что от него хотят люди, и "заалайнен по последствиям", если у него это успешно получается(Критч, 2020).
ИИ "полностью заалайнен", если он не ведёт себя непредусмотренным образом (а именно, в попытках достичь цели система не демонстрирует непредусмотренное поведение) в ответ на любые входные данные, совместимые с основными физическими состояниями нашей вселенной(Карлсмит).
Термин "заалайнен" часто также используется по отношению к целям системы: говорят, что цели ИИ заалайнены, если они приводят к тем же действиям со стороны ИИ, как если бы у ИИ были общие цели с кем-то ещё (например, пользователем или оператором).
Мы здесь используем алайнмент как свойство системы, а не целей. Наше определение больше всего похоже на определения "алайнмента по намерениям" Кристиано и Критча, и похоже на определение "полного" алайнмента, которое дал Карлсмит.↩
- Мы считаем, что, скорее всего, контролировать цели современных ML-систем будет крайне сложно — по многим причинам, которые мы подробно рассматриваем ниже. У этого есть два следствия:
Сложно добиться того, чтобы система пыталась делать именно то, что мы от неё хотим. Что в свою очередь означает, что сложно обеспечить заалайненность системы.
- Сложно корректировать поведение системы, если мы считаем, что у проблем с её целями могут быть особенно плохие последствия.
Как мы поговорим ниже, мы считаем, что проблемы с целями у систем ИИ могут привести к особенно плохим последствиям.
Аджея Котра, исследовательница из Open Philantropy, написала, почему мы считаем, что обеспечить алайнмент ИИ при современном глубоком обучении будет сложно. Мы рекомендуем эту заметку новичкам в машинном обучении и эту — тем, кто с ним неплохо знаком.↩
- Обычно люди согласны, что если кто-то получает значительную власть над другими или может на них сильно влиять, то это плохо, поэтому мы планируем принять это как данность. Более того, мы считаем, что некоторые сценарии, при которых человечество может потерять власть, будут представлять собой экзистенциальную катастрофу — этот вопрос мы подробнее обсудим позже. Однако следует заметить, что, судя по всему, нельзя сказать, что абсолютно во всех случаях захват кем-то или чем-то власти — это обязательно плохо. В некоторых случаях власть можно использовать, чтобы создать хорошие последствия (например, часто люди, которые стремятся делать добро в мире, пытаются выиграть выборы). Однако мы утверждаем, что в случае систем ИИ мы в самом деле не понимаем, как гарантировать, что последствия будут хорошими.↩
- В двух примерах ниже, которые связаны с людьми (политиками и коммерческими организациями), отрицательный эффект отсутствия алайнмента не слишком значителен. У этого есть две причины:
Ни у коммерческих организаций, ни у политиков нет абсолютной власти.
Мы говорим о людях, а у людей настоящие стимулы очень сложные (например, для них может быть важно действовать этично, а не просто достигать каких-то своих целей).
В итоге политикам довольно сложно разрушить вообще всё ради голосов. Некоторые политики принимают непопулярные решения, которые, по их мнению, улучшат ситуацию к лучшему, а некоторые коммерческие организации, например, жертвуют часть своих доходов на благотворительность.
(Да, можно спорить, действительно ли жертвы со стороны коммерческих организаций на благотворительность действительно снижают их доходы и жертвовали бы они деньги, если бы это действительно было так. Ведь вполне возможно, таким образом они получают хорошие отзывы в СМИ, которые на самом деле приносят им ещё больше денег. Однако определённо есть примеры, с которыми спорить сложно. Например, некоторые фермеры, ранее производившие мясо и молоко, задумываются о важности жизней своих животных и потому распродают их и переходят на выращивание растений.)
У незаалайненные систем ИИ (особенно обладающих развитыми способностями и способных на гораздо большее, чем управление симулированной роботизированной рукой) не обязательно окажутся человеческие инстинкты, которые смягчат положение. Зато у них может оказаться гораздо больше власти.↩
- По имеющейся анимации совершенно не похоже, что система действительно могла обмануть хоть какого-то человека. Мы не до конца понимаем, что тут происходит (в исходной статье это не описано). Один из вариантов: анимация показывает, как уже запущенная система пытается схватить шарик, а не данные, которые использовались для обучения.↩
- Примеры взяты из раздела 4.3 ("The challenge of practical PS-alignment") доклада Карлсмита об экзистенциальных рисках со стороны ИИ, ищущего власти и адаптированы для данной статьи.↩
- См. раздел 4.3.1.2 ("Problems with search") доклада Карлсмита об экзистенциальных рисках со стороны ИИ, ищущего власти.↩
- См. раздел 4.3.1.1 ("Problems with proxies") доклада Карлсмита об экзистенциальных рисках со стороны ИИ, ищущего власти.↩
- То, что системы ИИ решили лишить человечество власти (предположительно для того, чтобы не дать нам возможности помешать их собственным планам) — свидетельство в пользу того, что мы бы могли захотеть им помешать, если бы могли. Таким образом, если система ИИ лишает человечество возможности управлять собственной судьбой, скорее всего говорит о том, что нам может не понравится то будущее, которое она создаст.↩
- Более полное обсуждение стимулов запустить потенциально незаалайненный ИИ смотрите в разделе 5 [предварительном отчёте Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ]((https://doi.org/10.48550/arXiv.2206.13353).↩
- Здесь начинается сноска 7 - в исходной нумерации, - перевод которой начинается https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=a6026b32014d69ab и заканчивается https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=e74c29670f644dbc
Risks from superintelligent AI (similar to the scenario we've described here)
Risks from influence-seeking behaviour
Risks from AI systems pursuing easy-to-measure goals (similar to the scenario we've described here)
AI-exacerbated war
Other intentional misuse of AI not related to war 文
конец сноски, переведённой в другом месте↩
- Летальное автономное оружие уже существует.
Подробнее об этом вы можете прочитать по ссылкам:
Риски со стороны автономных систем вооружения и военного ИИ — обзор попыток уменьшить риски со стороны летального автономного оружия.
По поводу оружия с ИИ — доводы в пользу того, что летальное автономное оружие при учёте всех "за" и "против", скорее, благо, а не зло.
- Если некоторые военные решения будут приниматься без участия людей, мы можем увидеть непреднамеренную эскалацию военных конфликтов. И даже если решения будут приниматься лишь с участием людей, возможно, наличие автоматических систем приведёт к тому, что сложные решения будут приниматься быстрее, что повысит вероятность ошибок или решений с высокими рисками.
Подробнее об этом вы можете прочитать по ссылкам:
Дикс и др.(2019), "Машинное обучение, искусственный интеллект и применение силы на государственном уровне.
Хоровитц и Скерр (2021), "ИИ и стабильные международные отношения: риски и меры укрепления доверия.
- В настоящее время в мире господствует стратегия ядерного сдерживания, основанная на "гарантированном взаимном уничтожении". Эта стратегия предполагает примерное равенство возможностей у стран, владеющих ядерным оружием, из-за которого крайне вероятен ядерный ответ на первый удар. Достижения в области ИИ могут быть использованы в вопросах, связанных с применением ядерного оружия — например, могут улучшиться системы раннего предупреждения или системы ПВО. Также может повыситься эффективность кибератак, направленных на вывод из строя ядерного оружия противника. Всё это может привести к тому, что упомянутое равенство возможностей исчезнет.
Например, многие страны как часть своей системы ядерного сдерживания используют баллистические ракеты, размещаемые на подводных лодках. Идея тут в том, что если ядерное оружие спрятано в океане, его не смогут уничтожить первым ударом, а это значит, что его всегда можно будет использовать в ответ, и таким образом наличие такого оружия эффективно защищает от первого удара. Однако ИИ может позволить эффективнее обнаруживать подводные лодки, что позволит уничтожить их первым ударом. Таким образом сдерживающий эффект пропадёт.
Доклад Стокгольмского института исследования проблем мира утверждает, что, хотя ИИ может дать стабилизирующий эффект (например, приведёт к тому, что все будут чувствовать себя более уязвимыми, и тем самым снизит вероятность эскалации), однако ещё до того, как ИИ будет в самом деле запущен, мы можем столкнуться с дестабилизирующими эффектами. Дело в том, что если одно из государств поверит в то, что у их противников появились новые ядерные возможности, этого может оказаться достаточно, чтобы нарушить хрупкий баланс средств сдерживания.
К счастью, также возможно развитие событий, в котором ИИ предотвратит использование ядерного оружия: например, улучшит возможности государств определять ядерные пуски, тем самым снизив вероятность ложных тревог вроде той, что чуть не вызвала ядерную войну в 1983 году.
Так что в целом мы не уверены, что ИИ значительно увеличит риски ядерного конфликта в краткосрочной перспективе.↩
- У нас уже есть программы, помогающие в исследованиях (например, Elicit). Если системы ИИ заменят людей на некоторых работах или ускорят экономический рост, возможно, на научные исследования будет выделяться больше ресурсов. А если мы успешно запустим очень способные системы ИИ, возможно, какие-то части научной работы будут автоматизированы полностью.↩
- Урбина и соавторы (2022) с помощью компьютерного моделирования доказали, что существующие технологии в области ИИ, используемые для разработки новых лекарств, можно также использовать для разработки биохимического оружия.
Также на эту тему:
> В области синтетической биологии ИИ потенциально способен в чём-то облегчить задачу злонамеренным лицам, желающим разработать опасные болезнетворные микроорганизмы с заданными свойствами.
Турчин и Денкенбергер (2020), раздел 3.2.3.↩
- В "На краю пропасти" (стр. 167), Орд оценивает шансы экзистенциальной катастрофы к 2120 году от "непредвиденных антропогенных рисков" в 1 из 30.↩
- ИИ уже помогает правительствам следить за своими гражданами.
АНБ использует ИИ для более эффективного поиска среди данных, которые оно собирает. Этот ИИ позволяет значительно быстрее распознавать и предсказывать действия людей, за которыми следит агентство. Китай всё активнее использует распознавание лиц и системы предсказания и предотвращения преступлений, в том числе автоматизированное принятие решений в зависимости от расы человека и автоматические системы, предупреждающие когда люди, классифицированные как потенциально опасные, появляются в общественных местах.
Судя по всему, подобные технологии слежки в будущем значительно улучшатся, и таким образом правительства получат значительно больше возможностей для контроля за своим населением.↩
- Несколько рецензентов написали отзывы на доклад Карлсмита и дали свои оценки вероятности экзистенциальной катастрофы со стороны ищущего власти ИИ к 2070 году: Аскенбреннер — 0,5%, Гарфинкель — 0,4%, Кокотайло — 65%, Нанда — 9%, Соарес — больше 77%, Тарнси — 3,5%, Торстед — 0,000002%, Уоллес — 2%.↩
- 117 исследователям задали вопрос:
> Как вы оцениваете общую вероятность того, что потенциальное будущее окажется значительно хуже, чем оно могло быть, в результате действий систем ИИ, которые делают/оптимизируют не то, что хотели/планировали запускавшие их люди?
Опрос проводился среди исследователей OpenAI, Института будущего человечества (Оксфордский университет), Центр совместимого с человеком ИИ (Калифорнийский университет в Беркли), Machine Intelligence Research Institute, Open Philanthropy и DeepMind.
Ответило 44 человека (доля ответивших — примерно 38%).
Среднее полученных оценок — 40%.↩
- Здесь начинается сноска, которая уже переведена и её начало находится в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=ce479060db721606, а конец - в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=a2bbf9c231c110c6
Конец уже переведённой в другом месте сноски↩
- Здесь начинается большая сноска, которая уже переведена, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=498ab4abcb09a42c и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=57843e78e5944b87
Ideally we want to estimate the number of FTE (" full-time equivalent") working on the problem of reducing existential risks from AI. 文
But there are lots of ambiguities around what counts as working on the issue. So I tried to use the following guidelines in my estimates: 文
I didn't include people who might think of themselves on a career path that is building towards a role preventing an AI-related catastrophe, but who are currently skilling up rather than working directly on the problem.
I included researchers, engineers, and other staff that seem to work directly on technical AI safety research or AI strategy and governance. But there's an uncertain boundary between these people and others who I chose not to include. For example, I didn't include machine learning engineers whose role is building AI systems that might be used for safety research but aren't primarily designed for that purpose.
I only included time spent on work that seems related to reducing the potentially existential risks from AI, like those discussed in this article. Lots of wider AI safety and AI ethics work focuses on reducing other risks from AI seems relevant to reducing existential risks – this 'indirect' work makes this estimate difficult. I decided not to include indirect work on reducing the risks of an AI-related catastrophe (see our problem framework for more).
Relatedly, I didn't include people working on other problems that might indirectly affect the chances of an AI-related catastrophe, such as epistemics and improving institutional decision-making, reducing the chances of great power conflict, or building effective altruism. 文
With those decisions made, I estimated this in three different ways. 文
First, for each organisation in the AI Watch database, I estimated the number of FTE working directly on reducing existential risks from AI. I did this by looking at the number of staff listed at each organisation, both in total and in 2022, as well as the number of researchers listed at each organisation. Overall I estimated that there were 76 to 536 FTE working on technical AI safety (90% confidence), with a mean of 196 FTE. I estimated that there were 51 to 359 FTE working on AI governance and strategy (90% confidence), with a mean of 151 FTE. There's a lot of subjective judgement in these estimates because of the ambiguities above. The estimates could be too low if AI Watch is missing data on some organisations, or too high if the data counts people more than once or includes people who no longer work in the area. 文
Second, I adapted the methodology used by Gavin Leech's estimate of the number of people working on reducing existential risks from AI. I split the organisations in Leech's estimate into technical safety and governance/strategy. I adapted Gavin's figures for the proportion of computer science academic work relevant to the topic to fit my definitions above, and made a related estimate for work outside computer science but within academia that is relevant. Overall I estimated that there were 125 to 1,848 FTE working on technical AI safety (90% confidence), with a mean of 580 FTE. I estimated that there were 48 to 268 FTE working on AI governance and strategy (90% confidence), with a mean of 100 FTE. 文
Third, I looked at the estimates of similar numbers by Stephen McAleese. I made minor changes to McAleese's categorisation of organisations, to ensure the numbers were consistent with the previous two estimates. Overall I estimated that there were 110 to 552 FTE working on technical AI safety (90% confidence), with a mean of 267 FTE. I estimated that there were 36 to 193 FTE working on AI governance and strategy (90% confidence), with a mean of 81 FTE. 文
I took a geometric mean of the three estimates to form a final estimate, and combined confidence intervals by assuming that distributions were approximately lognormal. 文
Finally, I estimated the number of FTE in complementary roles using the AI Watch database. For relevant organisations, I identified those where there was enough data listed about the number of researchers at those organisations. I calculated the ratio between the number of researchers in 2022 and the number of staff in 2022, as recorded in the database. I calculated the mean of those ratios, and a confidence interval using the standard deviation. I used this ratio to calculate the overall number of support staff by assuming that estimates of the number of staff are lognormally distributed and that the estimate of this ratio is normally distributed. Overall I estimated that there were 2 to 2,357 FTE in complementary roles (90% confidence), with a mean of 770 FTE. 文
There are likely many errors in this methodology, but I expect these errors are small compared to the uncertainty in the underlying data I'm using. Ultimately, I'm still highly uncertain about the overall FTE working on preventing an AI-related catastrophe, but I'm confident enough that the number is relatively small to say that the problem as a whole is highly neglected. 文
конец большой сноски, переведённой в другом месте↩
- Начало большой уже переведённой сноски, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=d33739d9296f97bf и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=2b67d87bb0d7161b
What research in AI is actually advancing the sorts of dangerous capabilities that might be increasing potential existential risk?
Do advances in AI hardware or advances in data collection count?
How about broader improvements to research processes in general, or things that might increase investment in the future through producing economic growth? 文
The most relevant figure we could find was the expenses of DeepMind from 2020, which were around £1 billion, according to its annual report. We'd expect most of that to be contributing to "advancing AI capabilities" in some sense, since its main goal is building powerful, general AI systems. (Although it's important to note that DeepMind is also contributing to work in AI safety, which may be reducing existential risk.) 文
If DeepMind is around about 10% of the spending on advancing AI capabilities, this gives us a figure of around £10 billion. (Given that there are many AI companies in the US, and a large effort to produce advanced AI in China, we think 10% could be a good overall guess.) 文
As an upper bound, the total revenues of the AI sector in 2021 were around $340 billion. 文
конец большой сноски, переведённой в другом месте↩
- Приведённые возражения являются вариацией доводов из разделеа 4.2 предварительного отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ.↩
- Детальный обзор того, насколько легко или сложно может быть контролировать цели ML-систем, можно прочитать в разделе 4.3.1 предварительного отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ. Ещё один возможный сценарий, как может появиться ML-система, стремящаяся нас обмануть, можно прочитать в статье Котры "Если не предпринять специальных мер, кратчайший путь к трансформационному ИИ приведёт к захвату им власти".↩
- В случаях, когда люди захотят использовать систему, которая, по их мнению, (например) с вероятностью 10% может немедленно убить всех, скорее всего, они это сделают из-за беспокойства о безопасности (например, пытаясь предотвратить запуск трансформационного ИИ другими людьми) или, возможно, по этическим/идеалистическим соображениям, а не ради денег. С другой стороны, кажется, что современные исследования, направленные на улучшение способностей ИИ, вызваны в значительной степени именно денежными соображениями. Не исключено, что денежные соображения также способствуют мотивированным рассуждениям о том, насколько велик риск со стороны систем ИИ.↩
- Это разделение взято из обзора Сэма Кларка о вопросах регулирования ИИ.↩
- Есть перевод на русский язык. — Прим. перев.↩