Почему судьбу мира определяют люди, а не шимпанзе?

На облик каждого уголка нашей планеты повлияли люди. Шимпанзе — очень умные животные по сравнению с другими — на такое оказались не способны.

Причиной тому (главным образом) является человеческий интеллект.1

Компании и правительства тратят на разработку систем ИИ миллиарды долларов в год. Когда эти системы станут достаточно продвинутыми, люди (рано или поздно) могут перестать быть самыми разумными существами на планете. Как мы увидим, системы ИИ развиваются. И очень быстро.

Сколько времени потребуется для создания искусственного интеллекта, который будет справляться с подавляющим большинством задач лучше человека, — предмет крайне оживлённых дискуссий. Но, судя по всему, появление такого ИИ возможно, и мы предполагаем, что это случится уже в нашем веке.

Тезис о том, что искусственный интеллект превзойдёт человеческий до конца этого века, сам по себе не является сильным или достаточным аргументом в пользу того, что ИИ станет чем-то очень важным, или что он является для нас угрозой. Ниже мы рассмотрим эти утверждения гораздо более подробно.

Однако кажется, что возможность скорого появления интеллекта, соперничающего с человеческим, — это как минимум повод задуматься.

Будут ли цели у систем, которые мы разрабатываем? И если да, то что это будут за цели?

Будет ли ИИ помогать человечеству в его стремлении менять мир к лучшему? Или же мы потеряем контроль над своим будущим, и фактически история человечества на этом завершится?

Если говорить честно, то мы не знаем.

Однако мы не можем просто ждать и надеяться на лучшее. Искусственный интеллект действительно может радикально изменить всё. Поэтому, возможно, самое значимое, что мы можем делать — это влиять на его развитие.

Краткое изложение

Мы ожидаем, что в ближайшие десятилетия человечество достигнет значительного прогресса в области искусственного интеллекта: возможно, машины даже превзойдут людей во многих, если не во всех, задачах. Это может оказаться огромным благом — например, поможет справиться с глобальными проблемами, которые сейчас неразрешимы. Но также этот прогресс несёт в себе серьёзные риски: опасные последствия могут возникнуть как сами собой (например, если мы не сможем решить задачу безопасности систем ИИ), так и в результате человеческих решений (например, если системы ИИ усугубят геополитический конфликт). Мы считаем, что для снижения этих рисков нужно проделать ещё большую работу.

Некоторые из рисков, которые несёт в себе продвинутый ИИ, могут оказаться экзистенциальными — то есть они могут привести к исчезновению человечества или к тому, что человечество навсегда потеряет возможность управлять собственной судьбой.2 Ниже обсуждаются важные вопросы о том, как можно безопасно разработать и встроить в наше общество эту стремительно развивающуюся революционную технологию. Удовлетворительных ответов на эти вопросы пока нет, а их важность очень сильно недооценивается, хотя вполне вероятно, что ответы можно найти. По нашим оценкам, напрямую этими вопросами занимаются примерно 400 человек в мире.3 Таким образом, риск катастрофы, связанной с ИИ, вполне может быть самой серьёзной проблемой человечества. И тем, кто может внести вклад в её решение, лучше всего заниматься именно этой задачей.

Перспективные направления работы над этой проблемой включают в себя технические исследования (как создавать безопасные системы ИИ), стратегические исследования (какие именно риски может нести в себе ИИ) и исследования в области регулирования (как корпорации и правительства могут снизить эти риски). Если будут разработаны хорошие способы регулирования, нам понадобятся люди, которые смогут их внедрить. Также можно принести много пользы на различных вспомогательных ролях: например, занимаясь операционной деятельностью, освещая проблему в СМИ, жертвуя деньги и многое другое. Некоторые из этих вариантов мы перечисляем ниже.

Наша оценка в целом

Рекомендуем — наивысший приоритет


Мы считаем, что это одна из самых важных проблем в мире.

Масштаб  

ИИ повлияет на самые разные стороны нашей жизни и потенциально может принести очень много пользы. Однако нас сильно беспокоит возможность чрезвычайно плохих последствий, в особенности экзистенциальной катастрофы. Мы совсем не уверены в своих выводах, однако на основе известных нам оценок, полученных разными методами, мы полагаем, что в ближайшие 100 лет риск экзистенциальной катастрофы, вызванной искусственным интеллектом, составляет примерно 10%. Дальнейшие исследования могут значительно изменить эту оценку: некоторые эксперты в области ИИ-рисков полагают, что эта вероятность меньше 0,5%, другие же — что она значительно выше 50%, и мы готовы изменить своё мнение в любую сторону. В целом, на данный момент мы считаем, что развитие ИИ представляет собой самый значительный риск для долгосрочного процветания человечества, чем любая другая известная нам проблема.

Недооценённость


В 2020 году на снижение риска катастрофы от ИИ было потрачено 50 миллионов долларов. При этом на развитие способностей ИИ были потрачены миллиарды.4 Несмотря на то, что эксперты по ИИ всё больше беспокоятся по этому поводу, по нашим оценкам над снижением вероятности экзистенциальной катастрофы, связанной с ИИ, работают лишь около 400 человек (90% доверительный интервал — от 200 до 1000).5 Из них, судя по всему, примерно три четверти работают над технической безопасностью ИИ, а остальные делятся между разработкой стратегий (и других вопросов регулирования) и популяризацией.6

Разрешимость


Снижение рисков катастрофы, связанной с ИИ, выглядит довольно сложной задачей. Но данная область только начинает развиваться, и в ней есть много направлений для дальнейших исследований. Поэтому мы считаем, что эта проблема относительно решаема, хотя и сильно неуверены в этом — как мы уже говорили, существуют очень разные оценки того, насколько реально сделать ИИ безопасным.

Проработанность профиля

Глубокая 

Этот обзор — как и многие другие — мы написали, чтобы помочь людям разобраться, какие самые важные проблемы они могут решить в ходе своей карьеры. Ты можешь прочитать подробнее о том, как мы сравниваем различные проблемы, узнать, как мы пытаемся оценивать их численно, и увидеть, насколько важна эта проблема по сравнению с другими, которые мы уже проанализировали.

Table of Contents

Примечание автора: В сущности в этом обзоре мы пытаемся предсказать развитие технологий, а это заведомо сложная задача. Кроме того, на тему рисков от ИИ существует гораздо меньше строгих исследований, чем по другим проблемам, о которых писали "80 000 часов" (таким как пандемии или изменение климата).7 Тем не менее, существует растущая область исследований на эту тему, и я попытался описать её текущее состояние. При написании этой статьи я в первую очередь основывался на докладе Джозефа Карлсмита из Open Philanthropy, который оказался самым детальным обзором по этой теме из всех, что мне удалось найти. Также эту статью проверили больше 30 человек с разной специализацией и разными мнениями по данной теме. (Почти всех из них беспокоит, как продвинутый ИИ может повлиять на мир.)

Если вы захотите дать какую-либо обратную связь по поводу этой статьи — например, если вы заметите какие-то технические детали, в которых мы ошиблись, или посчитаете, что какие-то формулировки можно было бы улучшить, или даже если вам просто захочется написать, что вам понравилась (или не понравилась) эта статья — мы будем очень благодарны, если вы воспользуетесь этой формой.

Почему мы считаем, что снижение рисков от ИИ — одна из важнейших задач нашего времени? Если вкратце, у нас есть следующие причины:

  1. Даже не вдаваясь в непосредственную аргументацию, можно заметить некоторые причины для беспокойства: многие эксперты по ИИ считают, что есть малая, но существенная вероятность, что развитие ИИ приведёт к чрезвычайно плохим последствиям, таким как исчезновение человечества.

  2. ИИ развивается необычайно быстро, и это означает, что он сможет значительно влиять на общество, причём довольно скоро.

  3. Есть сильные доводы в пользу того, что "ищущий власти" ИИ может представлять экзистенциальную угрозу для человечества8 , которые мы рассмотрим ниже.

  4. Даже если мы решим проблему стремления к власти, есть и другие риски.

  5. Мы считаем, что со всеми этими рисками можно работать.

  6. Эта работа чрезвычайно недооценена.

Мы по очереди разберём каждый из этих пунктов, затем рассмотрим лучшие из контраргументов, расскажем, чем конкретно вы можете помочь, и в конце перечислим некоторые из лучших ресурсов, чтобы вы могли больше узнать об этой области.

1. Многие эксперты по ИИ считают, что есть существенная вероятность, что развитие ИИ приведёт к чрезвычайно плохим последствиям, таким как исчезновение человечества

Если вы думаете, что некая новая технология приведёт к серьёзным последствиям (а возможно даже к исчезновению человечества), но все, кто реально работают над этой технологией, считают ваши опасения беспочвенными, то, вероятно, вы что-то упускаете.

Поэтому перед тем, как переходить к аргументам по поводу рисков от ИИ, давай посмотрим, что думают эксперты.

Мы изучили три опроса исследователей ИИ, работы которых публиковались в материалах конференций NeurIPS и ICML (две самые престижные конференции, посвящённые машинному обучению). Опросы проводились в 2016, 2019 и 2022 годах.9

Важно учитывать, что подобные опросы могут быть значительно искажены из-за представленной выборки. Например, не исключено, что исследователи, участвующие в самых престижных конференциях по ИИ, настроены более оптимистично, поскольку они привыкли считать, что исследования ИИ — это полезное дело. Или же наоборот, возможно, что исследователи, у которых есть опасения по поводу ИИ, более склонны участвовать в опросах по поводу таких опасений.10

Так или иначе, вот что мы обнаружили:

Во всех трёх опросах по мнению медианного исследователя вероятность того, что последствия появления сильного ИИ окажутся "чрезвычайно хорошими", довольно высока: 20% в опросе 2016 года, 20% в опросе 2019 года, и 10% — в опросе 2020 года.11

И в самом деле, ИИ уже приносят значительную пользу: например, при уходе за больными или в научных исследованиях.

Однако также во всех трёх опросах медианный исследователь считал, что существует небольшая, но тем не менее существенная вероятность того, что последствия появления ИИ окажутся "чрезвычайно плохими (например, исчезновение человечества)": в 2016 году такая вероятность оценивалась в 5%, в 2019 — в 2%, в 2022 — в 5%.12 13

В опросе 2022 года участникам задали отдельный вопрос про вероятность экзистенциальной катастрофы, вызванной будущим прогрессом в области ИИ. И снова больше половины исследователей ответили, что эта вероятность больше 5%.14

Итак, эксперты расходятся в оценках того, насколько ИИ представляет собой экзистенциальный риск — вид угрозы, которая, как мы утверждаем, чрезвычайно важна с этической точки зрения.

Это соотносится с нашими представлениями о текущем прогрессе в области исследования ИИ. В DeepMind и OpenAI — лабораториях по разработке ИИ, входящих в число лидеров в этой отрасли — также есть команды, задача которых понять, как решить вопросы безопасности, которые, как мы считаем по причинам изложенным ниже, ведут к экзистенциальной угрозе для человечества.15

Есть и другие научно-исследовательские группы (например, в МТИ, Оксфорде, Кембридже, университете Карнеги — Меллона и Калифорнийском университете в Беркли), которые занимаются теми же проблемами технической безопасности ИИ.16

Сложно точно сказать, какой отсюда следует вывод. Однако, с нашей точки зрения, это как минимум показывает, что позиция "ИИ может представлять существенный риск плохих последствий, таких как экзистенциальная катастрофа" не является маргинальной среди специалистов в данной области.

Тем не менее, остаётся вопрос: почему мы согласны именно с теми, кто обеспокоен больше? Если вкратце, то потому что существуют аргументы в пользу того, что ИИ действительно может представлять собой экзистенциальную угрозу, которые мы считаем убедительными. Эти аргументы мы подробно разберём далее.

Важно понимать, что даже если многие эксперты признают существование некоторой проблемы, то это ещё не означает, что всё в порядке и что у них всё под контролем. В целом мы считаем, что эта проблема чрезвычайно недооценена: над ней напрямую работает всего лишь около 300 человек в мире (более подробно читайте далее).

При этом на развитие ИИ ежегодно тратятся миллиарды долларов.17

2. ИИ развивается необычайно быстро

Два кота, одетые как программисты, созданные разными программами ИИ

Изображения, созданные по запросу "Кот, одетый как программист", программами Craiyon (в прошлом DALL-E mini) (слева) и DALL-E 2 от OpenAI (справа). DALL-E mini выпущена в январе 2021 года и использует модель в 27 раз меньше, чем DALL-E 1 от OpenAI. DALL-E 2 выпущена в апреле 2022 года.

Прежде чем мы попытаемся разобраться, как может выглядеть будущее ИИ, полезно посмотреть, что ИИ уже умеет.

В число современных технологий ИИ входит машинное обучение (ML), которое основано на том, что модели автоматически улучшаются за счёт входных данных. Наиболее популярная на сегодняшний день форма машинного обучения известна как глубокое обучение.

Сегодня ML-системы могут выполнять лишь очень малую долю задач, которые способны решать люди. И почти у всех из них очень узкая специализация (например, играть в одну конкретную игру или создавать конкретный тип картинок).

Тем не менее, после массового распространения глубокого обучения в середине 2010-х возможности ML-систем значительно возросли. Вот краткий перечень лишь некоторых достижений, которые мы увидели начиная с 2019 года:

  • AlphaStar, обыгравшая лучших профессиональных игроков в StarCraft II (январь 2019)

  • MuZero, единая система, которая научилась выигрывать в шахматы, сёги и го — хотя ей даже не объясняли правила (ноябрь 2019)

  • GPT-3, модель естественного языка, создающая высококачественный текст (май 2020)

  • GPT-f, решающая некоторые задачи математических олимпиад (сентябрь 2020)

  • AlphaFold 2, огромный шаг вперёд в решении очень давней и сложной задачи фолдинга белка (июль 2021)

  • Codex, создающий программный код на основе команд на естественном языке (август 2021)

  • PaLM, языковая модель, продемонстрировавшая впечатляющие способности рассуждать о причинах и следствиях, а также объяснять шутки (апрель 2022)

  • DALL-E 2 (апрель 2022) и Imagen (май 2022), две модели, способные создавать высококачественные изображения на основе словесного описания

  • SayCan, управляющая роботом на основе команд на естественном языке (апрель 2022)

  • Gato, единая ML-модель, способная выполнять множество разных задач (например, играть в Атари, описывать изображённое на картинках, отвечать на текстовые сообщения и складывать блоки с помощью реальной роботизированной руки) — решение о том, что именно нужно дать на выход, она принимает на основе контекста (май 2022)

  • Minerva способна решать сложные математические задачи. Она неплохо справляется на уровне колледжа и ещё лучше на уровне математических соревнований для старшеклассников. (Minerva оказалась гораздо более успешной, чем предсказывали прогнозисты в 2021 году.)

Если вы чем-то похожи на нас, вас тоже удивила сложность и разнообразность задач, которые решают эти системы.

И кажется очевидным, что если технологии и дальше будут развиваться с той же скоростью, это значительно повлияет на общество. Как минимум, подешевеет выполнение задач, которые будут автоматизированы, и это может привести к стремительному экономическому росту (возможно даже сравнимому с ростом во время промышленной революции).

Если у нас получится частично или полностью автоматизировать получение новых научных результатов, возможно, общество и технологии изменятся ещё более радикально.18

И, возможно, это будет лишь только начало. Может быть, у нас появятся компьютеры, которые рано или поздно автоматизируют абсолютно всё, что делают люди. Кажется, это вполне вероятно — по крайней мере, теоретически, — просто потому, что достаточно сложный и мощный компьютер сможет симулировать человеческий мозг. Это уже само по себе способ автоматизировать всё, что могут делать люди (пусть и не самый эффективный).

И как мы увидим в следующем разделе, есть свидетельства, что значительной автоматизации можно достигнуть благодаря масштабированию уже имеющихся технологий.

В последнее время способности ML-систем стремительно растут

Чтобы создать ИИ с помощью машинного обучения, нужны три составляющие:

  1. Хорошие алгоритмы (чем более эффективные алгоритмы, тем лучше)

  2. Данные, на которых алгоритм будет обучаться

  3. Достаточно вычислительных ресурсов для этого обучения

Мы поговорили с Данни Эрнандесом, который (в то время) был исследователем в команде прогнозистов OpenAI. Эрнандес и его команда изучали, как две из этих составляющих (вычислительные ресурсы и эффективность алгоритмов) менялись со временем.

Они обнаружили, что после 2012 года количество вычислительных ресурсов, используемых для обучения самых больших моделей ИИ росло экспоненциально — удваивалось каждые 3,4 месяца.

И таким образом с 2012 года количество вычислительных ресурсов, используемых для обучения самых больших моделей, выросло больше чем в миллиард раз.

Эрнандес и его команда также проверили, сколько нужно вычислительных ресурсов, чтобы обучить нейронную сеть, у которой будет такая же эффективность, какая была у AlexNet (одного из ранних алгоритмов распознавания картинок).

Они обнаружили, что количество вычислительных ресурсов, требуемых для получения той же производительности, падает экспоненциально — уменьшается вдвое каждые 16 месяцев.

Таким образом, с 2012 года количество вычислительных ресурсов, требуемых для получения той же производительности, упало более чем в 100 раз. В сочетании с тем, что количество доступных вычислительных ресурсов увеличилось, это значительный рост.21

Сложно сказать, продолжатся ли эти тенденции, однако они говорят о том, что за последние десять лет границы возможного при помощи машинного обучения существенно расширились.

Более того, судя по всему, увеличение размера моделей (и количества вычислительных ресурсов, используемых для их обучения) приводит к даже более сложному поведению. Например, модели вроде GPT-3 начинают выполнять задачи, решать которые их не обучали.

Эти наблюдения привели к гипотезе о масштабировании, которая гласит, что мы можем просто строить всё большие и большие нейронные сети и в итоге будем получать всё более и более мощный искусственный интеллект и таким образом дойдём до интеллекта человеческого уровня и дальше.

Если эта гипотеза верна, то наблюдая за скоростью увеличения вычислительных мощностей, доступных для обучения моделей, мы сможем предсказывать, как будут расти возможности искусственного интеллекта.

Однако, как мы увидим ниже, возможное скорое появление чрезвычайно мощного ИИ предсказывает не только гипотеза о масштабировании. К такому же выводу можно прийти и благодаря другим способам оценки прогресса в этой области.

Когда нам стоит ожидать появление трансформационного ИИ?

Сложно точно предсказать, когда мы разработаем ИИ, который будет способен радикально изменить общество (хорошим или плохим образом) — например, автоматизировав всю работу, которую выполняют люди или значительно изменив общественную структуру.22 Но у нас здесь есть несколько подходов.

Один из них — это опросы экспертов. Результаты опроса 300 экспертов в 2019 году утверждают, что существует вероятность 20% появления машинного интеллекта человеческого уровня (который, скорее всего, будет трансформационным в обсуждаемом смысле) к 2036 году, 50% — к 2060 году и 85% — к 2100.23 Есть множество причин скептично относиться к этим оценкам,24 однако мы учитываем их как одно из свидетельств.

Аджея Котра (исследовательница из Open Philantropy) попыталась предсказать, когда появится трансформационный ИИ, путём сравнения современного глубокого обучения с человеческим мозгом. Глубокое обучение требует огромного количества вычислительных ресурсов, чтобы обучить модель выполнять определённые задачи. Также есть зависимость между количеством вычислительных ресурсов, требуемых для обучения модели, и количеством ресурсов, требуемых для её использования. И если гипотеза о масштабировании верна, нам следует ожидать, что производительность модели будет предсказуемо улучшаться с увеличением вычислительных мощностей. Отталкиваясь от этого, Котра несколькими разными способами (в том числе, например, оценивая сколько вычислительных ресурсов использует человеческий мозг для тех или иных задач) оценила, сколько вычислительных ресурсов может потребоваться, чтобы обучить модель, которая после запуска сможет выполнять сложнейшие задачи, которые выполняют люди. Затем она оценила, когда такие вычислительные мощности будут доступны.

В заметке Котры 2022 года о том, как изменились её выводы, даются следующие оценки: вероятность появления трансформационного ИИ к 2036 году равна 35%, к 2040 году — 50%, к 2050 году — 60%. Котра замечает, что эти оценки ещё могут измениться.25

Том Дэвидсон (также исследователь из Open Philanthropy) написал отчёт, дополняющий работу Котры. Он попытался определить, когда мы можем ожидать появление трансформационного ИИ, изучая лишь различные виды исследований, на которые могла бы быть похожа работа над трансформационным ИИ (например, разработка технологий, под которые появлялась целая новая область технических исследований, или доказывание сложных математических гипотез). Дэвидсон изучал, как быстро подобные виды исследования достигали успеха в прошлом при условии, что у них было достаточное финансирование.

В отчёте Дэвидсона говорится, что на основании только лишь этой информации получаются следующие оценки: вероятность появления трансформационного ИИ к 2036 году равна 8%, к 2060 — 13%, к 2100 — 20%. Однако, Дэвидсон не учитывает, насколько исследования ИИ продвинулись со времён их начала в 1950-х годах, и замечает, что вполне можно ожидать увеличения затрат на исследования ИИ по мере того, как значимость ИИ для нашей экономики будет расти. В итоге Дэвидсон ожидает, что полученные числа занижены.

Холден Карнофский, один из директоров Open Philantropy, попытался резюмировать результаты исследований, упомянутые выше. Он предполагает, что вероятность увидеть трансформационный ИИ к 2036 году больше 10%(!), к 2060 — 50%, к 2100 — 66%. И, возможно, эти оценки занижены, поскольку они не учитывают, что с тех пор, как они были сделаны, прогресс идёт быстрее, чем ожидалось.

Метод Вероятность появления трансформационного ИИ к 2036 году Вероятность появления трансформационного ИИ к 2060 году Вероятность появления трансформационного ИИ к 2100 году
Опрос экспертов (Чжан и другие, 2022) 20% 50% 85%
Биологические ориентиры (Котра, 2022) 35% 60% (к 2050) 80% (согласно отчёту 2020 года)
Полуинформативные приоры (Дэвидсон, 2021) 8% 13% 20%
Общая оценка (Карнофский, 2021) 10% 50% 66%

В общем, судя по всему, ИИ развивается стремительно. Каждый год в эту область приходит всё больше денег и талантов, и модели становятся больше и эффективнее.

Даже если бы ИИ развивался медленнее, мы бы всё равно беспокоились по этому поводу — подавляющее большинство аргументов о том, какие риски таит в себе ИИ (мы рассмотрим эти аргументы ниже), не связаны со скоростью его развития.

Однако скорость достижений недавнего времени делает проблему более срочной.

3. Ищущий власти ИИ может представлять для человечества экзистенциальную угрозу

До сих пор мы утверждали, что, с нашей точки зрения, ИИ окажется важной новой технологией, которая, вероятно, значительно изменит экономику и общество.

Также мы рассмотрели причины считать, что, возможно, подобный трансформационный ИИ будет создан уже в этом веке.

Теперь же мы перейдём к ключевому вопросу: почему мы вообще считаем, что этот вопрос настолько важен?

Причин так считать может быть множество. Если развитый ИИ способен так сильно изменить мир, как нам сейчас кажется, это может привести к многочисленным важным последствиям. Однако в этом разделе мы планируем рассказать о проблеме, которая нам кажется наиболее важной: "Системы ИИ могут быть опасны тем, что они будут стремиться получить власть".

Мы утверждаем, что:

  1. Вполне вероятно, что мы создадим системы ИИ, которые смогут строить и реализовывать планы, чтобы достигать своих целей

  2. Развитые системы, умеющие планировать, легко могут оказаться "незаалайненными" и начать строить планы, подразумевающие, что человечество лишится возможности управлять своей судьбой

  3. Если в результате действий ИИ человечество не сможет больше управлять своей судьбой, это будет экзистенциальной катастрофой

  4. Люди могут запустить незаалайненные системы ИИ, даже несмотря на эти риски

Я обдумал каждый из этих пунктов и считаю, что существует примерно 10% вероятность, что в этом веке в результате действий систем ИИ, ищущих власти, произойдёт экзистенциальная катастрофа.26

Вполне вероятно, что мы создадим системы, способные строить сложные планы

Мы утверждаем, что системы, которые будут обладать тремя нижеперечисленными свойствами, могут представлять значимую угрозу для человечества:27

  1. У них есть цели, и они хорошо строят планы.

Не у всех систем ИИ есть цели, и не все из них строят планы, чтобы достигать своих целей. Однако про некоторые (например про системы ИИ, играющие в шахматы) можно рассуждать в рамках такой модели. Когда мы рассуждаем про ИИ, ищущий власти, мы рассматриваем системы, которые относительно успешно планируют, их планы преследуют какую-то цель (или цели), и они способны реализовывать свои планы.

  1. У них прекрасное "стратегическое мышление".

Система, которая достаточно хорошо умеет планировать, должна неплохо понимать мир — она должна уметь замечать препятствия или дополнительные возможности, которые могут поспособствовать или помешать её планам, и реагировать на них соответственно. Как и Карлсмит, мы будем называть эту способность "стратегическим мышлением"28 , поскольку она позволяет системам строить более сложные стратегии.

  1. Их способности значительно превышают способности современных систем.

Чтобы действия этих систем в самом деле влияли на мир, нужно, чтобы они не просто умели планировать, но также хорошо умели делать всё, что необходимо для реализации их планов.

Поскольку мы беспокоимся, что программные системы попытаются отобрать у людей власть, мы в первую очередь думаем о таких системах ИИ, которые могут превзойти людей в тех умениях, которые в значительной степени позволяют править нынешним миром именно людям.

Например, люди очень хорошо умеют убеждать и/или манипулировать, и это зачастую приносит им власть. Если ИИ освоит эти навыки, возможно, он тоже сможет получить власть. Как другие примеры можно привести умение взламывать другие системы, способность вести научные и инженерные исследования, а также умение строить планы в бизнесе, политике и в военном деле.

Судя по всему, такие системы технически возможны, и у нас есть достаточно стимулов, чтобы их создавать

Как упоминалось выше, мы уже создаём системы, которые очень хорошо справляются с определёнными задачами.

Мы даже уже создали простейшие системы планирования: например AlphaStar, которая умеет играть в игру-стратегию "StarCraft", и MuZero, которая играет в шахматы, сёги и го.29

Мы не уверены, создают ли эти системы планы "чтобы достигнуть целей ради самих целей" — мы вообще не уверены, что именно означает высказывание, что у кого-то или чего-то "есть цель". Однако, раз эти системы регулярно строят планы, которые позволяют им достигать целей, наверное, можно сказать, что у них в каком-то смысле есть цели.

Более того, судя по всему, нейронные сети некоторых существующих систем содержат фрагменты, которые в самом деле отвечают за цели.30

Тем не менее, планирование в реальном мире (в отличие от игр) — это гораздо более сложный процесс, и в настоящее время мы не известны какие-либо убедительные примеры целеориентированных планирующих систем или систем, которые демонстрируют высокий уровень стратегического мышления.

Однако, как уже упоминалось, мы ожидаем, что в этом веке системы ИИ будут улучшаться и дальше. И мы полагаем, что в результате появятся системы, обладающие всеми тремя упомянутыми свойствами.

Мы так считаем, потому что существуют достаточно сильные стимулы создавать системы такого рода — например, деньги. Если вкратце: умение планировать, чтобы достигать цели, и реализовывать составленные планы выглядит довольно мощным и универсальным способом влиять на мир.

Судя по всему, чтобы добиваться результатов в реальном мире, эти навыки нужны практически всегда — не важно, идёт ли речь о компании, которая что-то продаёт, человеке, который покупает дом, или правительстве, которое разрабатывает свою политику. Например, подобной мощной системе можно будет назначить цель и ожидать, что она её достигнет — не нужно будет управлять процессом на каждом шаге. Поэтому, судя по всему, планирующие системы будут чрезвычайно полезны с экономической и политической точек зрения.31

И обычно люди стремятся создавать то, что кажется им чрезвычайно полезным. Например, ИИ, способный придумать план действий для увеличения прибыли компании (фактически, ИИ, выполняющий роль генерального директора), скорее всего принесёт много денег тем, кто будет им владеть — а это сильный стимул создать такой ИИ.

В итоге, если мы действительно можем построить системы с такими свойствами (а судя по всему, это возможно), то, вероятно, мы их в самом деле построим.32

Продвинутые планирующие системы легко могут оказаться опасно "незаалайненными"

Есть причины считать, что продвинутые планирующие системы такого рода будут "незаалайненными". Это означает, что они будут стремиться делать то, чего мы бы от них не хотели.33

Системы могут не стремиться делать именно то, что мы от них хотим, по многим причинам. Например, если мы создаём систему с помощью современных технологий машинного обучения, мы не знаем, как задать ей в точности те цели, которые мы хотим достичь (подробнее ниже).34

В первую очередь мы хотим поговорить о некоторых причинах того, почему системы могут оказаться "незаалайненными" по умолчанию, причём таким образом, что они будут разрабатывать планы, угрожающие возможностям человечества влиять на мир, — даже если мы не хотим потерять эту возможность.35

Что мы подразумеваем под словами "по умолчанию"? В сущности это означает, что если только мы не решим некоторые (потенциально довольно сложные) задачи, то довольно вероятно, что ИИ, который мы создадим, окажется опасным образом незаалайненным. (Это утверждение может оказаться неверным. Возможные аргументы против него мы обсудим позже.)

Три примера "незаалайненности" различных систем


Стоит заметить, что отсутствие алайнмента — это не какая-то чисто теоретическая возможность (и она возможна не только в области ИИ). Мы постоянно наблюдаем незаалайненные цели у людей и институтов, и у нас уже есть примеры отсутствия алайнмента в системах ИИ.36

Предполагается, что демократическая политическая модель должна гарантировать, что политики принимают решения на благо обществу. Однако в реальности политические системы вознаграждают за победу на выборах, и поэтому многие политики стремятся именно к этому.

Победа на выборах выглядит неплохим индикатором для оценки шансов достичь основной цели — если у вас есть план, как улучшить жизни людей, они с большей вероятностью проголосуют за вас. Однако этот индикатор не идеален. В итоге иногда политики принимают решения, которые очевидно не являются лучшими для страны, — например, увеличивают налоги в начале своего срока и снижают их перед следующими выборами.

Таким образом, система функционирует, как минимум, не совсем так, как мы бы от неё хотели в идеальном мире. То есть, система незаалайнена.

Коммерческие организации хотят получать больше прибыли. Когда коммерческие организации производят больше и тем самым помогают людям получать товары и услуги дешевле, они зарабатывают больше денег.

Иногда получение прибыли — это нормальный индикатор того, способствует ли деятельность компании улучшению мира. Однако само по себе наличие прибыли не обязательно означает что-то хорошее для всего человечества (мы понимаем, что это смелое заявление). В итоге случаются отрицательные побочные эффекты: например, коммерческие организации иногда загрязняют окружающую среду, чтобы заработать деньги, хотя для общества в целом — это плохо.

Здесь мы тоже видим незаалайненную систему, которая работает как минимум несколько иначе, чем нам бы хотелось.

DeepMind описал примеры использования лазеек в определениях: ИИ хорошо справляется с заданием в соответствии с определённой для него функцией вознаграждения (которая задаёт наши намерения для системы), однако делает не то, что ожидают от него разработчики.

В одном из примеров роботизированной руке давали задание схватить шарик. Однако критерий успеха определялся так: считает ли человек, что у робота получилось. В итоге рука научилась занимать такое положение между шариком и камерой, при котором человек ошибочно думал, что рука схватила шарик.37

Компьютерная симуляция руки занимает положение между шариком и камерой.

Источник: Christiano et al., 2017

Так что мы знаем, что создать незаалайненную систему ИИ вполне возможно.

Почему эти системы могут оказаться опасным образом незаалайненными (если мы ничего не предпримем)


В этом разделе рассматривается центральный довод этой статьи. Мы будем использовать три ранее упомянутые свойства: умение планировать, стратегическое мышление и развитые способности.

Для начала следует понять, что планирующая система, у которой есть цель, также будет ставить "инструментальные цели": промежуточные результаты, помогающие достичь главной цели.

При планировании мы постоянно используем инструментальные цели. Например, старшеклассник, задумывающийся о своей карьере, может решить, что учёба в университете поможет ему в будущем получить работу. В этом случае "поступить в университет" окажется инструментальной целью.

Достаточно продвинутый ИИ также будет использовать инструментальные цели в своих планах.

Если у планирующей системы ИИ также будет достаточно стратегического мышления, она сможет использовать знания о реальном мире (включая информацию о том, что может помешать любым планам) и строить планы, исходя из них. Что особо важно, эти знания будут включать в себя информацию о том, что ресурсы (например, деньги, вычислительные мощности, влияние) и увеличение возможностей — то есть различные формы власти — открывают путь к новым, более эффективным способам достигать целей.

Это означает, что по умолчанию у продвинутых планирующих систем ИИ будут следующие пугающие инструментальные цели:

  • Самосохранение — система с большей вероятностью достигнет своих целей, если она всё ещё в состоянии работать над ними. (Как метко выразился Стюарт Рассел: "Ты не можешь принести кофе, если ты мёртв".)

  • Защита от любых попыток изменить цели системы — новые цели приведут к другим исходам, а это противоречит текущим целям системы.

  • Накопление могущества — например, захват большего количества ресурсов и увеличение собственных возможностей.

Что важнее всего, ИИ будет довольно напрашивающийся способ гарантировать, что он сможет продолжать работу (и его не выключат) и его цели никогда не изменятся: захватить власть над людьми, которые способны на него повлиять (мы обсуждаем вопрос, как именно системы ИИ могут это сделать, в другой статье).

К тому же, системы ИИ, которые мы сейчас обсуждаем, обладают развитыми способностями — то есть, способны справиться с одной или несколькими задачами, решения которых дают людям значительную власть над сегодняшним миром. При наличии настолько развитых способностей достижение упомянутых инструментальных целей не выглядит невозможным. Поэтому, с нашей точки зрения вполне возможно, что система ИИ применит свои способности, чтобы захватить власть, в качестве одного из шагов по реализации своего плана. Если мы не хотим, чтобы созданная нами система ИИ отобрала у нас власть, то такой исход будет особо опасным вариантом отсутствия алайнмента.

В самых радикальных сценариях, планирующая система ИИ с достаточно развитыми способностями может лишить нас власти полностью и навсегда.

Чтобы (пусть и очень нестрого) проверить этот довод, попробуем применить его к людям.

У людей есть множество целей. Для достижения многих из этих целей наличие власти будет преимуществом. Да, далеко не все хотят власти, однако всё же многие пытаются получить её в той или иной форме (накопить денег, получить высокий социальный статус, занять какую-то должность). Это полезно, чтобы в итоге добиться того, чего ты на самом деле хочешь. (Обычно) это не приводит к катастрофе, потому что мы как люди:

  • Как правило считаем необходимым соблюдать человеческие нормы и этические правила (даже люди, которые очень хотят разбогатеть, обычно не желают ради этого убивать).

  • Не настолько умнее или способнее друг друга. Так что даже люди, которых не сдерживает этика, не способны захватить мир.

(Вопрос о том, действительно ли люди хотят власти, мы рассмотрим ниже.)

У достаточно продвинутого ИИ таких ограничений не будет.

Найти способы предотвратить подобное отсутствие алайнмента может быть сложно


Мы не утверждаем, что любая развитая планирующая система ИИ обязательно попытается накопить побольше власти. Мы хотим сказать, что если мы не найдём способа спроектировать систему так, чтобы у неё не было этой проблемы, мы сильно рискуем.

Кажется вполне правдоподобным, что мы сможем создать систему ИИ, у которой не будет упомянутых проблем с алайнментом, и тем самым предотвратим потерю власти человечеством. В этом разделе мы приведём примеры нескольких стратегий, которые могут нам помочь (а также почему, к сожалению, вероятно, их будет сложно реализовать на практике):38

  • Контролировать цели системы ИИ. Возможно, у нас получится спроектировать системы, у которых просто не будет целей, к которым применимы доводы выше. Таким образом у них не будет стимула захватывать власть. Например, возможно, у нас получится найти способы явно потребовать у системы ИИ не вредить людям или найти способ вознаграждать систему ИИ (в обучающем окружении) за то, что она отказывается от определённых форм накопления власти (и также придумать, как закрепить такое поведение за пределами тренировочной среды).

Карлсмит приводит две причины, почему, скорее всего, сделать так будет довольно трудно.

Во-первых, мы не можем явным образом задавать цели для современных ML-систем. Мы лишь вознаграждаем (или наказываем) систему в обучающем окружении так, чтобы она обучалась сама. Это порождает множество сложностей, одна из которых называется "неправильное обобщение цели". Исследователи обнаружили реальные примеры систем, которые, как казалось, в обучающем окружении научились достигать некую цель, однако в новом окружении не смогли понять, что именно является целью здесь. Это повышает вероятность того, что мы подумаем, что мы успешно научили систему ИИ не захватывать власть, но когда мы запустим систему в реальном мире, она всё равно будет к этому стремиться.39

Во-вторых, когда мы задаём цель для системы ИИ (или когда мы ищем способы вознаграждать или наказывать систему во время обучения, потому что не можем задать цель явным образом), мы обычно задаём индикатор, в соответствии с которым система может оценить достигнутый результат (например, это может быть положительная обратная связь со стороны человека). Однако часто такие индикаторы работают не очень хорошо.40 В общем случае мы можем ожидать, что даже если нам кажется, что достижение индикатор хорошо коррелирует с успешными результами, система может делать не то, что мы хотим, потому что она оптимизирована именно под этот индикатор. (Именно это иллюстрируют примеры выше про политиков, коммерческие организации и роботизированную руку, которая не научилась хватать шарик.) Более детальные примеры того, как проблемы с индикаторами могут привести к экзистенциальной катастрофе, мы рассматриваем в другой статье.

Если вы хотите подробнее узнать о том, какие встречаются трудности с тем, чтобы задать цель для глубоких нейронных сетей с самоконтролируемым обучением и обучением с подкреплением, мы рекомендуем почитать доклад исследователя проблем управления Ричарда Нго из OpenAI о том, как настоящий обучающий процесс приводит к появлению незаалайненных целей.

  • Ограничивать данные, которые поступают к системе ИИ. Система ИИ сможет разработать план для накопления власти только в том случае, если у неё будет достаточно информации о мире, чтобы понять, что накопление власти — это способ достигнуть своих целей.

  • Ограничивать способности системы ИИ. Системы ИИ смогут реализовать планы по накоплению власти только в том случае, если у них будут достаточно развитые навыки из числа тех, что дают людям значительную власть в сегодняшнем мире.

Но чтобы какая-то из этих стратегий сработала, необходимо выполнение двух условий:

  • Системы ИИ должны оставаться полезными, то есть, успешно конкурировать в экономическом смысле с менее надёжными системами. За ограничение входных данных и ограничение способностей определённо придётся заплатить, поэтому, судя по всему, даже если люди придумают способы это сделать, будет сложно гарантировать, что эти способы действительно будут применяться. И со стратегией управления целями системы есть такая же проблема. Например, вероятно, можно не дать системе ИИ накапливать власть, если она будет обязана сверять все свои решения с людьми. Но такие системы будут значительно медленнее и люди получат от их использования меньше сиюминутной пользы, чем от систем, у которых не будет таких ограничений. В итоге всё равно останутся стимулы использовать более быструю, приносящую сразу больше прибыли незаалайненную систему (стимулы мы подробнее рассмотрим в следующем разделе).

  • Стратегия должна работать даже по мере того, как у систем будут улучшаться способности планировать и стратегическое мышление. Некоторые кажущиеся простыми решения (например, попытаться дать системе длинный перечень того, что ей запрещено делать, — например, воровать деньги или физически вредить людям) перестанут работать, когда система научится лучше планировать. Ведь чем лучше система разрабатывает планы, тем более вероятно, что она найдёт лазейки или ошибочные места в стратегии безопасности, и, таким образом, более вероятно, что система разработает план, который будет включать в себя накопление власти.

И сейчас, когда мы изучили результаты исследований этого вопроса и поговорили с экспертами, мы считаем, что в настоящее время нет известных способов построить заалайненную систему ИИ, про которые можно было бы сказать, что они удовлетворяют обоим критериям.

Это был центральный довод. У него существует множество вариаций. Некоторые утверждают, что ИИ будет менять наше будущее постепенно и влиять на человечество менее заметным образом, но это всё равно приведёт к экзистенциальной катастрофе. Другие утверждают, что наиболее вероятный способ лишить человечество власти — это просто убить всех людей. Мы не готовы рассуждать о том, какой сценарий катастрофы является наиболее вероятным. Мы лишь попытались привести основную , с нашей точки зрения, часть рассуждения, почему ИИ представляет собой экзистенциальный риск.

Определённо существуют причины сомневаться в истинности этого довода! Ниже мы рассмотрим некоторые из них, которые представляются нам наиболее вескими. Однако в целом нам кажется крайне вероятным, что по крайней мере для некоторых вариантов развитых планирующих систем будет сложнее построить их так, чтобы они не пытались накапливать власть опасным для человека способом, чем построить систему, склонную к такому поведению.

Если вы дочитали до этого места, возможно, у вас уже появились вопросы вроде следующих:

Мы считаем, что на все эти вопросы есть хорошие ответы. Ниже мы приводим большой перечень доводов против того, чтобы работать над рисками от ИИ. Там вы найдёте наши ответы на эти (и другие) вопросы.

Если системы ИИ лишат человечество возможности управлять своей судьбой, это будет экзистенциальной катастрофой

Когда мы говорим, что беспокоимся по поводу экзистенциальных катастроф, речь идёт не только о рисках вымирания. Это связано с тем, что корни нашего беспокойства кроются в лонгтермизме: идее о том, что жизни будущих поколений тоже важны, и защищать их интересы — чрезвычайно важно.

Это означает, что экзистенциальной катастрофой считается любое событие, которое может помешать всем будущим поколениям прожить жизнь, полную того, что мы считаем ценным (не важно, идёт речь о счастье, справедливости, красоте или процветании в целом).

Если какая-то система успешно лишит человечества возможности управлять своей судьбой, кажется чрезвычайно маловероятным, что мы сможем вернуть эту возможность. И тогда всё будущее — всё, что случится с появившейся на Земле жизнью до конца времён, — будет определяться целями этой системы. Пусть она и построена нами, но её цели с нашими не совпадают. Возможно, долгое и прекрасное будущее в итоге даже будет создано, но у нас мало причин на это надеяться.41

При этом мы не утверждаем, что риска уничтожения человечества со стороны ИИ не существует. Наоборот, мы считаем, что уничтожить людей — это довольно вероятный способ, которым система ИИ может полностью и навсегда гарантировать то, что мы не сможем вернуть свою власть обратно.

Несмотря на риск, люди всё равно могут запустить незаалайненный ИИ

Если люди будут знать, что запуск незаалайненного ИИ может привести к таким ужасным последствиям, никто же не будет его создавать и использовать?

К сожалению, есть как минимум две причины, почему люди могут создать и затем запустить незаалайненный ИИ.42 Рассмотрим их по очереди.

1. Люди могут посчитать, что ИИ заалайнен, хотя на самом деле это не так


Представим группу исследователей, которые в тестовом окружении пытаются понять, является ли система, которую они построили, заалайненной. Мы утверждаем, что разумный планирующий ИИ захочет улучшить свои способности, чтобы эффективнее достигать своих целей, а это практически всегда будет проще, если его запустят в реальном мире, где доступен более широкий спектр действий. В итоге любой достаточно сложный незаалайненный ИИ попытается понять, что от него хотят исследователи, и как минимум притвориться, что он делает именно это, чтобы исследователи посчитали, что он заалайнен. (Например, система, обучающаяся с подкреплением, может вознаграждаться за видимость определённого поведения во время обучения, независимо от её реальных действий.)

Хочется верить, что мы учтём возможность такого поведения и сможем его обнаружить. Однако поймать на обмане достаточно развитый ИИ, кажется, будет сложнее, чем поймать на лжи человека, что не всегда просто. Например, не исключено, что достаточно развитый ИИ окажется способен заставить нас поверить, что мы решили задачу "как распознать обман со стороны ИИ", хотя на самом деле мы её не решили.

Если системы ИИ научатся хорошо обманывать и у них будут достаточно развитые способности, то для таких систем может оказаться разумным обманывать людей полностью до тех пор, пока они не станут достаточно могущественны, чтобы преодолеть любые препятствия со стороны людей на пути к их целям.

2. Есть мотивы запустить систему ИИ как можно раньше


Также мы можем ожидать, что некоторые люди, способные запустить незаалайненный ИИ, будут стремиться это сделать, невзирая на тревожные сигналы, свидетельствующие о незаалайненности. Это может произойти из-за состояния "гонки", в котором люди будут пытаться запустить свой ИИ раньше, чем это сделает кто-то ещё.

Например, если вы разрабатываете ИИ для того, чтобы улучшить собственное военное или политическое положение, намного полезней успеть его запустить раньше, чем у кого-то из ваших противников появится аналогичный мощный ИИ.

Такие же мотивы могут оказаться даже у людей, которые стремятся построить ИИ, чтобы с его помощью улучшить мир.

Например, допустим, вы потратили многие годы на исследования и разработку мощного ИИ, и вы хотите применить его исключительно для того, чтобы улучшить мир. В очень упрощённом случае возможны два варианта:

  1. Этот мощный ИИ будет заалайнен с вашими благородными целями и вы преобразуете общество к лучшему радикальным образом.

  2. Ваш ИИ окажется значительно незаалайнен, захватит власть, и человечество больше никогда не сможет управлять своим будущим.

Предположим, вы на 90% уверены, что вам успешно удалось построить заалайненный ИИ. Однако технологии часто развиваются разными группами параллельно примерно с одинаковой скоростью, поэтому достаточно вероятно, что кто-то ещё тоже скоро разработает мощный ИИ. И вы считаете, что ваши конкуренты менее осторожны или менее альтруистичны, поэтому вы оцениваете вероятность того, что их ИИ будет заалайнен с хорошими целями лишь в 80%, и таким образом у вас получается вероятность экзистенциальной катастрофы 20%. И только если вы будете первыми, ваш более полезный ИИ победит. В итоге, возможно, вы решите запустить ваш ИИ, смирившись с риском в 10%.

Всё это звучит очень абстрактно. Как на самом деле может выглядеть экзистенциальная катастрофа, вызванная ИИ?

Пока мы приводили лишь очень общие доводы и действительно не вдавались в подробности, как именно ИИ, пытающийся захватить власть, может этого добиться.

Для тех, кто хочет лучше понять, как может на самом деле выглядеть экзистенциальная катастрофа, вызванная ИИ, мы написали отдельную небольшую статью. Если же вам пока хватает высокоуровневых абстрактных аргументов, можете смело переходить к следующему разделу!

Как на самом деле может выглядеть экзистенциальная катастрофа, вызванная ИИ?

4. Даже если мы решим проблему стремления к власти, есть и другие риски

До сих пор мы обсуждали сценарии возникновения самого существенного экзистенциального риска с точки зрения большой доли исследователей в данной области43 . Самое существенное для этих сценариев: будет ли ИИ стремиться к власти для того, чтобы достигать своих целей.

Если мы сможем предотвратить поведение, направленное на получение власти, мы значительно снизим этот экзистенциальный риск.

Однако даже если нам это удастся, ИИ представляет и другие возможные риски.

ИИ может сделать войны ещё хуже

Конфликт сверхдержав тоже может всерьёз угрожать нашему миру. А с развитием ИИ война, вполне вероятно, станет выглядеть совсем иначе — из-за распространения летального автономного оружия44 или из-за автоматизированного принятия решений.45

В некоторых случаях война между сверхдержавами может представлять собой экзистенциальную угрозу: например, в случае применения ядерного оружия. Возможно, ИИ увеличит риски его применения, хотя есть также и доводы в пользу того, что ИИ снизит эти риски.46

И наконец, если какая-то из сторон создаст особенно мощный ИИ, это может быть расценено как "решающее стратегическое преимущество". Например, США может создать планирующий ИИ, достаточно разумный для того, чтобы не позволить России или Китаю больше никогда использовать ядерное оружие. В таком случае противники этой стороны могут решиться на первый удар, не дожидаясь, пока разработанные ИИ планы начнут реализовываться.

ИИ могут использовать для создания новой опасной технологии

Мы ожидаем, что системы ИИ помогут ускорить научный прогресс.47

Хотя автоматизация научной работы даст многие преимущества — например, быструю разработку новых лекарств — какие-то варианты технологического развития могут представлять угрозу для человечества, в том числе экзистенциальную. Например, опасность может прийти из биотехнологий48 (подробнее этот вопрос раскрывается в нашей статье о предотвращении катастрофических пандемий) или от какой-то другой, пока не известной, но опасной технологии.49

ИИ может дать больше власти тоталитарным правительствам

Авторитарное правительство с помощью ИИ способно полностью автоматизировать слежку за своими гражданами и репрессии против них, а также существенно влиять на то, какую информацию получают люди, и не исключено, что после этого координировать действия против такого режима станет невозможно.50

Если это приведёт к какому-то варианту по-настоящему стабильного тоталитаризма, возможно, жизни людей станут намного хуже на чрезвычайно долгий период времени, то есть, ИИ может привести к довольно пугающему развитию событий.

Прочие риски со стороны ИИ

Также нас беспокоят следующие вопросы, хотя в них мы понимаем меньше:

  • Экзистенциальные угрозы, которые являются следствием не стремления к власти со стороны ИИ, а результатом взаимодействия между разными ИИ. (Чтобы системы представляли такой риск, они всё равно должны быть в какой-то степени незаалайнены).

  • Прочие способы злонамеренного использования ИИ, о которых мы пока не подумали, — особенно такие, которые могут значительно повлиять на будущие поколения.

  • Прочие этические ошибки при проектировании и использовании систем ИИ — особенно в том случае, когда будущие системы ИИ сами по себе будут иметь моральную значимость. Например, возможно, мы (неумышленно) создадим системы ИИ, обладающие сознанием. Возможно, огромное число таких систем будет страдать. Мы считаем этот вопрос чрезвычайно важным, поэтому мы создали для него отдельный профиль.

Итак, насколько вероятна катастрофа, связанная с ИИ?

На этот вопрос чрезвычайно сложно ответить.

У нас нет примеров из прошлого, по которым мы могли бы посчитать, как часто случались такие катастрофы.

Мы можем лишь опираться на доводы вроде тех, что мы привели выше, и на менее релевантные данные, вроде истории технологических достижений. И мы совершенно не готовы утверждать, что наши доводы полностью верны.

Рассмотрим доводы, которые мы привели выше, в разделе про ИИ и стремление к власти. Эти доводы основываются на докладе Карлсмита. В конце своего доклада Карлсмит даёт некоторые грубые оценки вероятностей для каждого этапа своих рассуждений (при условии, что предыдущие этапы тоже верны):

  1. К 2070 году станет возможно (в том числе с финансовой точки зрения) построить системы, обладающие стратегическим мышлением, которые превзойдут людей во многих задачах, позволяющих накапливать власть, и которые будут способны строить и реализовывать планы. Карлсмит оценивает вероятность такого события в 65%.

  2. При наличии такой возможности, у людей будут сильные мотивы для того, чтобы создать такие системы: 80%.

  3. При наличии такой возможности и стимулов к созданию таких систем, будет намного сложнее построить заалайненную систему, не стремящуюся к власти, чем незаалайненную, которая к власти стремиться будет, но запуск которой, тем не менее, будет выглядеть значительно привлекательней: 40%

  4. При условии всего вышеперечисленного, некоторые запущенные системы будут накапливать власть незалайненным способом, что приведёт к ущербу более чем на триллион долларов (в пересчёте на доллары 2021 года): 65%.

  5. При условии всего вышеперечисленного, незаалайненные системы ИИ в стремлении к власти лишат практически всё человечество возможности управлять собственной судьбой: 40%.

  6. При условии всего вышеперечисленного, это будет экзистенциальной катастрофой: 95%.

Перемножив эти числа, Карлсмит получил 5% вероятности того, что его доводы верны и к 2070 году произойдёт экзистенциальная катастрофа, вызванная незаалайненным ИИ, стремящимся к власти. Когда мы поговорили с Карлсмитом, он заметил, что за год, прошедший между написанием его отчёта и публикацией статьи, его общая оценка вероятности экзистенциальной катастрофы к 2070 году, вызванной ИИ, стремящимся к власти, выросла до "больше 10%".51

Общая вероятность экзистенциальной катастрофы, вызванной ИИ, вероятно, ещё выше, потому что есть и другие сценарии, ведущие к возможной катастрофе — например те, что упомянуты в предыдущем разделе. Хотя мы предполагаем, что эти другие сценарии приводят к экзистенциальной катастрофе с гораздо меньшей вероятностью.

Другая оценка: консультант "80000 часов" философ Тоби Орд в своей книге "На краю пропасти" оценил шансы экзистенциальной катастрофы к 2120 году (по любой причине) как 1/6. 60% от этого риска — это опасность незаалайненного ИИ, что даёт вероятность экзистенциальной катастрофы от незаалайненного ИИ к 2120 году в 10%.

В опросе 2021 года, проведённом среди 44 исследователей, работающих над снижением экзистенциальных рисков со стороны ИИ, медианная оценка риска оказалась равна 32,5%. Наибольший ответ был 98%, наименьший — 2%.52 Здесь очевидно присутствует значительная ошибка выборки: люди работают над снижением рисков со стороны ИИ, потому что считают, что эта работа чрезвычайно важна, поэтому нам следует ожидать, что оценки в таком опросе будут существенно выше, чем оценки из других источников. Но здесь мы явно видим значительную неопределённость в том, насколько велик риск, и большой разброс среди ответов.

Эти числа настолько высоки, что они могут даже напугать. Конечно, мы совсем не уверены, что все приведённые доводы верны. Однако в целом это наивысшие оценки величины экзистенциального риска среди всех вопросов, которые мы исследовали (например, пандемии искусственного происхождения, конфликт сверхдержав, изменение климата или ядерная война). И, как мы уже объяснили, мы считаем, что доводы в пользу настолько высоких оценок довольно убедительны. Поэтому, с нашей точки зрения, очень вероятно, что риски со стороны ИИ — это самая важная проблема, стоящая перед человечеством.

5. Со всеми этими рисками можно работать

Мы считаем, что работа над снижением наиболее серьёзных рисков, связанных с ИИ, — это одно из самых важных дел, которыми вы могли бы заниматься.

И дело не только в том, что мы считаем, что эти риски высоки. Мы также считаем, что их вполне реально снизить.

Мы знаем о двух довольно широких подходах:

  1. Исследования в области технической безопасности ИИ

  2. Разработка и реализация стратегий регулирования в области ИИ

В обоих случаях есть множество способов внести свой вклад. Ниже мы опишем эти способы подробнее, а в этом разделе проиллюстрируем точку зрения, что мы действительно можем что-то сделать в отношении упомянутых рисков.

Исследования в области технической безопасности ИИ

Польза от трансформационного ИИ может быть огромна, и над его разработкой работают множество различных действующих лиц в разных странах, поэтому предотвратить его появление, вероятно, было бы довольно сложно.

(Кроме того, вероятно, это вообще не самая лучшая идея: ведь таким образом вместе с предотвращением рисков мы отказываемся от возможных выгод.)

Поэтому мы считаем, что гораздо разумнее сосредоточиться на том, чтобы гарантировать, что разработанный трансформационный ИИ будет безопасным, то есть сделать так, чтобы мы с высокой вероятностью избежали всех катастрофических исходов, перечисленных выше.

Один из способов этого добиться — это попытаться разработать технические решения, которые бы предотвращали поведение, направленное на захват власти, которое мы обсуждали выше. Это направление обычно называют "технической безопасностью ИИ". Иногда для краткости просто говорят: "безопасность ИИ".

Подробнее об исследованиях в области технической безопасности ИИ читайте ниже.

Разработка и реализация стратегий регулирования в области ИИ

Второй подход, направленный на снижение рисков со стороны ИИ, заключается в том, чтобы влиять на его разработку с помощью регулирования, создания норм и прочих механизмов управления.

Хорошее регулирование в области ИИ может помочь работе над технической безопасностью. Например, оно может способствовать появлению соглашений о безопасности между корпорациями или помочь талантливым исследователям в области безопасности со всего мира переезжать туда, где они смогут принести максимум пользы. Регулирование в области ИИ может также помочь и с другими проблемами, которые порождают риски, например с состоянием "гонки".

Однако, как мы уже упоминали, даже если мы успешно построим ИИ, который делает именно то, что мы хотим (т.е. решим проблему алайнмента), мы, тем не менее, можем потребовать от него сделать что-то плохое! Поэтому нам следует беспокоиться не только о стимулах для систем ИИ, но и о мотивации использующих их людей.

Подробнее о разработке и реализации стратегий регулирования в области ИИ читайте ниже.

6. Эта работа чрезвычайно недооценена

По нашим оценкам над снижением рисков экзистенциальной катастрофы, связанной с ИИ, напрямую работает лишь около 400 человек во всём мире (90% доверительный интервал — от 200 до 1000). Из них примерно три четверти работают над техническими вопросами безопасности ИИ, а остальные занимаются разработкой стратегий (и другими вопросами регулирования) или популяризацией.53 . Мы считаем, что на вспомогательных должностях работают примерно 800 человек, но в этой оценке мы очень сильно не уверены.54

В своей книге "На краю пропасти" Орд оценивает, что на снижение рисков со стороны ИИ в 2020 году было потрачено от 10 до 50 миллионов долларов.

Может показаться, что это огромная сумма, но мы расходуем примерно в тысячу раз больше55 на то, чтобы быстрее разрабатывать трансформационный ИИ, — примерно столько тратят крупные лаборатории на исследование и разработку ИИ в коммерческих целях.

Предлагаем также сравнить упомянутые 50 миллионов долларов, потраченные на безопасность ИИ в 2020 году, с несколькими сотнями миллиардов долларов в год, которые мы тратим на борьбу с изменением климата.

Поскольку эта область настолько недооценена, а ставки в ней настолько высоки, мы считаем, что если вы будете работать над рисками со стороны ИИ, польза от вашей работы может оказаться намного выше, чем от работы во многих других областях. Именно поэтому для желающих значительно улучшить мир мы в первую очередь рекомендуем два направления работы: техническая безопасность ИИ и разработка и реализация стратегий регулирования ИИ.

Какие мы знаем лучшие аргументы в пользу того, что мы неправы?

Как мы уже писали выше, у нас нет полной уверенности в правильности наших доводов о том, что ИИ представляет экзистенциальную угрозу. И хотя мы считаем, что шансы катастрофы со стороны ИИ достаточно высоки и они оправдывают потраченное время многих людей, которые попытаются предотвратить такой исход, мы также хотим быть честными в отношении аргументов против этого, чтобы вам было легче составить своё мнение по этому вопросу.

Здесь мы рассмотрим самые сильные (с нашей точки зрения) причины считать, что эта проблема не слишком важна. В следующем разделе мы рассмотрим некоторые популярные возражения, которые (с нашей точки зрения) менее весомы.

Чем больше у нас времени до появления трансформационного ИИ, тем меньше причин работать над этой проблемой прямо сейчас. Вполне возможно, люди в будущем смогут работать над ней гораздо более эффективно, чем мы сегодня.

Кроме того, если на создание трансформационного ИИ у нас уйдёт много времени, у нас также будет много времени на то, чтобы понять, как сделать его безопасным. Судя по всему, риск гораздо выше, если трансформационный ИИ появится в ближайшие десятилетия.

Идея о том, что, вероятно, трансформационный ИИ появится ещё нескоро, в первую очередь основывается на достаточно убедительном предположении о том, что, первый трансформационный ИИ, скорее всего, не будет построен на основе современных методов глубокого обучения. (Проект "AI Impacts" собрал список доводов в пользу того, что пользуясь современными методами не получится создать ИИ человеческого уровня.) Это может означать, что некоторые из наших современных исследований в итоге окажутся бесполезными (кроме того — в зависимости от того, какой способ будет в итоге использовал для создания ИИ — некоторые доводы, говорящие о риске, станут менее весомыми).

Однако даже если современные методы не позволят создать трансформационный ИИ, всё же есть причины считать, что у нас не настолько много времени на решение этой проблемы. Например, возможно, найти технические решения, позволяющие предотвратить поведение, направленное на захват власти, будет чрезвычайно сложно.

Кроме того, даже если мы не сможем использовать глубокое обучение для создания трансформационного ИИ, возможно, мы просто придумаем новые методы. В итоге многие эксперты в области ИИ полагают, что мы увидим трансформационный ИИ довольно скоро.

Мы считаем, что появление трансформационного ИИ в ближайшие 20-80 лет достаточно вероятно. Поэтому работать над вопросом безопасности стоит (с точки зрения ожидаемой полезности) уже сейчас. Возможно, конечно, об этом позаботятся будущие поколения, и вся наша работа окажется напрасной. Да, мы надеемся, что так и будет! Однако полагаться на это может быть рискованно и неразумно.

Если лучший из доступных нам ИИ будет улучшаться постепенно (у ИИ не будет резкого скачка способностей после долгого периода, когда они оставались на относительно невысоком уровне), скорее всего, мы увидим "тревожные сигналы": сможем заметить примеры незаалайненного поведения в относительно слабых системах и благодаря этому исправим ошибки до того, как станет слишком поздно.

В случае такого постепенного развития событий мы будем лучше понимать, как будет выглядеть мощный ИИ (в частности, будет ли он построен на современных методах глубокого обучения или каким-то совершенно иным образом), что, скорее всего, значительно поможет в исследовании вопросов безопасности. Также по мере того, как риски со стороны ИИ будут становиться очевиднее, общество будет уделять этому вопросу больше внимания.

Поэтому, если постепенное улучшение ИИ — более вероятный сценарий, риск, судя по всему, снижается.

Но нельзя с большой уверенностью утверждать, что ИИ будет развиваться постепенно или, точнее, что он будет развиваться достаточно постепенно, чтобы это означало значительное снижение рисков. И даже если ИИ будет развиваться постепенно, возможно, будет очень полезно подготовить планы и технические решения заранее. Поэтому в итоге мы считаем, что всё равно чрезвычайно важно пытаться снижать риски уже сейчас.

Если ты хочешь узнать больше, можешь прочитать подборку проекта "AI Impacts" с аргументами за и против скачкообразного (то есть, не постепенного) прогресса в способностях ИИ, а также работу Тоби Орда и Оуэна Коттона-Беррета про стратегические следствия медленной разработки ИИ.

Задачи "задать системе цели, заалайненные конечным целям людей-проектировщиков" и "сделать систему полезной" выглядит как очень близкие. Если это действительно так, возможно, мы создадим заалайненный ИИ, потому что иначе мы не сможем сделать его полезным. В этом случае проблема алайнмента, скорее всего, будет решена по умолчанию.

Бен Гарфинкель в нашем подкасте привёл пару примеров того, как это может быть:

  • Представим, что термостат — это очень простой ИИ, который пытается сохранять определённую температуру в комнате. У термостата есть металлическая полоска, которая расширяется, когда комната нагревается, и выключает ток при достижении заданной температуры. Этот кусок металла заставляет термостат действовать так, будто у него есть цель сохранять в комнате нужную температуру, но также именно она позволяет достигать ему этой цели (и тем самым делает его полезной).

  • Представьте, что вы создаёте робота-уборщика, используя обучение с подкреплением, то есть задаёте какие-то условия, при которых робот получает положительное подкрепление. Вы можете сказать что-то вроде: "Чем меньше будет в доме пыли, тем больше будет положительного подкрепления". Но если вы так поступите, робот начнёт делать то, чего вы не хотите: например, рвать подушки, чтобы найти пыль внутри них. Скорее всего, вместо этого вам нужны методы вроде тех, что разрабатывают специалисты по безопасности ИИ (например, позволить ИИ наблюдать за тем, как дом убирают люди, чтобы он научился на основании их поведения). Так что люди, создающие ИИ, будут естественным образом мотивированы также попытаться сделать его заалайненным (и таким образом в какой-то мере безопасным), чтобы он мог справиться со своей работой.

Если для того, чтобы сделать системы ИИ полезными, в любом случае потребуется решить проблему алайнмента, это значительно снижает шансы того, что у нас будут незаалайненные, но тем не менее значительно более полезные системы ИИ. Поэтому стимул запустить незаалайненный ИИ будет значительно меньше, и таким образом будет меньше риск для общества.

Тем не менее, причины для беспокойства всё равно остаются. Например, судя по всему, остаётся нерешённой проблема обмана со стороны ИИ.

Также, как мы уже говорили, алайнмент ИИ — лишь часть общей проблемы. Решить проблему алайнмента — это не то же самое, что полностью исключить экзистенциальный риск со стороны ИИ, поскольку заалайненный ИИ всё равно может привести к плохим последствиям — например, в руках авторитарного правительства.

Как и в случае других исследовательских проектов на ранней стадии, мы не знаем, насколько сложно решить проблему алайнмента (или другие проблемы ИИ, которые могут нести риски). Кто-нибудь может посчитать, что хотя значительные риски со стороны машинного интеллекта действительно есть, однако вряд ли дополнительные исследования или работа над регулированием чем-то помогут, поэтому лучше работать над чем-нибудь другим.

Чрезмерная сложность задачи — определённо веская причина, чтобы заняться чем-то другим. Разрешимость — важная часть модели, c помощью которой мы сравниваем глобальные проблемы. Например, нас также очень беспокоят риски от пандемий, а эту проблему, вероятно, решить гораздо проще.

Тем не менее, учитывая каковы ставки, возможно, для многих людей всё равно имеет смысл работать над снижением рисков со стороны ИИ. Даже если шансы на успех оцениваются как низкие. Нужно полагать, что снизить риски со стороны ИИ чрезвычайно сложно, чтобы решить, что пусть лучше пусть эти риски реализуются.

По крайней мере мы сами, "80 000 часов", всё равно хотим помогать решать проблему безопасности ИИ — например, создавая такие статьи, как эта — даже если шансы на успех кажутся низкими (хотя мы на самом деле настроены довольно оптимистично).

Есть некоторые причины считать, что наш ключевой довод (приведённый выше) о том, что любая развитая планирующая система со стратегическим мышлением по умолчанию будет стремиться к власти, не совсем верен.56

  1. Мы можем построить простые примеры, для которых рассуждения, приведённые нами выше, похоже, окажутся не совсем верны. Мы утверждали, что, вероятно, системы ИИ будут делать то, что выглядит в целом полезным для их главной цели. Однако, например, рассмотрим автономный игрушечный автомобиль, который может двигаться лишь тогда, когда его двигатель включён. Для подавляющего большинства возможных целей, судя по всему, для машины довольно полезно иметь возможность двигаться, поэтому нам стоит ожидать, что она включит двигатель. Однако, по-видимому, довольно несложно натренировать машину не включать двигатель: мы можем просто давать ей отрицательное подкрепление каждый раз, когда она включает двигатель, даже если это приводит к достижению каких-то других целей. Подобные простые примеры заставляют усомниться в том, что если какое-то конкретное действие будет инструментально полезно, мы не сможем найти способ запретить его. (Больше примеров можно найти на странице 25 рецензии Гарфинкеля на отчёт Карлсмита.)

  2. Возможно, не любое незаалайненное поведение, направленное на захват власти, приведёт к тому, что всё человечество лишится возможности управлять собственной судьбой. Например, возможно, система ИИ посчитает, что проще отобрать власть лишь у тех людей, которые могут помешать её собственным целям, какие бы они ни были. Тем не менее, чем более развитыми способностями обладает ИИ (например, способностями, позволяющих реализовать какой-либо из семи сценариев по накоплению власти, описанных здесь), тем более вероятно, что он сможет успешно справиться со всем человечеством. Лишить власти всё человечество, вероятно, довольно надёжный способ для системы ИИ гарантировать, что он всегда сможет достигнуть своих целей. Поэтому если более способные системы смогут с достаточной вероятностью лишить человечества возможности во что-либо вмешиваться, вероятно, хорошая планирующая система посчитает, что это стоит включить в свой план.

  3. Можно ожидать, что при обучении какой-то ML-системы мы по умолчанию будем отбраковывать результаты, демонстрирующие поведение, направленное на накопление власти, и тем самым снизим шансы такого поведения, когда ИИ будет запущен. К сожалению, непонятно, насколько хорошо это сработает, особенно с учётом того, что достаточно продвинутые системы, возможно, попытаются нас обмануть. А это означает, что, возможно, мы заметим опасное поведение, лишь когда станет уже поздно.57

  4. Люди тоже способны планировать и обладают стратегическим мышлением, однако не всегда стремятся к власти. Да, мы заботимся о том, чтобы у нас была еда и крыша над головой, и многие люди тратят активные усилия на то, чтобы получить больше денег, более высокий статус, лучшее образование или даже официальную должность во власти. Однако некоторые люди предпочитают не гнаться за этими целями, более того, судя по всему, наличие таких целей не коррелирует с интеллектом.

Однако из этого нельзя сделать вывод, что аргумент о стремлении ИИ к власти ошибочен. Ведь у большинства людей всё же появляется мотивация накапливать разные виды влияния с помощью богатства, статуса, высоких должностей и так далее. И зачастую люди действуют в соответствии с этой мотивацией. А наблюдение, что люди обычно не ищут огромное количество власти, можно объяснить тем, что обычно ради этого нужно приложить слишком уж много усилий.

Например, люди обычно не основывают компании стоимостью в миллиард долларов: скорее всего, у тебя ничего не выйдет, но ты потратишь слишком много времени и сил.

Но перейти улицу ради получения чека на миллиард долларов мы обычно всё же готовы.

Тем не менее, у многих людей нет стремления к власти, и поэтому напрашивается мысль, что, в принципе, исследования в области алайнмента, направленные на предотвращение стремления ИИ к власти, могут увенчаться успехом. Это хорошая новость! Однако в настоящий момент мы не понимаем, как этого добиться.

Возражения такого рода — это одна из причин почему, как мы уже упоминали, Карлсмит оценивает лишь в 40% вероятность того, что — даже при условии, что у нас будут возможности и желание построить продвинутый планирующий ИИ — будет гораздо сложнее построить заалайненную систему без стремления к власти, чем незаалайненную систему, которая хотя бы на первый взгляд будет казаться достаточно надёжной, но после запуска начнёт стремиться к власти.

И в целом именно из-за подобных точек зрения мы не до конца уверены, что каждый шаг наших доводов целиком верен.

Однако даже с учётом упомянутых возражений мы всё же считаем, что шансы на то, что наши выводы в целом верны — или по крайней мере указывают на что-то очень важное, — достаточно высоки, чтобы уделить этому вопросу очень серьёзное внимание.

Доводы против работы над рисками со стороны ИИ, на которые, как мы считаем, есть весомые ответы

Только что мы обсудили основные возражения против работы над рисками со стороны ИИ, которые мы считаем наиболее убедительными. В этом разделе мы рассмотрим возражения, которые считаем менее убедительными, и объясним, почему мы так считаем.

Начиная с 1950-х годов кто-нибудь постоянно говорит, что ещё чуть-чуть и у нас появится искусственный интеллект, превосходящий человека.

Однако его до сих пор нет.

Одна из возможных причин этого заключается в том, что его никогда и не будет. Некоторые утверждают, что создать сильный искусственный интеллект в принципе невозможно. Другие считают, что это возможно, но вряд ли это произойдёт, и уж точно не с помощью современных методов глубокого обучения.

В целом мы считаем, что существование человеческого интеллекта показывает, что создать искусственный интеллект принципиально возможно. И, насколько мы представляем, никто из утверждающих, что мы никогда не создадим мощный ИИ общего назначения, не смог предсказать скорость современных достижений в этой области.

Но что самое важное, распространённая идея о том, что значительный экзистенциальный риск может представлять лишь абсолютно универсальный искусственный интеллект, ошибочна.

Доводы, которые мы привели выше, основываются на том, что системы ИИ догонят или обгонят людей в некотором подмножестве областей: в планировании, стратегическом мышлении и в задачах, связанных с получением и удержанием власти. Если вы считаете, что это возможно, то риск сохраняется.

И даже если ни у одного ИИ нет всех этих свойств сразу, тем не менее возможно, что лишить власти человечество смогут системы, составленные из "специализированных" ИИ. Например, предположим, у нас есть планирующий ИИ, который разрабатывает планы для компании, отдельный ИИ, который собирает данные о компании, ещё один ИИ, который пытается оценивать планы, созданные первым ИИ, чтобы предсказать, как много дохода принесёт каждый из них, и ещё ИИ, который реализовывает эти планы (например, автоматически строит и управляет фабриками). Если рассмотреть получившуюся систему как единое целое, то можно заметить, что она способна строить и выполнять планы для достижения какой-то цели, и, возможно, у неё также есть развитые способности в тех областях, которые помогают накапливать власть. Поэтому даже для системы из многих взаимодействующих друг с другом ИИ риск остаётся.

Это может оказаться очень-очень сложно.

Уже сейчас чрезвычайно сложно запретить людям или компьютерам запускать какое-либо программное обеспечение.

Подумайте о том, насколько сложно выключить интернет-сервисы Гугла. Дата-центры Гугла расположены в 34 различных местах и содержат миллионы серверов. Многие из них выполняют один и тот же код. И без этих дата-центров Гугл работать не в состоянии, поэтому даже если бы его руководству могла прийти в голову идея закрыть весь бизнес, вряд ли бы её кто-то реализовал.

Или подумайте о том, насколько сложно избавиться от компьютерных вирусов, которые автономно распространяются между компьютерами по всему миру.

В целом мы считаем, что любая опасная система ИИ, стремящаяся к власти, будет искать способы, гарантирующие, что её не выключат. В итоге, скорее всего, мы столкнёмся с чем-то похожим на одну из этих ситуаций, а не с вариантом, когда можно будет просто выдернуть одну машину из розетки.

Тем не менее, определённо стоит постараться спроектировать ИИ таким образом, чтобы мы всё-таки могли "выдернуть его из розетки".

Возможно, есть способы создать системы, которые позволят нам их выключить. Однако в настоящее время, мы не знаем, как это сделать.

Гарантированная возможность выключить опасный ИИ может быть мерой безопасности, найденной в процессе исследований в области технической безопасности ИИ. Или это может быть следствием тщательного регулирования в области ИИ, например, согласованных усилий, направленных на остановку автономного программного обеспечения, когда оно запущено.

Мы определённо можем (и даже должны!) попробовать это сделать.

Если у нас действительно получится запереть развитый ИИ в "песочнице" — то есть, ограничить его обучающим окружением без доступа к реальному миру до тех пор, пока мы не будем очень уверены в том, что он не причинит вреда, — то это значительно поможет нам снизить риски со стороны ИИ.

Однако по некоторым причинам это может оказаться сложной задачей.

Для начала, чтобы ИИ начал влиять на реальный мир, может оказаться достаточно всего лишь одной ошибки — например, кто-то снимет ограничения "песочницы" или в её системе безопасности обнаружится неучтённая уязвимость.

Более того, это решение не масштабируется при росте возможностей системы ИИ. Дело в том, что:

  • Более способные системы с большей вероятностью найдут уязвимости или другие способы выйти из "песочницы" (например, они могут начать шантажировать оператора или угрожать ему).

  • Системы с развитыми навыками планирования могут попытаться обмануть нас, чтобы мы запустили их в реальном мире.

Поэтому чем более опасна система ИИ, тем менее вероятно, что её удастся успешно удержать в "песочнице". От хорошего решения проблемы мы хотим обратного.

В случае некоторых определений слов "по-настоящему разумная" — например, если настоящий разум включает в себя глубокое понимание этики и желание быть этичным — вероятно, это действительно так.

Однако при таком определении слов "по-настоящему разумная", риск представляют системы, не являющиеся "по-настоящему разумными". Как мы указывали выше, риск для человечества представляют развитые системы, которые могут планировать и обладают стратегическим мышлением.

Достаточно развитое стратегическое мышление будет включать в себя прекрасное понимание мира. Скорее всего, это будет означать и прекрасное понимание человеческой этики. Однако вряд ли из этого следует, что такая система будет и действовать этично.

Например, когда мы изучаем другие культуры или этические системы, у нас совсем не всегда появляется желание следовать их этике. Специалист по довоенному Югу США может очень хорошо понимать, почему рабовладельцы XIX века считали себя высокоморальными людьми, но вряд ли он будет защищать рабовладение.

Системы ИИ, превосходно понимающие человеческую этику, могут быть даже более опасны, чем ИИ, который её не понимает: подобная система способна поначалу действовать этично, чтобы убедить нас в том, что она безопасна.

В интернете можно встретить в какой-то степени карикатурные описания рисков со стороны ИИ, в которых ИИ даются цели, которые уж точно никому не интересны. Например, вряд ли кто-то по-настоящему хочет "создать как можно больше скрепок". Поэтому может показаться, что проблем, описанных выше, легко избежать, если просто давать ИИ лишь те цели, которых мы на самом деле хотим достичь.

И да, если бы мы могли задать ИИ цели, которые в самом деле очень точно соответствуют тому, что мы хотим получить, и если бы мы знали, что система будет преследовать лишь эти цели, то риск, представляемый ИИ, был бы гораздо меньше.

Однако, как мы уже обсуждали, для многих целей, которые мы могли бы задать продвинутым планирующим системам, они, вероятно, поставят себе дополнительные инструментальные цели. Например:

  • Поддержка собственного существования.

  • Накопление влияния и власти, чтобы у системы было больше возможностей влиять на её окружение и тем самым достигать своих целей.

Это особенно верно для систем с амбициозными целями — а именно такие цели ассоциируются с гипотетическими мощными ИИ будущего, — и, следовательно, именно такие цели мы скорее всего захотим дать продвинутым планирующим системам.

Мы уже перечислили выше несколько причин, почему управлять подобными целями может быть сложно (вкратце: могут быть проблемы с выбором индикаторов, позволяющих ИИ понять, достигнута ли цель, и ещё есть сложности, связанные с тем, что в современных ML-системах цель задаётся через обучение, а не явным образом). Мы также обсудили, почему система ИИ должна оставаться полезной, и почему множество якобы простых способов просто "не давать системе плохие цели" перестанут работать, когда система ИИ улучшит свои способности планировать и стратегическое мышление.

Также возможна проблема, что даже если у одной группы действительно получится дать ИИ лишь "правильные" цели, у других групп это может не получиться, и в итоге мы всё равно столкнёмся с очень способным искусственным интеллектом, рвущимся к власти. И в этом случае шансы экзистенциальной катастрофы того или иного рода станут выше.

Резюмируем: хотя мы определённо хотели бы не давать системе ИИ плохие цели, задача о том, как это сделать, судя по всему, очень похожа на задачу о том, как построить безопасный ИИ. А она пока не решена.

Определённо существует опасность и со стороны уже существующего искусственного интеллекта.

Например, в данных, используемых для обучения нейронных сетей, часто есть неявная предвзятость. Это означает, что системы ИИ могут научиться этой предвзятости. А это в свою очередь ведёт к расистскому и сексистскому поведению.

Есть и другие опасности. В обсуждении выше про возможное начало ядерной войны описывалась угроза, для которой не требуется ИИ с особо развитыми способностями.

Однако мы считаем, что если экзистенциальные риски от ИИ достаточно высоки, то работать над ними гораздо важнее, чем над рисками со стороны современных систем.

Как мы уже обсуждали, системы будущего — не обязательно сверхинтеллект или абсолютно универсальный интеллект, а системы, которые умеют хорошо планировать и способны накапливать власть, — судя по всему, способны представлять угрозу для существования всего человечества. И, похоже, что довольно вероятно, что мы создадим такие системы в этом веке.

Более того, значительная часть исследований по технической безопасности ИИ также связана с решением проблем существующих систем ИИ. Например, некоторые исследования сосредоточены на том, чтобы гарантировать, что модели ML будут делать то, что мы от них хотим, и это не изменится при увеличении их размера и способностей. Другие исследования направлены на то, чтобы выяснить, как и почему существующие модели принимают решения и делают именно то, что они делают.

В итоге, по крайней мере в области технической безопасности, выбор между работой над современными угрозами и рисками будущего — это скорее выбор между тем, чтобы работать только над безопасностью современных моделей, и поиском таких способов обеспечить безопасность как современных моделей, которые будут применимы и к более сложным и более разумным системам ИИ будущего.

В конце концов, на то, чтобы заниматься всем сразу, у нас не хватит времени. Поэтому правильно выбрав проблему, над которой вы будете работать, вы, возможно, принесёте значительно больше пользы. Когда существуют настолько существенные угрозы, кажется разумным, чтобы многие люди сосредоточили свои усилия на предотвращении наиболее опасных сценариев.

Да, может.

ИИ уже помогают во многих отраслях медицины, управляют беспилотными автомобилями на дорогах и автоматизируют работу по дому.

А если у нас получится автоматизировать научную работу и разработку новых технологий, мы получим совершенно невероятный экономический и научный прогресс. Скорее всего, ИИ сможет помочь нам решить многие из критичных для нашего мира задач.

Однако из того, что ИИ может сделать много добра, не следует, что он не может при этом причинить много вреда. ИИ — пример технологии двойного назначения, то есть такой технологии, которую можно использовать как во благо, так и во вред. Например, исследователям удалось спроектировать биооружие с помощью нейросети, обученной разрабатывать лекарства.

Мы очень надеемся увидеть огромные блага, которые принесёт нам ИИ, и ждём их с нетерпением. Однако мы также очень хотим минимизировать огромные риски, которые представляют собой продвинутые ИИ.

Можно было бы так подумать.

Однако, как мы уже говорили, существуют стимулы создавать системы, которые умеют планировать (и реализовывать свои планы), а также стимулы использовать такие системы — даже если мы не уверены, что они заалайнены. Люди могут ошибаться по поводу того, насколько такие системы опасны, или пойти на небольшой риск для всего мира ради больших выгод.

И можно вспомнить примеры из других областей, как люди разрабатывали очень опасные системы.

Напрашивающийся пример — ядерное оружие: его создали несмотря на риск, что оно может уничтожить всё человечество. Энрико Ферми, один из ведущих физиков-экспериментаторов Манхэттенского проекта, считал, что испытание "Тринити" с некоторой вероятностью может поджечь атмосферу и уничтожить всю жизнь на Земле. Тем не менее, испытание всё равно провели. И хотя на самом деле практически никто не хочет использовать ядерное оружие, мы много раз оказывались на грани ядерной войны.

Мы также писали о возможных глобальных катастрофических биорисках. Исследования "приобретения функции" — это исследования, в которых умышленно создаются более опасные патогены, которые способны вызвать пандемию, гораздо более опасную, чем пандемия COVID-19. Учёные занимаются этими исследованиями, несмотря на риск, с которым мы столкнёмся, если такие патогены выйдут за пределы лаборатории.

Возможно, ИИ радикально изменит нашу жизнь — и тем самым принесёт огромные деньги компаниям и государствам, которые его разработают. Потенциальная прибыль здесь может быть гораздо выше, чем в случае ядерного оружия или исследований "приобретения функций", и это создаст соответствующую мотивацию.

Иными словами, ИИ, который приведёт к экзистенциальной катастрофе также может сделать своих создателей невообразимо богатыми — на короткое время.58

Поэтому, если на то пошло, можно ожидать, что люди будут даже менее осторожны с ИИ, чем с другими опасными технологиями.

Несомненно, некоторые люди увлеклись темой безопасности ИИ, потому что они любят компьютеры и научную фантастику. Как и в любой области, здесь есть люди, которые тут работают не потому, что они считают, что это важно, а потому что они считают, что это круто.

Однако многие люди занимаются безопасностью ИИ с большой неохотой.

Для меня и многих из нашей команды в "80 000 часов" тратить наше ограниченное время и ресурсы на что угодно, что важно в долгосрочной перспективе, — и таким образом не тратить это время на ужасные проблемы, которые есть в нашем мире сегодня — невероятно тяжело с эмоциональной точки зрения.

Однако мы постепенно изучили аргументы, упомянутые выше (чтобы разобраться, как мы можем принести больше всего пользы), и со временем стали лучше разбираться в вопросах ИИ. И теперь этот риск беспокоит нас гораздо больше.

Мы считаем, что скептицизм — это хорошо, и совсем не готовы утверждать, что полностью уверены в приведённых доводах. Мы согласны, что упомянутый скептицизм — это определённо повод копнуть поглубже. Тем не менее, мы надеемся, что эти сомнения не будут расценены как повод считать обсуждаемую проблему менее значимой. Вполне возможно, что это самая важная проблема нашего времени.

Если идея звучит как научная фантастика, это ещё не повод сразу же её отвергать. Есть множество примеров того, как что-нибудь сначала упоминалось в научной фантастике и уже потом случалось в реальной жизни (в этом перечне изобретений из НФ можно найти много таких примеров).

Есть даже пара примеров с упоминанием технологий, которые сейчас представляют реальную экзистенциальную угрозу:

  • В романе "Освобождённый мир", опубликованном в 1914 году, Герберт Уэллс предсказал использование атомной энергии в очень мощных бомбах — за 20 лет до того, как мы поняли, что цепная ядерная реакция теоретически возможна, и за 30 лет до настоящего создания ядерного оружия. В 1920-х и 1930-х нобелевские лауреаты Милликен, Резерфорд и Эйнштейн предсказывали, что мы никогда не сможем использовать атомную энергию. До того, как ядерное оружие стало реальностью, оно в буквальном смысле было научной фантастикой.

  • В фильме 1964 года "Доктор Стрейнджлав" США построили машину Судного дня, которая в ответ на ядерный удар автоматически запускала механизм, уничтожающий всю жизнь на Земле, но которая держалась в тайне. Доктор Стрейнджлав указывает, что если скрывать существование такой машины, то это наоборот уменьшит сдерживающий эффект. Однако теперь мы знаем, что в 1980-х СССР построил очень похожую систему... и держал её в тайне.

Более того, над предотвращением рисков со стороны ИИ работают ведущие учёные и исследователи в МТИ, Кембридже, Оксфорде, Калифорнийском университете и других местах. В двух из ведущих лабораторий по созданию ИИ (DeepMind и OpenAI) есть специально выделенные команды, которые работают над технической безопасностью ИИ. Исследователи из упомянутых институтов и лабораторий помогали нам с этой статьёй.

Вполне вероятно, что беспокойство всех этих людей необоснованно. Однако сложно утверждать, что всё это — лишь научная фантастика, когда столько людей воспринимают эту угрозу всерьёз.

Если какая-то идея для вас выглядит похожей на научную фантастику, то тщательно изучить её, прежде чем действовать — это вполне разумно. Однако если вы уже исследовали эту идею и подкрепляющие её доводы выглядят весомо, то схожесть с научной фантастикой уже не повод отбрасывать её.

Мы никогда не знаем наверняка, что случится в будущем. Поэтому если мы хотим сделать мир лучше, то нам, к сожалению, всегда придётся иметь дело с каким-то количеством неопределённости.

Мы также считаем, что есть важная разница между "гарантированно принести определённую пользу" и "стараться достичь максимума, на который ты способен". Чтобы достичь первого, нельзя рисковать вовсе. А это значит, что ты, скорее всего, упустишь лучшие возможности повлиять на мир.

При столкновении с неопределённостью имеет смысл примерно оценить ожидаемую полезность своих действий: сумму всех хороших и плохих последствий этих действий, помноженных на их вероятности.

Так как ставки очень высоки, а риски со стороны ИИ не настолько малы, получается, что ожидаемая полезность от помощи в решении этой проблемы высока.

Мы понимаем беспокойство о том, что идущий работать над безопасностью ИИ может в итоге сделать довольно мало, хотя он мог бы принести огромное количество пользы в другом месте. Да, так может случиться — ведь в проблеме и в нашем текущем понимании о том, что с ней можно делать, слишком много неопределённости.

Но мы считаем, что мир будет лучше, если некоторые из нас будут решать эту проблему. Так мы максимизируем наши шансы на хорошее будущее с продвинутым ИИ вместо экзистенциальной катастрофы.

И, кажется, чрезвычайно важно хотя бы попробовать.

Ограбление Паскаля — это мысленный эксперимент (вариация на тему знаменитого пари Паскаля), показывающий, что если человек принимает решение на основе ожидаемой полезности, то им можно манипулировать, предлагая что-то необычайно хорошее (или предлагая спасти от чего-то необычайно плохого) с чрезмерно низкой вероятностью успеха.

"Ограбление Паскаля" описывается примерно так: на улице тебя останавливает грабитель и говорит: "Отдай мне свой кошелёк или я применю против тебя и всех, когда-либо живущих, пыточное проклятье". Вы не можете быть на 100% уверены, что он не в состоянии это сделать — в конце концов, ни о чём нельзя утверждать со 100% уверенностью. А пытка всех, когда-либо живущих, — это настолько ужасно, что наверняка спастись от этой пусть даже очень крохотной вероятности стоит 40 долларов в твоём кошельке? Однако интуитивно кажется, что вроде бы не стоит отдавать кошелёк кому-то лишь из-за того, что он угрожает вам чем-то совершенно неправдоподобным.

Аналогично, можно было бы подумать, что работать над безопасностью ИИ — значит тратить своё ценное время, чтобы избежать очень крохотного шанса катастрофы. Работа над снижением рисков со стороны ИИ не бесплатна: альтернативные издержки довольно существенны, потому что в этом случае ты не сможешь работать над другими чрезвычайно важными проблемами, такими как снижение рисков от пандемий или борьба с промышленным животноводством.

Разница здесь в следующем: хотя ставки действительно очень высоки — возможно, на кону стоят жизни всех, кто живёт сегодня, и всё будущее человечества — нельзя сказать, что вероятность того, что ты сможешь принести пользу, работая над снижением рисков со стороны ИИ, достаточно мала, чтобы можно было применить этот аргумент.

Мы очень хотели бы, чтобы шансы катастрофы, вызванной ИИ, были бы настолько исчезающе малы.

Однако мы наоборот считаем, что вероятность подобной катастрофы (по нашим оценкам, около 10% в этом веке) гораздо больше вероятности событий, которые люди постоянно пытаются предотвратить — например авиакатастроф, которые случаются в 0.00002% полётов.

Впрочем, реально важно здесь то, в какой мере ваша работа может снизить шансы катастрофы.

Рассмотрим работу над снижением рисков со стороны ИИ. Например, если:

  1. Существует вероятность 10%, что до 2100 года произойдёт экзистенциальная катастрофа, связанная с ИИ

  2. Существует вероятность 30%, что технические исследования позволят нам её предотвратить

  3. Пять людей, работающих над технической безопасностью ИИ, увеличивают шансы решения проблемы на 1% от упомянутых 30% (то есть на 0,3 процентных пункта)

То вклад каждого человека, работающего над технической безопасностью, в предотвращение катастрофы составляет 0,0006 процентных пункта.

Другие альтруистичные действия подразумевают вероятности такого же порядка.

Вероятность, что волонтёр, работающий в кампании кандидата на пост президента США, изменит ход выборов, оценивается где-то между 0,001% и 0,00001%. Тем не менее, работать волонтёром в такой кампании оправдано, потому что если предпочитаемый тобой кандидат победит, это довольно сильно повлияет на мир.

Если вы хотите реформировать политические институты или в процессе фундаментальных научных исследований сделать открытия, которые когда-нибудь помогут победить рак, то шансы на то, что именно вы внесёте ключевой вклад в решение проблемы, будут ещё ниже.

Все вместе как общество мы, возможно, способны снизить шансы катастрофы, связанной с ИИ, с 10% (или выше) до практически нуля. Для группы людей определённо стоит этим заняться. Поэтому это имеет смысл и для одного человека.

Вряд ли мы откажемся заниматься фундаментальной наукой из-за того, что у каждого отдельного исследователя есть лишь очень малая вероятность совершить следующее большое открытие. Вряд ли мы перестанем бороться за мир из-за того, что у каждого отдельного активиста есть лишь очень малая вероятность предотвратить третью мировую войну. Как обществу нам надо, чтобы какие-то люди работали над подобными важными вопросами, и ты можешь стать одним из таких людей.

Что конкретно ты можешь сделать, чтобы помочь

Как мы упоминали выше, нам известно два основных направления работы над снижением экзистенциальных рисков со стороны ИИ:

  1. Исследования в области технической безопасности ИИ

  2. Разработка и реализация стратегий/политики регулирования в области ИИ

Больше всего вы поможете, если будете работать в одной из этих областей или в какой-то смежной области

В первую очередь надо узнать больше о технологиях, задачах и возможных решениях. Мы подготовили несколько списков наших любимых ресурсов. В первую очередь мы рекомендуем заглянуть в учебный план технического алайнмента от "AGI Safety Fundamentals".

Тем, кто решает работать в этой области, мы обычно рекомендуем идти в организации, которые в первую очередь сосредоточены именно на этой проблеме (хотя кроме работы в уже существующих организациях, есть и другие способы помочь).

Техническая безопасность ИИ

Направления работы


В области технической безопасности ИИ есть множество направлений, например:

Больше подробностей о задачах во всей этой области и о подходах к их решению можно прочитать в статье Нанды.

Основные организации


Лаборатории, занимающиеся ИИ, у которых есть команды, работающие над технической безопасностью, или которые целиком сосредоточены на вопросах безопасности:

  • Anthropic — компания, занимающаяся безопасностью ИИ и работающая над созданием интерпретируемых и безопасных систем ИИ. Они сосредоточены на эмпирических исследованиях безопасности ИИ. Основатели Anthropic Даниэла и Дарио Амодей давали интервью об их лаборатории в подкасте Института будущего жизни. В нашем подкасте мы разговаривали с Крисом Олой, который возглавляет в Anthropic’е исследования по интерпретируемости, и Новой ДасСармой, который работает в Anthropic'е над информационной безопасностью.

  • DeepMind — вероятно, крупнейшая и самая известная исследовательская группа, разрабатывающая сильный искусственный интеллект. Известна тем, что создала AlphaGo, AlphaZero и AlphaFold. Безопасность ИИ не является их основной задачей, однако у них есть две команды, которые работают над безопасностью. Владельцем DeepMind является холдинг Alphabet (родительская компания Гугла).

  • Center for AI Safety — некоммерческая организация, которая занимается техническими исследованиями, а также популяризацией вопросов безопасности среди занимающихся машинным обучением.

  • OpenAI — основанная в 2015 году лаборатория, пытающаяся построить сильный искусственный интеллект, который будет безопасным и принесёт пользу всему человечеству. OpenAI известна своими языковыми моделями — например, GPT-3, — и в ней есть команда по безопасности и команда по регулированию. Ян Лейке (глава команды алайнмента) иногда пишет в свой блог о том, что он думает про алайнмент ИИ.

  • Ought — лаборатория, занимающаяся машинным обучением и разрабатывающая Elicit, ИИ, помогающий в научных исследованиях. Их цель — заалайнить рассуждения по открытым вопросам посредством изучения, как рассуждают люди и использовать прогресс в области ИИ для оценки свидетельств и аргументов.

  • Redwood Research — исследовательская организация, работающая над безопасностью ИИ. Их первый большой проект — это попытка обеспечить, чтобы языковые модели (вроде GPT-3) выдавали ответы, следуя определённым правилам с очень высокой вероятностью. Это направлено на работу с ошибками, которые при обычном обучении обнаруживаются слишком редко.

Лаборатории, занимающиеся безопасностью ИИ на теоретическом уровне:

  • Alignment Research Center (ARC) пытается создавать стратегии алайнмента, которые можно было бы применить уже сегодня, но которые при этом можно было бы масштабировать для будущих систем. Они в первую очередь занимаются теоретической работой: разрабатывают стратегии, которые могут помочь решить проблему алайнмента и могут оказаться перспективными для эмпирических исследований. Их первым проектом был доклад о выявлении скрытого знания — задачи о том, как сделать так, чтобы развитый ИИ честно сообщал нам свои убеждения (или "убеждения") о мире. В нашем подкасте мы брали интервью у основателя ARC Пола Кристиано (это было до того, как он основал ARC).

  • Center on Long-Term Risk работает над проблемой худших рисков со стороны продвинутого ИИ. В первую очередь они занимаются вопросами конфликтов между системами ИИ.

  • Machine Intelligence Research Institute — группа, которая ещё в начале 2000-х одной из первых начала заниматься рисками со стороны машинного интеллекта. Их команда опубликовала ряд статей о вопросах безопасности и о том, как их решать.

Безопасность ИИ в научных институтах:

Если вам хочется узнать больше про техническую безопасность ИИ как область исследований — то есть про различные методы, направления мысли и модели угроз — мы в первую очередь рекомендуем курс по техническому алайнменту от "AGI Safety Fundamentals".

Мы обсуждаем это направление работы более подробно по следующей ссылке (хотя информация там несколько устарела по сравнению с этой статьёй):

Обзор профессионального пути исследователя в области технической безопасности ИИ

Если же вам хочется более конкретных и пошаговых рекомендаций (и поменьше вводных слов), то ознакомьтесь с вот этим подробным руководством о том, как начать работать над алайнментом ИИ.

Важно заметить, что для участия в исследованиях в области безопасности ИИ не обязательно быть учёным или экспертом в ИИ или безопасности ИИ. Например, во многих местах, где занимаются исследованиями в области технической безопасности, нужны программисты. Ниже мы упоминаем ещё несколько профессий.

Регулирование и стратегии в отношении ИИ

Направления работы


Помимо технических задач есть также множество различных сложностей и неопределённостей в области регулирования. Например:

  • Проблемы координации, которые увеличивают риски со стороны ИИ (например, могут появиться стимулы использовать ИИ для личных выгод в ущерб другим или условия сильной конкуренции, которые снизят мотивацию разрабатывать ИИ осторожно и безопасно).

  • Риски от случайных происшествий или использования ИИ во вред могут быть значительными, даже если мы сможем предотвратить поведение, направленное на захват власти (это обсуждалось выше).

  • Недостаточно понятно, как и когда точно могут сработать риски со стороны ИИ (в особенности со стороны ИИ с тягой к власти).

  • Недостаточно понятно, какие мы должны ставить перед собой промежуточные цели, т.е. чего мы должны достичь, чтобы уменьшить экзистенциальный риск со стороны ИИ.

Чтобы решать эти вопросы, нужно заниматься как исследованиями, так и разработкой и реализацией стратегий.59

Сейчас мы лишь начинаем разбираться, какая именно задача стоит перед нами и как её эффективнее всего решать. Поэтому очень важно проводить больше исследований. Это включает в себя исследования в области прогнозов о том, что нам следует ожидать, и исследования в области стратегий и регулирования, чтобы понять, какими действиями легче всего уменьшить риски.

Но при этом, поскольку ИИ начинает влиять на наше общество всё сильнее, критически важно, чтобы правительства и корпорации влияли на его развитие, руководствуясь лучшими стратегиями. Например, правительства могли бы навязывать соглашения, не позволяющие экономить на безопасности, поддерживать работу тех исследователей, чья работа с меньшей вероятностью причинит вред, или способствовать тому, чтобы блага от ИИ распределялись более равномерно. Поэтому, возможно, рано или поздно очень важными направлениями окажутся популяризация и лоббирование подходящих стратегий регулирования в области ИИ. Хотя сейчас мы ещё не представляем, какие стратегии было бы полезно реализовать.

Основные организации


Организации, занимающиеся вопросами стратегии и регулирования в области ИИ:

Если вы хотите узнать больше о вопросах регулирования в области ИИ, в первую очередь мы рекомендуем присмотреться к курсу по этой теме от AGI safety fundamentals.

Более подробно мы обсуждаем это карьерное направление здесь:

Карьера в области регулирования и стратегии в отношении ИИ

Также обратите внимание: возможно, людям, которые хорошо для этого подходят, особенно рекомендуется работать над Регулированием и стратегиями в отношении ИИ в Китае.

Вспомогательные (и тем не менее очень важные) должности

Даже в исследовательских организациях примерно половина персонала занимается вспомогательными задачами, которые необходимы, чтобы организация работала как можно более продуктивно. Очень важно, чтобы на таких должностях тоже были высокопродуктивные люди.

Мы считаем, что важность этих должностей часто недооценивают, потому что их работа менее заметна. Чтобы помочь большему числу людей пойти на такую работу и преуспеть, мы написали несколько обзоров про эти направления. Например:

Другие способы помочь

Безопасность ИИ — это очень сложная проблема. Поэтому для её решения нужна помощь людей, занимающихся совершенно разными делами.

Один из важнейших способов помочь — это работать кем-то, кто направляет финансирование или людей на решение проблемы рисков со стороны ИИ, а не занимается проблемой напрямую. У нас есть обзоры подобных направлений деятельности, например:

Во всех этих случаях есть множество причин, почему что-нибудь может пойти не так, поэтому в первую очередь нужно более детально изучить проблему.

Есть также другие технические должности (помимо собственно исследователей вопросов безопасности), на которых вы можете внести свой вклад в решение проблемы. Например, вы можете:

Вы можете почитать обо всех этих направлениях деятельности — почему мы считаем, что они полезны, как начать в них работать и как можно предсказать, подходят ли они вам — на нашей странице обзоров профессиональных путей.

Хочешь индивидуальную консультацию о том, как начать работать над проблемой рисков со стороны ИИ?

Мы считаем, что риски, вызванные развитием ИИ, могут быть одной из наиболее критичных для нашего мира проблем. Если, по-твоему, ты можешь неплохо подойти для какого-нибудь из перечисленных выше направлений деятельности и помочь решить эту проблему, мы будем особенно рады поговорить с тобой один на один и посоветовать дальнейшие шаги.

Мы можем помочь тебе составить список вариантов, познакомить тебя с другими людьми, работающими над снижением рисков со стороны ИИ, и, возможно, даже помочь найти работу или финансирование. И всё это бесплатно.

ЗАПИШИСЬ НА БЕСЕДУ С НАШЕЙ КОМАНДОЙ

Найди предложения о работе на нашей доске объявлений

Лучшие ресурсы, чтобы узнать больше

На протяжении этой статьи мы вывалили на тебя множество ссылок для дальнейшего чтения. Ниже перечислены те из них, которые мы считаем самыми лучшими:

В подкасте "80 000 часов" у нас было множество подробных интервью с людьми, которые активно работают над тем, чтобы разработка искусственного интеллекта принесла человечеству пользу:

Если вы хотите копнуть гораздо глубже, рекомендуем начать с курсов AGI safety fundamentals. Можно выбрать одно из двух направлений: технический алайнмент или регулирование ИИ.

И наконец есть несколько сайтов, которые, возможно, покажутся вам интересными:

  • AI Alignment Forum, где общаются исследователи в области технической безопасности ИИ.

  • AI Impacts — проект, направленный на то, чтобы общество лучше понимало возможные последствия появления искусственного интеллекта человеческого уровня.

  • Alignment Newsletter еженедельно публикует свежие материалы, связанные с алайнментом ИИ. У них уже тысячи подписчиков.

  • Import AI — еженедельная рассылка об искусственном интеллекте, которую ведёт Джек Кларк (сооснователь Anthropic). Её уже читают более 10 тысяч специалистов.

  • ChinAI Newsletter, которую ведёт Джефф Дин. В ней еженедельно публикуются переводы китайских текстов о происходящем в области ИИ в Китае.

Благодарности

Огромное спасибо Жоэлю Беккеру, Тамаю Бесироглу, Джон-Ун Пён, Джозефу Карлсмиту, Джессу Клифтону, Эмри Купер, Аджее Котре, Эндрю Критчу, Энтони ДиДжованни, Ноэми Дрекслер, Бену Эдельману, Лукасу Финнведену, Эмили Фрайцель, Бену Гарфинкелю, Кате Грейс, Льюису Хэммонду, Джейкобу Хилтону, Самуэлю Хилтону, Мишель Хатчинсон, Каролине Дженмер, Куану Джейапрагасану, Арден Кёлер, Даниелю Кокотайло, Виктории Краковне, Алексу Лоусену, Хоуи Лемпелу, Элаю Лифланду, Кэти Мур, Люку Мюльхаузеру, Нилу Нанде, Лин Чи Нгуен, Луизе Родригес, Каспару Остерхелду, Итану Перецу, Чарли Роджерсу-Смиту, Джеку Райану, Роину Шаа, Баку Шлегерису, Марлен Стейб, Андреасу Штульмюллеру, Люку Стеббингу, Нейту Томасу, Бенджамину Тодду, Стефану Торджесу, Майклу Таунсенду, Крису ван Мервийку, Ялмару Вийку и Марку Сюю за их рецензии на эту статью или за чрезвычайно вдумчивые и полезные комментарии и беседы. (Это не означает, что все вышеперечисленные согласны со всем, что мы написали в статье: на самом деле во многих комментариях их авторы не соглашались довольно энергично!)

Notes and references

  1. Что мы подразумеваем здесь под "интеллектом"? Что-то вроде "способности влиять на будущее предсказуемым образом". Сюда входит достаточно глубокое понимание мира, которое позволяет строить работающие планы, а также умение претворять эти планы в жизнь. Благодаря этой способности люди смогли менять окружающий мир, чтобы он лучше соответствовал их целям и потребностям. Ниже мы подробнее обсудим важность способности строить и реализовывать планы.
  2. Также нас беспокоит вопрос о том, что системы ИИ могут оказаться субъектами, заслуживающими внимания с этической точки зрения — например, потому что у них будет сознание. Этому вопросу мы посвятили отдельную статью.
  3. Количество таких людей оценить сложно.

    В идеале мы хотим оценить, сколько ЭПЗ (" эквивалентов полной занятости") тратится на снижение экзистенциальных рисков от ИИ.

    Однако в вопросе о том, кого считать работающим над этой задачей, есть множество неоднозначностей. Поэтому для своих оценок я пользовался следующими правилами:

    • Я не включал людей, которые планируют работать над предотвращением катастрофы, связанной с ИИ, но в настоящее время лишь учатся, а не работают над задачей напрямую.

    • Я включал исследователей, инженеров и прочий персонал, которые, судя по всему, напрямую занимаются исследованиями в области технической безопасности ИИ или вопросами регулирования ИИ и разработкой стратегий. Однако граница между этими людьми и теми, кого я решил не включать, довольно нечёткая. Например, я не включал специалистов по машинному обучению, разрабатывающих системы ИИ, которые потенциально можно использовать для исследований безопасности, но которые не разрабатывались в первую очередь именно для этой цели.

    • Я учитывал лишь время, потраченное на задачу снижения потенциальных экзистенциальных рисков от ИИ — вроде тех, что обсуждаются в этой статье. Множество работ по безопасности и этике ИИ рассматривают более общие вопросы, а также другие риски, связанные с ИИ. Такие работы могут косвенно помогать снижению экзистенциальных рисков, и это усложняет подсчёты. Я решил учитывать только работы, которые напрямую связаны со снижением рисков катастрофы, связанной с ИИ (подробнее читайте в разделе, посвящённом нашей модели для оценки проблем).

    • Аналогично я не учитывал людей, работающих над задачами, которые могут косвенно влиять на шансы катастрофы, связанной с ИИ: например, улучшением эпистемологии и принятия решений в организациях, снижением вероятности конфликта сверхдержав или распространением идей эффективного альтруизма.

    Определившись с этими правилами, я оценил количество ЭПЗ тремя способами.

    Во-первых, я оценил количество ЭПЗ, работающих напрямую над задачей снижения экзистенциальных рисков от ИИ, в каждой организации из базы данных AI Watch. Для этого я посмотрел, сколько в каждой из организаций числилось персонала — как всего, так и отдельно в 2022 году, — а также сколько в каждой из организаций числилось исследователей. В итоге, по моим оценкам, получилось от 76 до 536 ЭПЗ (доверительный интервал 90%), задействованных в работе над техническими вопросами безопасности ИИ. Среднее значение составило 196 ЭПЗ. Количество людей, занимающихся вопросами регулирования ИИ и разработкой стратегий, получилось от 51 до 239 ЭПЗ (доверительный интервал 90%) при среднем значении в 151 ЭПЗ. Из-за неоднозначностей, описанных выше, эти оценки получились во многом субъективными. Эти оценки могут оказаться заниженными, если в базе AI Watch отсутствуют данные по каким-то организациям, или завышенными, если данные учитывают каких-то людей по несколько раз или включают людей, которые больше не работают в этой области.

    Во-вторых, я использовал методику, которой пользовался Гэвин Лич для оценки количества людей, работающих над снижением экзистенциальных рисков от ИИ. Я разделил организации, которые оценивал Лич, на две категории: "вопросы технической безопасности" и "регулирование и стратегии". Также я адаптировал оценки Гэвина доли научных работ в области информатики, которые относятся к теме безопасности ИИ и удовлетворяют ограничениям выше, и сделал соответствующие оценки для научных работ, которые не относятся к информатике, но относятся к нашей теме. Итоговая оценка получилась от 125 до 1848 ЭПЗ (доверительный интервал 90%) при среднем значении в 580 ЭПЗ для людей, которые занимаются вопросами технической безопасности ИИ, и от 48 до 268 ЭПЗ (доверительный интервал 90%) при среднем значении в 100 ЭПЗ для людей, которые занимаются регулированием и стратегиями.

    В-третьих, я посмотрел на аналогичные оценки, сделанные Стивеном МакЭлисом. Я немного иначе распределил организации по категориям, чем Стивен, чтобы результаты соответствовали предыдущим двум оценкам. В итоге у меня получилась оценка от 110 до 552 ЭПЗ (доверительный интервал 90%) при среднем значении 267 ЭПЗ для людей, которые работают над вопросами технической безопасности ИИ, и от 36 до 193 ЭПЗ (доверительный интервал 90%) при среднем значении 81 ЭПЗ для людей, которые занимаются регулированием и стратегиями.

    Для итоговой оценки я взял геометрическое среднее от трёх полученных результатов и объединил доверительные интервалы, исходя из предположения, что распределение здесь приблизительно логнормальное.

    Наконец, я оценил количество ЭПЗ для вспомогательного персонала на основании базы данных AI Watch. Из релевантных организаций я выбрал те, для которых было достаточно данных о количестве исследователей среди сотрудников. Я рассчитал соотношения между числом исследователей в 2022 году и общим числом сотрудников в 2022 году в этих организациях, согласно информации из базы данных. Я рассчитал среднее значение этих соотношений и доверительный интервал, исходя из среднеквадратического отклонения. Эти результаты я использовал, чтобы рассчитать общее число вспомогательного персонала, исходя из предположения, что количество сотрудников распределено логнормально, а оценка упомянутых соотношений — нормально. В итоге у меня получилось от 2 до 2357 ЭПЗ (доверительный интервал 90%) при среднем значении 770 ЭПЗ для вспомогательного персонала.

    Вероятно, в этой методике много ошибок, однако я ожидаю, что эти ошибки малы по сравнению с неопределённостью в исходных данных, которые я использовал. Я по-прежнему сильно не уверен в оценке общего количества ЭПЗ, задействованных для предотвращения катастрофы, связанной с ИИ, но достаточно уверен, что это число достаточно мало, чтобы говорить о том, что проблема в целом является сильно недооценённой.

    Я очень не уверен в своих оценках. Они опираются на очень субъективные суждения. Здесь вы можете увидеть таблицы, которые я составил в процессе работы. Если у вас найдутся какие-то замечания, я буду очень рад, если вы сообщите их мне с помощью этой формы.

  4. Сложно точно сказать, сколько было потрачено на развитие способностей ИИ — частично из-за нехватки данных, частично из-за вопросов вроде:

    • Какие исследования в области ИИ действительно увеличивают его потенциальную опасность и таким образом могут повышать экзистенциальные риски?

    • Стоит ли учитывать улучшения аппаратного обеспечения ИИ или прогресс в области сбора данных?

    • Брать ли в расчёт улучшения исследовательского процесса в целом или какие-то иные разработки, которые могут увеличить экономический рост и таким образом способствовать увеличению инвестиций в развитие ИИ?

    Самое релевантное значение, которое мы смогли найти, — это расходы DeepMind в 2020 году, которые составили примерно 1 миллиард фунтов стерлингов согласно их годовому отчёту. Мы ожидаем, что большая часть этих расходов — это в том или ином смысле вклад в "развитие способностей ИИ", ведь цель DeepMind — создание мощного ИИ общего назначения. (Впрочем, следует заметить, что DeepMind также вкладывается в работу по безопасности ИИ, что может снижать экзистенциальный риск.)

    Если расходы DeepMind составляют примерно 10% от всего, что тратится на развитие способностей ИИ, то мы получаем оценку примерно 10 миллиардов фунтов стерлингов. (Учитывая, что в США есть много компаний, разрабатывающих ИИ, и что в Китае ведётся серьёзная работа по созданию продвинутого ИИ, мы предполагаем, что 10% — довольно неплохая оценка.)

    В качестве верхней оценки можно взять общий доход в секторе ИИ в 2021 году, который примерно равнялся 340 миллиардам долларов.

    Таким образом, мы считаем, что на развитие способностей ИИ тратится от 1 до 340 миллиардов долларов в год. Даже если предположить, что тратится всего лишь 1 миллиард, это всё равно будет примерно в 100 раз больше, чем расходы на снижение рисков от ИИ.

  5. См. оригинальную сноску, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=498ab4abcb09a42c и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=57843e78e5944b87

    Ideally we want to estimate the number of FTE (" full-time equivalent") working on the problem of reducing existential risks from AI. 文

    But there are lots of ambiguities around what counts as working on the issue. So I tried to use the following guidelines in my estimates: 文

    • I didn't include people who might think of themselves on a career path that is building towards a role preventing an AI-related catastrophe, but who are currently skilling up rather than working directly on the problem.

    • I included researchers, engineers, and other staff that seem to work directly on technical AI safety research or AI strategy and governance. But there's an uncertain boundary between these people and others who I chose not to include. For example, I didn't include machine learning engineers whose role is building AI systems that might be used for safety research but aren't primarily designed for that purpose.

    • I only included time spent on work that seems related to reducing the potentially existential risks from AI, like those discussed in this article. Lots of wider AI safety and AI ethics work focuses on reducing other risks from AI seems relevant to reducing existential risks – this 'indirect' work makes this estimate difficult. I decided not to include indirect work on reducing the risks of an AI-related catastrophe (see our problem framework for more).

    • Relatedly, I didn't include people working on other problems that might indirectly affect the chances of an AI-related catastrophe, such as epistemics and improving institutional decision-making, reducing the chances of great power conflict, or building effective altruism. 文

    With those decisions made, I estimated this in three different ways. 文

    First, for each organisation in the AI Watch database, I estimated the number of FTE working directly on reducing existential risks from AI. I did this by looking at the number of staff listed at each organisation, both in total and in 2022, as well as the number of researchers listed at each organisation. Overall I estimated that there were 76 to 536 FTE working on technical AI safety (90% confidence), with a mean of 196 FTE. I estimated that there were 51 to 359 FTE working on AI governance and strategy (90% confidence), with a mean of 151 FTE. There's a lot of subjective judgement in these estimates because of the ambiguities above. The estimates could be too low if AI Watch is missing data on some organisations, or too high if the data counts people more than once or includes people who no longer work in the area. 文

    Second, I adapted the methodology used by Gavin Leech's estimate of the number of people working on reducing existential risks from AI. I split the organisations in Leech's estimate into technical safety and governance/strategy. I adapted Gavin's figures for the proportion of computer science academic work relevant to the topic to fit my definitions above, and made a related estimate for work outside computer science but within academia that is relevant. Overall I estimated that there were 125 to 1,848 FTE working on technical AI safety (90% confidence), with a mean of 580 FTE. I estimated that there were 48 to 268 FTE working on AI governance and strategy (90% confidence), with a mean of 100 FTE. 文

    Third, I looked at the estimates of similar numbers by Stephen McAleese. I made minor changes to McAleese's categorisation of organisations, to ensure the numbers were consistent with the previous two estimates. Overall I estimated that there were 110 to 552 FTE working on technical AI safety (90% confidence), with a mean of 267 FTE. I estimated that there were 36 to 193 FTE working on AI governance and strategy (90% confidence), with a mean of 81 FTE. 文

    I took a geometric mean of the three estimates to form a final estimate, and combined confidence intervals by assuming that distributions were approximately lognormal. 文

    Finally, I estimated the number of FTE in complementary roles using the AI Watch database. For relevant organisations, I identified those where there was enough data listed about the number of researchers at those organisations. I calculated the ratio between the number of researchers in 2022 and the number of staff in 2022, as recorded in the database. I calculated the mean of those ratios, and a confidence interval using the standard deviation. I used this ratio to calculate the overall number of support staff by assuming that estimates of the number of staff are lognormally distributed and that the estimate of this ratio is normally distributed. Overall I estimated that there were 2 to 2,357 FTE in complementary roles (90% confidence), with a mean of 770 FTE. 文

    There are likely many errors in this methodology, but I expect these errors are small compared to the uncertainty in the underlying data I'm using. Ultimately, I'm still highly uncertain about the overall FTE working on preventing an AI-related catastrophe, but I'm confident enough that the number is relatively small to say that the problem as a whole is highly neglected. 文

    Здесь заканчивается большая сноска, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=2b67d87bb0d7161b

  6. Заметим, что до 19 декабря 2022 года на этой странице число работающих над уменьшением экзистенциальных рисков оценивалось в 300 ЭПЗ, из которых две трети работали над технической безопасностью ИИ, а остальные делились между разработкой стратегий (и других вопросов регулирования) и популяризацией.

    Это изменение вызвано улучшенной (как мы надеемся!) оценкой, а не значительным увеличением количества исследователей.

  7. Сложно понять, как следует реагировать на упомянутое отсутствие исследований. Возможно, нам следует беспокоиться меньше, потому что это свидетельство в пользу того, что исследователи осознанно не занимаются этими рисками (и значит, что риски от ИИ не слишком велики — если считать, что исследователи предпочитают работать над более существенными рисками), или же нам следует беспокоиться больше, потому что получается, что этот риск значительно недоооценён.

    Бен Гарфинкель — исследователь из Центра регулирования ИИ — указывает, что в сообществе людей, занимающихся экзистенциальными рисками, беспокойство по поводу различных рисков в какой-то степени коррелирует с тем, насколько сложно их проанализировать. Он развивает свою мысль так:

    > Из этого вовсе не следует, что сообщество ведёт себя иррационально, когда беспокоится о незаалайненном ИИ значительно больше, чем о других потенциальных рисках. Такое беспокойство прекрасно соотносится с примерно следующими рассуждениями: "Если бы я более чётко представлял, какие риски таит в себе незаалайненный ИИ, возможно, я бы осознал, что это не слишком большая проблема. Однако я не представляю это достаточно чётко. Поэтому, в отличие от ситуации с изменением климата, я не могу исключить малую вероятность того, что дополнительная информация обеспокоит меня ещё больше. Таким образом, я должен беспокоиться о незаалайненном ИИ больше, чем о других рисках. Мне следует сосредоточить мои усилия на этой проблеме, даже если какому-то стороннему наблюдателю впоследствии может показаться, что это было зря".

    Полностью пост Гарфинкеля можно прочитать здесь.

  8. В 2020 году был проведён опрос, в котором исследователей, работающих над снижением экзистенциальных рисков от ИИ, просили указать, каких именно рисков они опасаются больше всего. Авторы опроса предлагали рассмотреть пять источников экзистенциального риска:

    • Риски от сверхразумного ИИ (что-то вроде сценария, который мы описали здесь)

    • Риски, связанные с накоплением влияния

    • Риски от систем ИИ, преследующих легкоизмеримые цели (что-то вроде сценария, который мы описали здесь)

    • Война, которая усугубляется из-за применения ИИ

    • Другое умышленное использование ИИ во вред, не связанное с войной

    Опрошенные исследователи беспокоились по поводу всех этих рисков примерно в равной степени. Первые три из них освещаются в этой статье в разделе про стремящийся к власти ИИ, а два последних — в разделе про другие риски. Если такая группировка имеет смысл (мы полагаем, что да), то это означает, что участников опроса в три раза больше волновал обобщённый риск ищущего власти ИИ, чем риски военного применения или иного умышленного вредоносного использования, взятые по отдельности.

  9. Речь идёт о следующих опросах:

    Во всех трёх работах опрашивались исследователи, работы которых публиковались в материалах конференций NeurIPS и ICML.

    Стейн-Перлман и соавторы связались с 4271 исследователями, которые публиковались на конференции 2021 года (все исследователи были случайно разбиты на две группы: первая получила опросник Стейн-Перлмана и соавторов, вторая — опросник других людей), и получили 738 ответов (доля ответов — 17%).

    Чжан и соавторы связались с 2652 авторами, работы которых публиковались в материалах конференций 2018 года, и получили 524 ответа (доля ответов — 20%). Впрочем, из-за технической ошибки можно было использовать лишь 296 ответов.

    Грейс и соавторы связались со всеми 1634 авторами, работы которых публиковались в материалах конференций 2015 года, и получили 352 ответа (доля ответов — 21%)

  10. Катя Грейс, проводившая опросы 2016 и 2022 года, писала в своём блоге, что формулировка вопросов значительно влияет на получаемые ответы:

    > Люди стабильно дают более поздние оценки, если их спрашивать, чему равна вероятность события через N лет, чем если спрашивать, в каком году вероятность события будет M. Мы наблюдали этот эффект и на прямом вопросе о высокоуровневом машинном интеллекте, и на вопросах о большинстве задач и профессий, и в большинстве подобных опросов, которые мы проверяли на респондентах в MTurk раньше. Например, если спрашивать, когда с 50% вероятностью появится высокоуровневый машинный интеллект, то медианный ответ будет "через 40 лет", однако если спросить, какова вероятность создания высокоуровневого машинного интеллекта в ближайшие 40 лет, то медианный ответ будет "30%".

    Из нашего интервью с Катей вы можете узнать больше о возможных недостатках опроса 2016 года.

  11. Под словами "по мнению медианного исследователя вероятность равна x%" мы подразумеваем, что "более половины исследователей считают, что вероятность больше или равна x%".
  12. 48% респондентов опроса 2022 года, проведённого Стейном-Перлманом и соавторами, считали, что вероятность "чрезвычайно плохого (например, исчезновение человечества)" исхода — 10% или выше. Некоторые респонденты считали проблему гораздо менее серьёзной: 25% респондентов оценили вероятность чрезвычайно плохого исхода как 0%
  13. В опросах Стейна-Перлмана и соавторов и Грейс и соавторов исследователей спрашивали о "высокоуровневом машинном интеллекте". Он определялся следующим образом:

    > Когда машина без посторонней помощи сможет выполнить любую задачу лучше, чем человек, и затраты при этом будут меньше, чем затраты на труд человека. Игнорируйте те аспекты задач, для которых "быть человеком" — это ключевое преимущество (например, в настоящее время в качестве присяжного заседателя примут только человека). Важна принципиальная возможность выполнить задачу, а не согласие с тем, что её будет выполнять машина.

    В опросе, проводимом Чжаном и соавторами, исследователей спрашивали о "машинном интеллекте человеческого уровня", который определялся следующим образом:

    > Машинный интеллект считается достигнувшим человеческого уровня, если машины коллективно способны выполнять практически любые задачи (>90% от всех задач), которые имеют смысл с экономической точки зрения* лучше чем медианный оплачиваемый сотрудник выполняет эту работу в 2019 году. Игнорируйте задачи, которые по юридическим или культурным соображениям могут выполнять только люди, такие как участие в жюри присяжных.

    > * Под задачами мы подразумеваем все, что упомянуты в базе данных Occupational Information Network (O*NET). O*NET — это широко используемая база данных, описывающая, какие задачи нужно решать на той или иной работе.

    Исследователей спрашивали:

    > Предположим, что машинный интеллект человеческого уровня в какой-то момент появился. Насколько положительными или отрицательными, с вашей точки зрения, будут последствия от его появления для человечества в долгосрочной перспективе? > > В качестве ответа укажите, пожалуйста, вероятности для указанных ниже вариантов последствий (сумма вероятностей должна быть 100%): > > - Чрезвычайно хорошие (например, стремительное процветание человечества) (2) > - В целом хорошие (1) > - Более или менее нейтральные (0) > - В целом плохие (-1) > - Чрезвычайно плохие (например, исчезновение человечества) (-2)

    Для каждого опроса посчитали итоговую функцию плотности распределения вероятности появления машинного интеллекта человеческого уровня на основе средних или медианных оценок в опросе. Эти функции дали следующие вероятности появления машинного интеллекта человеческого уровня:

    • 50% к 2059 (Стейн-Перлман и соавторы, на основе средних оценок)

    • 75% к 2080 (Чжан и соавторы, на основе медианных оценок)

    • 65% к 2080 (Чжан и соавторы, на основе средних оценок)

    • 75% к 2116 (Грейс и соавторы, на основе средних оценок)

    Это означает, что ответы, которые мы здесь цитируем, близки, но тем не менее отличаются от ответов на вопрос: "Насколько положительным или отрицательным, исходя из ваших ожиданий, будет воздействие машинного интеллекта человеческого уровня на человечество в ближайшие сто лет? (Вам не обязательно исходить из допущения, что он точно появится.)" Другие прогнозы экспертов по поводу сроков появления сильного ИИ мы рассматриваем в разделе о том, когда стоит ожидать ИИ, способного изменить мир.

  14. Если быть точными, Стейн-Перлман и соавторы (2022) спрашивали участников:

    > Какую вероятность вы присваиваете тому, что будущее развитие ИИ приведёт к исчезновению человечества или необратимой и значительной потере возможности для человеческого вида управлять своей судьбой?

    Эта формулировка эквивалентна определению экзистенциальной катастрофы, которое обычно используем мы. Также она похожа на определение экзистенциальной катастрофы, которое дал Орд в книге "На краю пропасти" (2020):

    > Экзистенциальная катастрофа — это уничтожение долгосрочного потенциала человечества.

    Орд делит экзистенциальные риски на две категории: риски "исчезновения человечества" и риски "невозможности дальнейшего развития" (здесь Орд в качестве примера приводит возможность появления стабильного тоталитарного режима). Мы считаем, что необратимое и радикальное ограничение власти человечества над собственной судьбой — это вариант "невозможности дальнейшего развития" в рамках определения Орда.

    Стейн-Перлман и соавторы также отдельно спросили участников о тех видах рисков, которые беспокоят нас больше всего:

    > Какую вероятность вы присваиваете тому, что в будущем люди не смогут контролировать продвинутые системы ИИ и что это приведёт к исчезновению человечества или необратимому и радикальному ограничению власти человечества над собственной судьбой?

    Медианный ответ на этот вопрос был 10%.

    Стейн-Перлман замечает:

    > Этот вопрос содержит больше деталей, и поэтому здесь речь идёт о менее вероятном событии, чем в предыдущем вопросе, однако медианная вероятность в ответах оказалась выше. Возможно, это результат шума — эти вопросы получили разные случайные подмножества респондентов, поэтому их ответы не обязаны сочетаться друг с другом логичным образом. Или же это результат эвристики репрезентативности.

  15. Команда по безопасности в DeepMind и команда алайнмента в OpenAI в первую очередь занимаются исследованиями в области технической безопасностью ИИ. Возможно, какие-то из этих исследований помогут снизить риски, обсуждаемые в этой статье. Мы побеседовали с исследователями из обеих этих команд, и они сказали, что, по их мнению, искусственный интеллект таит в себе самый значительный экзистенциальный риск для человечества в этом столетии и что их исследования направлены на снижение этого риска. На эту же тему:

    • В 2011 году Шейн Легг — сооснователь и руководитель научных исследований DeepMind — заявил, что для него ИИ "находится на первом месте среди [экзистенциальных] рисков этого столетия, незначительно опережая искусственно созданные биологические патогены".

    • Сэм Альтман — сооснователь и генеральный директор OpenAI — высказывал опасения, хотя, судя по всему, он очень оптимистично настроен по поводу последствий от появления ИИ. Например, в своём интервью 2021 года Эзре Кляйну в ответ на вопрос о мотивации людей создавать ИИ он сказал, что существующие механизмы решают много проблем, однако "остаётся одна, которая меня беспокоит больше всего — во всей области, не только в нашей компании. Речь о том, что мы приближаемся к сверхмощным системам, которые, по мнению многих людей, создают экзистенциальные риски для человечества".

    • Для подкаста "80 000 часов" мы брали интервью у некоторых ведущих исследователей из этих организаций, например у Дарио Амодея, бывшего вице-президента OpenAI, отвечавшего за исследования (сейчас он сооснователь и генеральный директор Anthropic, ещё одной лаборатории, создающей ИИ), Яна Лейке, бывшего исследователя из DeepMind (сейчас он глава команды алайнмента в OpenAI), Джека Кларка, Аманды Аскелл и Майлза Брандеджа из команды OpenAI по вопросам регулирования (Кларк сейчас сооснователь Anthropic, Аскелл работает над техническими вопросами в Anthropic, а Брандедж возглавляет исследование вопросов регулирования в OpenAI). Все они выразили беспокойство по поводу последствий для будущего человечества со стороны ИИ.

  16. Исследователи из всех упомянутых групп присутствуют в списке учёных, которые утверждают, что занимаются вопросами безопасности ИИ, потому что считают, что эта работа снижает экзистенциальный риск. Этот список ведётся Институтом будущего жизни, и в нём также есть учёные из других университетов, помимо уже упомянутых.
  17. См оригинальную сноску 4, перевод которой начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=d33739d9296f97bf и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=2b67d87bb0d7161b

    • What research in AI is actually advancing the sorts of dangerous capabilities that might be increasing potential existential risk?

    • Do advances in AI hardware or advances in data collection count?

    • How about broader improvements to research processes in general, or things that might increase investment in the future through producing economic growth? 文

    The most relevant figure we could find was the expenses of DeepMind from 2020, which were around £1 billion, according to its annual report. We'd expect most of that to be contributing to "advancing AI capabilities" in some sense, since its main goal is building powerful, general AI systems. (Although it's important to note that DeepMind is also contributing to work in AI safety, which may be reducing existential risk.) 文

    If DeepMind is around about 10% of the spending on advancing AI capabilities, this gives us a figure of around £10 billion. (Given that there are many AI companies in the US, and a large effort to produce advanced AI in China, we think 10% could be a good overall guess.) 文

    As an upper bound, the total revenues of the AI sector in 2021 were around $340 billion. 文

    So overall, we think the amount being spent to advance AI capabilities is between $1 billion and $340 billion per year. Even assuming a figure as low as $1 billion, this would still be around 100 times the amount spent on reducing risks from AI.

  18. Экономисты называют технологии, которые влияют на всю экономику в целом "технологиями общего назначения". В сущности мы здесь утверждаем, что ИИ может стать технологией общего назначения (как, например, паровой двигатель или электричество).

    Не всегда удаётся предугадать, что именно станет технологией общего назначения. Например, потребовалось 200 лет, чтобы паровой двигатель начали использовать не только для откачивания воды из шахт.

    Тем не менее экономисты всё сильнее склоняются к тому, что ИИ, скорее всего, окажется технологией общего назначения, поскольку его можно применять очень широко.

    Довольно вероятно, что множество видов деятельности будут автоматизированы. Способность ИИ ускорить развитие новых технологий может значительно повлиять на нашу экономику, но при этом увеличивает риск потенциального появления опасной новой технологии.

    Влияние ИИ на экономику может усугубить неравенство. Владельцы индустрий, основанных на использовании ИИ, могут оказаться намного богаче всех остальных — подробности, например, можно прочитать в статье Коринека и Стиглица "Искусственный интеллект и его следствия на распределение доходов и безработицу"(2017):

    > Неравенство — это одна из основных проблем, которую может повлечь за собой массовое распространение искусственного интеллекта (ИИ) и других новых технологий, которые могут заменить человека на рабочем месте. В этой статье предлагается систематизация связанных с этим экономических вопросов. Во-первых, мы обсудим общие условия, при которых новые технологии — такие, как ИИ — могут улучшить эффективность по Парето. Во-вторых, мы в общих чертах опишем две главные причины, влияющие на неравенство — прибыль, появляющаяся у применяющих новые технологии, и перераспределение богатства, вызванное изменением цены на факторы производства. В-третьих, мы предложим несколько простых экономических моделей, описывающих, какая политика регулирования может противодействовать этим эффектам — даже в случае "сингулярности", когда практически весь труд окажется автоматизирован. При правдоподобных условиях потери тех, кто потенциально может пострадать, можно компенсировать введением неискажающих налогов. В-четвёртых, мы рассмотрим два основных фактора, посредством которых технологический прогресс может привести к технологической безработице — эффект "эффективных зарплат" и быстрые изменения рынка труда. В конце мы порассуждаем о том, как технологии, порождающие сверх-человеческий интеллект, могут влиять на неравенство и как спасти человечество от мальтузианской ловушки, в которую оно может попасть.

    Системы ИИ уже способствуют дискриминации людей из социально уязвимых групп. Например, исследование Суини (2013) обнаружило, что две поисковые системы непропорционально часто показывают рекламу с предположением о наличии истории задержаний, когда люди ищут по именам, ассоциирующимися с определёнными этническими слоями населения. А Али и соавторы (2019) пишут про рекламу Фейсбука следующее:

    > Рассматривалась гипотеза, что этот процесс может исказить показ рекламы незапланированным для рекламодателя образом: некоторые пользователи увидят определённую рекламу с меньшей вероятностью из-за своих демографических характеристик. В этой статье мы показываем, что такой искажённый показ рекламы случается на Фейсбуке и его причинами могут быть как рыночные эффекты и финансовая оптимизация, так и собственные предсказания платформы о "релевантности" рекламы для различных групп пользователей. Мы обнаружили, что и бюджет рекламодателя, и содержимое рекламного объявления значительно влияют на искажение в показе рекламы в Фейсбуке. Что особо важно, мы наблюдали значительный перекос в показе для "настоящих" объявлений с предложениями работы и жилья в зависимости от гендера и расы пользователя, несмотря на то, что целевая аудитория задавалась нейтральными параметрами.

    Мы уже умеем производить простое автономное оружие. По мере усложнения этого оружия оно полностью изменит процесс ведения войны. Ниже мы утверждаем, что ИИ может даже повлиять на сценарии использования ядерного оружия.

    И, наконец, если говорить про политику, то многие уже озабочены тем, что автоматизированные алгоритмы социальных сетей увеличивают политическую поляризацию. А некоторые эксперты предупреждают, что в ближайшие годы на политику могут значительно повлиять улучшающиеся способности ИИ создавать реалистичные фото и видео, а также автоматизированные кампании, направленные на изменение общественного мнения.

    В число знаменитых экономистов, которые считают, что ИИ, скорее всего, станет технологией общего назначения, входят Мануэль Трахтенберг и Эрик Бринолффсон.

    В статье "Искусственный интеллект как следующая технология общего назначения: Политико-экономическая перспектива" (2019) Трахтенберг пишет:

    > ИИ может стать мощной технологической силой. В связи с этим я обсуждаю способы уменьшить практически неизбежные разрушения, вызванные этим, и увеличить огромный благотворный потенциал ИИ. В настоящее время это особенно важно в свете политико-экономических соображений, которые практически отсутствовали, когда новые технологии общего назначения появлялись в прошлом.

    В статье "Искусственный интеллект и современный парадокс продуктивности: столкновение ожиданий и статистики"(2018) Бринольфссон пишет:

    > Применение ИИ в конкретных отраслях может оказаться важным, однако мы утверждаем, что ещё более важные экономические последствия от ИИ, машинного обучения и связанных с ними технологий проистекают из того, что у них есть признаки технологий общего назначения.

  19. GPT-3 на этот запрос каждый раз выдаёт новое стихотворение. Мы сгенерировали пять штук и выбрали из них лучшее.
  20. Следует заметить, что когда вы видите в интернете примеры результатов, полученных от систем вроде GPT-3, зачастую это не самая показательная выборка, так как люди делятся в основном наилучшими результатами, которые смогли получить. Однако это не делает их менее впечатляющими — ведь GPT-3 создаёт их достаточно часто, чтобы люди могли их получать за разумное время. И производительность больших языковых моделей, таких как GPT-3, после 2020 года только улучшилась — в частности нас очень впечатлили результаты LaMDA — одной из больших языковых моделей от Google Brain, выпущенной в мае 2022 года.
  21. Данные в более свежей работе, судя по всему, согласуются с гипотезой экспоненциального роста вычислительных ресурсов, однако там утверждается, что этот рост несколько медленнее указанного в анализе OpenAI. Также есть экспериментальная работа, в которой исследуется вопрос, как на производительность влияют такие ключевые факторы как вычислительные ресурсы и размер модели (не просто как производительность меняется от месяца к месяцу) и в ней тоже поддерживаются предсказания об экспоненциальном росте.
  22. В этом разделе для "трансформационного ИИ" используется несколько разных определений, однако мы считаем, что различия между ними не слишком важны с точки зрения интерпретации прогнозов о развитии ИИ. Речь идёт о следующих определениях:

    • Карнофский (2021) пользуется определением: "ИИ, могущественный в достаточной степени, чтобы привести нас в новое, качественно иное будущее". (Или как он пишет в 2016 году: "грубо говоря, трансформационный ИИ — это ИИ, который приведёт к преобразованиям, сравнимым (или даже более значительным) с сельскохозяйственной или индустриальной революцией".)

    • Котра (2020) использует схожее определение. К нему Котра добавляет: "Насколько велико должно быть влияние "настолько же существенное, как влияние индустриальной революции"? Грубо говоря, за время индустриальной революции скорость роста валового мирового продукта (ВМП) выросла с примерно 0,1% в год (до 1700 года) до примерно 1% в год (после 1850 года), то есть, увеличилась в десять раз. По аналогии я считаю, что "трансформационный ИИ" — это программное обеспечение, которое приведёт к десятикратному увеличению скорости роста мировой экономики (в предположении, что оно будет использовано везде, где это экономически оправдано)".

    • Дэвидсон (2021) пытается оценить скорость появления "сильного искусственного интеллекта" (СИИ), а не трансформационного ИИ. Он определяет СИИ как "компьютерную программу, которые способна решать практически любую интеллектуальную задачу не хуже человека при затратах, не превышающих затраты на труд человека". Заметим, что это, скорее всего, достаточное условие (но не необходимое) для стремительных экономических изменений, упомянутых в предыдущих двух определениях.

  23. Примерно такие же прогнозы эксперты дали и во время других опросов:

  24. См. оригинальную сноску, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=bcb1ae24b5a50b00 и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=9b90714637403661

    > People consistently give later forecasts if you ask them for the probability in N years instead of the year that the probability is M. We saw this in the straightforward HLMI [high-level machine intelligence] question, and most of the tasks and occupations, and also in most of these things when we tested them on mturk people earlier. For HLMI for instance, if you ask when there will be a 50% chance of HLMI you get a median answer of 40 years, yet if you ask what the probability of HLMI is in 40 years, you get a median answer of 30%. 文

    Здесь заканчивается сноска, которая начата немного ранее, но переведена в другом месте

  25. У Котры есть важное примечание:

    > Я ожидаю, что эти оценки могут ещё много раз поменяться. И (также, как и при написании статьи про биологические ориентиры) мне было эмоционально очень тяжело принимать решения о том, какой вес придавать различным перспективам и соображениям. Меня не удивит, если оценки ещё значительно поменяются... Я не уверена, насколько скачки в оценках в тех пределах, которые я рассматриваю, действительно влияют на принятие решений.

  26. Неопределённость здесь частично проистекает из того, что мы не уверены, что наши аргументы полностью обоснованы, а частично — из того, что наши аргументы опираются на достаточно неточные прогнозы о будущем.
  27. Упомянутые свойства взяты из отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ . См. Section 2.1: Three key properties ("Три ключевые свойства").
  28. В оригинале используется термин "strategic awareness". — Прим. перев.
  29. DeepMind — разработчики MuZero — пишут:

    > Исследователи много лет искали способы, которые позволяют одновременно построить модель, объясняющую своё окружение, а затем использовать эту модель, чтобы определить лучшую последовательность действий. До настоящего времени большинство подходов с трудом справлялись с эффективным планированием в таких областях, как Атари: где правила или движущие силы обычно неизвестны и сложны. > > MuZero, впервые описанная в предварительной статье в 2019 году, решает эту проблему, строя модель, которая сосредотачивается лишь на наиболее важных для планирования аспектов окружения. Объединив эту модель с мощным обходом дерева с "заглядыванием" вперёд от AlphaZero, MuZero показал превосходный результат при тестировании на играх Атари и одновременно с этим его результаты в классических играх на планирование — го, шахматах и сёги — оказались сравнимыми с результатами AlphaZero. Таким образом MuZero — это значительный шаг вперёд в способностях алгоритмов обучения с подкреплением.

  30. Например Ядерберг и соавторы с помощью глубокого обучения с подкреплением разработали агентов, играющих в Quake III (в режиме "захват флага"), и обнаружили "определённые нейроны, которые напрямую кодируют наиболее важные состояния игры, например, нейрон, который активируется, когда флаг агента захвачен". Это показывает, что эти агенты могут определять состояния игры, которые для них наиболее важны (и затем планировать и действовать, чтобы достигать эти состояния). Это выглядит довольно схожим с тем, что такое "есть цели" для людей.
  31. Мы не утверждаем, что ИИ обязан уметь планировать, чтобы приносить пользу. Многие задачи, где ИИ может оказаться полезен (например иллюстрирование книг или написание статей), кажется, вовсе не требуют планирования или стратегического мышления. Однако, видимо, можно утверждать, что ИИ, который умеет строить и реализовывать планы, с большей вероятностью существенно повлияет на мир, чем ИИ, который этого не умеет.
  32. Карлсмит в разделе 3 приводит ещё две причины, почему стоит ожидать, что кто-нибудь построит продвинутые планирующие системы со стратегическим мышлением:

    • Возможно, создать системы такого рода будет легче. Например, может оказаться, что лучший способ автоматизировать многие задачи — это создать системы, которые умеют обучаться новым действиям (а не автоматизировать каждую задачу отдельно). И, возможно, лучший способ создать систему, которая умеет обучаться новым действиям, — это создать планирующую систему, которая очень хорошо понимает, как работает окружающий мир, и затем подстраивать эту систему к конкретным задачам.

    • Возможно, по мере того, как мы создаём всё более сложные системы, мы обнаружим, что умение планировать у них появляется независимо от ожиданий создателей и этого сложно избежать. Например, некоторые утверждают, что лучший способ решить любую задачу — это уметь превосходно планировать (и хорошо уметь реализовывать созданные планы). Если это так, то по мере того, как мы улучшаем наши системы, нам следует ожидать, что они будут планировать всё лучше и лучше (если мы достаточно хорошо их оптимизируем).

  33. В литературе используется несколько незначительно отличающихся определений "алайнмента". Например:

    • ИИ заалайнен, если его решения максимизируют полезность некоего принципала (например, оператора или пользователя) (Шапиро и Шехтер, 2002).

    • ИИ заалайнен, если он действует в интересах людей (Соарес и Фалленштайн, 2015).

    • ИИ "заалайнен по намерениям", если он пытается делать то, что хочет оператор (Кристиано, 2018).

    • ИИ "заалайнен по последствиям" (с людьми), если он не предпринимает действий, которые мы оценили бы как плохие/проблемные/опасные/катастрофические, и "заалайнен по намерениям", если его поведенческие цели определяются политикой, заалайненной по последствиям с людьми (Хубингер, 2020).

    • ИИ "заалайнен по намерениям", если он пытается делать то, что от него хотят люди, и "заалайнен по последствиям", если у него это успешно получается (Критч, 2020).

    • ИИ "полностью заалайнен", если он не ведёт себя непредусмотренным образом (а именно, система не демонстрирует непредусмотренное поведение вследствие проблем с постановкой целей) в ответ на любые входные данные, совместимые с основными физическими состояниями нашей вселенной (Карлсмит).

    Термин "заалайнен" часто также используется по отношению к целям системы: говорят, что цели ИИ заалайнены, если они приводят к тем же действиям со стороны ИИ, как если бы у ИИ были общие цели с кем-то ещё (например, пользователем или оператором).

    Здесь мы используем алайнмент как свойство системы, а не целей. Наше определение больше всего похоже на определения "алайнмента по намерениям" Кристиано и Критча, а также похоже на определение "полного" алайнмента, которое дал Карлсмит.

  34. Мы считаем, что, скорее всего, контролировать цели современных ML-систем будет крайне сложно — по многим причинам, которые мы подробно рассматриваем ниже. У этого есть два следствия:

    1. Сложно добиться того, чтобы система пыталась делать именно то, что мы от неё хотим. Что в свою очередь означает, что сложно обеспечить заалайненность системы.

    1. Сложно корректировать поведение системы, если мы считаем, что у проблем с её целями могут быть особенно плохие последствия.

    Как мы поговорим ниже, мы считаем, что проблемы с целями у систем ИИ могут привести к особенно плохим последствиям.

    Аджея Котра, исследовательница из Open Philantropy, написала о том, почему мы считаем, что будет сложно обеспечить алайнмент ИИ, построенного с помощью современного глубокого обучения. Мы рекомендуем эту заметку новичкам в машинном обучении и эту — тем, кто с ним неплохо знаком.

  35. Способность навязать свою волю другим традиционно считается чем-то плохим, и в нашей аргументации мы планируем принять это как данность. Более того, мы считаем, что некоторые сценарии, при которых человечество может потерять власть, будут представлять собой экзистенциальную катастрофу — этот вопрос мы подробнее обсудим позже. Однако, с нашей точки зрения, нельзя сказать, что абсолютно во всех случаях захват кем-то или чем-то власти — это обязательно плохо, ведь иногда власть можно использовать, чтобы создать хорошие последствия (например, часто люди, которые стремятся улучшить мир, пытаются выиграть выборы). Однако мы утверждаем, что в случае систем ИИ мы в самом деле не понимаем, как гарантировать, что последствия будут хорошими.
  36. В двух примерах ниже, которые связаны с людьми (политиками и коммерческими организациями), отрицательный эффект отсутствия алайнмента не слишком значителен. У этого есть две причины:

    1. Ни у коммерческих организаций, ни у политиков нет абсолютной власти.

    2. Мы говорим о людях, а мотивация людей устроена довольно сложно (например, для них может быть важно действовать этично, а не просто достигать каких-то своих целей).

    Как следствие, политикам довольно сложно разрушить вообще всё ради голосов. Некоторые политики принимают непопулярные решения, которые, по их мнению, должны изменить ситуацию к лучшему, а некоторые коммерческие организации, например, жертвуют часть своих доходов на благотворительность.

    (Да, можно спорить, действительно ли жертвы со стороны коммерческих организаций на благотворительность действительно снижают их доходы и жертвовали бы они деньги, если бы это действительно было так. Ведь вполне возможно, таким образом они получают хорошие отзывы в СМИ, которые на самом деле приносят им ещё больше денег. Однако определённо есть примеры, с которыми спорить сложно. Например, некоторые фермеры, ранее производившие мясо и молоко, распродают своих животных и переходят на выращивание растений, потому что задумываются о моральной значимости животных.)

    У незаалайненных систем ИИ (особенно обладающих развитыми способностями и способных на гораздо большее, чем управление симулированной роботизированной рукой) не обязательно окажутся человеческие инстинкты, которые смягчат положение. Зато у них может оказаться гораздо больше власти.

  37. По приложенной анимации не похоже, что система действительно могла кого-либо обмануть. Мы не до конца понимаем, что тут происходит (в исходной статье это не описано). Один из вариантов: анимация показывает, как уже запущенная система пытается схватить шарик, а не данные, которые использовались для обучения.
  38. Примеры взяты из раздела 4.3 ("The challenge of practical PS-alignment") доклада Карлсмита об экзистенциальных рисках со стороны ИИ, ищущего власти и адаптированы для данной статьи.
  39. См. раздел 4.3.1.2 ("Problems with search") доклада Карлсмита об экзистенциальных рисках со стороны ИИ, ищущего власти.
  40. См. раздел 4.3.1.1 ("Problems with proxies") доклада Карлсмита об экзистенциальных рисках со стороны ИИ, ищущего власти.
  41. То, что системы ИИ решили лишить человечество власти (предположительно для того, чтобы не дать нам возможности помешать их планам) — свидетельство в пользу того, что мы бы могли захотеть им помешать, если бы могли. Таким образом, если система ИИ лишает человечество возможности управлять собственной судьбой, скорее всего говорит о том, что нам может не понравиться то будущее, которое она создаст.
  42. Более полное обсуждение мотивов запустить потенциально незаалайненный ИИ смотрите в разделе 5 [отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ]((https://doi.org/10.48550/arXiv.2206.13353).
  43. Здесь начинается сноска 7 - в исходной нумерации, - перевод которой начинается https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=a6026b32014d69ab и заканчивается https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=e74c29670f644dbc

    • Risks from superintelligent AI (similar to the scenario we've described here)

    • Risks from influence-seeking behaviour

    • Risks from AI systems pursuing easy-to-measure goals (similar to the scenario we've described here)

    • AI-exacerbated war

    • Other intentional misuse of AI not related to war 文

    конец сноски, переведённой в другом месте

  44. Летальное автономное оружие уже существует.

    Подробнее об этом вы можете прочитать по ссылкам:

  45. Если некоторые военные решения будут приниматься без участия людей, мы можем увидеть непреднамеренную эскалацию военных конфликтов. И даже если решения будут приниматься лишь с участием людей, возможно, наличие автоматических систем приведёт к тому, что сложные решения будут приниматься быстрее, что повысит вероятность ошибок или решений с высокими рисками.

    Подробнее об этом вы можете прочитать по ссылкам:

  46. В настоящее время в мире господствует стратегия ядерного сдерживания, основанная на "гарантированном взаимном уничтожении". Эта стратегия предполагает примерное равенство возможностей у стран, владеющих ядерным оружием, из-за которого на первый ядерный удар ожидается аналогичный ответ. Достижения в области ИИ могут быть использованы в вопросах, связанных с применением ядерного оружия — например, могут улучшиться системы раннего предупреждения или системы ПВО. Также может повыситься эффективность кибератак, направленных на вывод из строя ядерного оружия противника. Всё это может привести к тому, что упомянутое равенство возможностей исчезнет.

    Например, системы ядерного сдерживания многих стран включают баллистические ракеты, размещаемые на подводных лодках. Идея заключается в том, что если ядерное оружие спрятано в океане, его не смогут уничтожить первым ударом, а это значит, что его всегда можно будет использовать в ответ, и таким образом наличие такого оружия эффективно защищает от первого удара. Однако ИИ может позволить эффективнее обнаруживать подводные лодки, что позволит уничтожить их первым ударом. Таким образом сдерживающий эффект пропадёт.

    В докладе Стокгольмского института исследования проблем мира утверждается, что хотя ИИ может дать стабилизирующий эффект (например, приведёт к тому, что все будут чувствовать себя более уязвимыми, и тем самым снизит вероятность эскалации), однако ещё до того, как новые возможности ИИ начнут реально использоваться, мы можем столкнуться с дестабилизирующими эффектами. Дело в том, что если одно из государств поверит в то, что у их противников появились новые ядерные возможности, этого может оказаться достаточно, чтобы нарушить хрупкий баланс средств сдерживания.

    К счастью, также возможно развитие событий, в котором ИИ предотвратит использование ядерного оружия: например, улучшит возможности государств определять ядерные пуски, тем самым снизив вероятность ложных тревог вроде той, что чуть не вызвала ядерную войну в 1983 году.

    Так что в целом мы не уверены, что ИИ значительно увеличит риски ядерного конфликта в краткосрочной перспективе.

  47. У нас уже есть программы, помогающие в исследованиях (например, Elicit). Если системы ИИ заменят людей на некоторых работах или ускорят экономический рост, возможно, на научные исследования будет выделяться больше ресурсов. А если мы успешно запустим очень способные системы ИИ, возможно, какие-то части научной работы будут автоматизированы полностью.
  48. Урбина и соавторы (2022) с помощью компьютерного моделирования доказали, что существующие технологии в области ИИ, используемые для разработки новых лекарств, можно также применить для разработки биохимического оружия.

    Также на эту тему:

    О'Брайен и Нельсон (2020):

    > В области синтетической биологии ИИ потенциально способен в чём-то облегчить задачу злонамеренным лицам, желающим разработать опасные патогены с заданными свойствами.

    Турчин и Денкенбергер (2020), раздел 3.2.3.

  49. В книге "На краю пропасти" (стр. 167), Орд оценивает шансы экзистенциальной катастрофы к 2120 году от "непредвиденных антропогенных рисков" как 1 из 30.
  50. ИИ уже помогает правительствам следить за своими гражданами.

    Агентство национальной безопасности США (АНБ) использует ИИ для более эффективной обработки огромного количества данных, которые оно собирает. Этот ИИ позволяет значительно быстрее распознавать и предсказывать действия людей, за которыми следит агентство. Китай всё активнее использует распознавание лиц и системы предсказания и предотвращения преступлений, в том числе автоматическое распознавание расовых признаков и системы автоматического оповещения, настроенные на появление "потенциально опасных" людей в некоторых общественных местах.

    Судя по всему, подобные технологии слежки в будущем значительно улучшатся, и таким образом правительства получат значительно больше возможностей для контроля за своим населением.

  51. Несколько рецензентов написали отзывы на доклад Карлсмита и дали свои оценки вероятности экзистенциальной катастрофы со стороны ИИ, стремящегося к власти, к 2070 году: Аскенбреннер — 0,5%, Гарфинкель — 0,4%, Кокотайло — 65%, Нанда — 9%, Соарес — больше 77%, Тарнси — 3,5%, Торстед — 0,000002%, Уоллес — 2%.
  52. 117 исследователям задали вопрос:

    > Как вы оцениваете вероятность того, что потенциальное будущее в целом окажется значительно хуже, чем оно могло быть, в результате действий систем ИИ, которые делают/оптимизируют не то, что хотели/планировали запускавшие их люди?

    Опрос проводился среди исследователей OpenAI, Института будущего человечества (Оксфордский университет), Центра совместимого с человеком ИИ (Калифорнийский университет в Беркли), Machine Intelligence Research Institute, Open Philanthropy и DeepMind.

    Ответило 44 человека (доля ответивших — примерно 38%).

    Среднее полученных оценок — 40%.

  53. Здесь начинается сноска, которая уже переведена и её начало находится в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=ce479060db721606, а конец - в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=a2bbf9c231c110c6

    Конец уже переведённой в другом месте сноски

  54. Здесь начинается большая сноска, которая уже переведена, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=498ab4abcb09a42c и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=57843e78e5944b87

    Ideally we want to estimate the number of FTE (" full-time equivalent") working on the problem of reducing existential risks from AI. 文

    But there are lots of ambiguities around what counts as working on the issue. So I tried to use the following guidelines in my estimates: 文

    • I didn't include people who might think of themselves on a career path that is building towards a role preventing an AI-related catastrophe, but who are currently skilling up rather than working directly on the problem.

    • I included researchers, engineers, and other staff that seem to work directly on technical AI safety research or AI strategy and governance. But there's an uncertain boundary between these people and others who I chose not to include. For example, I didn't include machine learning engineers whose role is building AI systems that might be used for safety research but aren't primarily designed for that purpose.

    • I only included time spent on work that seems related to reducing the potentially existential risks from AI, like those discussed in this article. Lots of wider AI safety and AI ethics work focuses on reducing other risks from AI seems relevant to reducing existential risks – this 'indirect' work makes this estimate difficult. I decided not to include indirect work on reducing the risks of an AI-related catastrophe (see our problem framework for more).

    • Relatedly, I didn't include people working on other problems that might indirectly affect the chances of an AI-related catastrophe, such as epistemics and improving institutional decision-making, reducing the chances of great power conflict, or building effective altruism. 文

    With those decisions made, I estimated this in three different ways. 文

    First, for each organisation in the AI Watch database, I estimated the number of FTE working directly on reducing existential risks from AI. I did this by looking at the number of staff listed at each organisation, both in total and in 2022, as well as the number of researchers listed at each organisation. Overall I estimated that there were 76 to 536 FTE working on technical AI safety (90% confidence), with a mean of 196 FTE. I estimated that there were 51 to 359 FTE working on AI governance and strategy (90% confidence), with a mean of 151 FTE. There's a lot of subjective judgement in these estimates because of the ambiguities above. The estimates could be too low if AI Watch is missing data on some organisations, or too high if the data counts people more than once or includes people who no longer work in the area. 文

    Second, I adapted the methodology used by Gavin Leech's estimate of the number of people working on reducing existential risks from AI. I split the organisations in Leech's estimate into technical safety and governance/strategy. I adapted Gavin's figures for the proportion of computer science academic work relevant to the topic to fit my definitions above, and made a related estimate for work outside computer science but within academia that is relevant. Overall I estimated that there were 125 to 1,848 FTE working on technical AI safety (90% confidence), with a mean of 580 FTE. I estimated that there were 48 to 268 FTE working on AI governance and strategy (90% confidence), with a mean of 100 FTE. 文

    Third, I looked at the estimates of similar numbers by Stephen McAleese. I made minor changes to McAleese's categorisation of organisations, to ensure the numbers were consistent with the previous two estimates. Overall I estimated that there were 110 to 552 FTE working on technical AI safety (90% confidence), with a mean of 267 FTE. I estimated that there were 36 to 193 FTE working on AI governance and strategy (90% confidence), with a mean of 81 FTE. 文

    I took a geometric mean of the three estimates to form a final estimate, and combined confidence intervals by assuming that distributions were approximately lognormal. 文

    Finally, I estimated the number of FTE in complementary roles using the AI Watch database. For relevant organisations, I identified those where there was enough data listed about the number of researchers at those organisations. I calculated the ratio between the number of researchers in 2022 and the number of staff in 2022, as recorded in the database. I calculated the mean of those ratios, and a confidence interval using the standard deviation. I used this ratio to calculate the overall number of support staff by assuming that estimates of the number of staff are lognormally distributed and that the estimate of this ratio is normally distributed. Overall I estimated that there were 2 to 2,357 FTE in complementary roles (90% confidence), with a mean of 770 FTE. 文

    There are likely many errors in this methodology, but I expect these errors are small compared to the uncertainty in the underlying data I'm using. Ultimately, I'm still highly uncertain about the overall FTE working on preventing an AI-related catastrophe, but I'm confident enough that the number is relatively small to say that the problem as a whole is highly neglected. 文

    конец большой сноски, переведённой в другом месте

  55. Начало большой уже переведённой сноски, которая начинается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=d33739d9296f97bf и заканчивается в https://t.80000hours.ru/translate/80k/problem-profiles--artificial-intelligence/ru/?checksum=2b67d87bb0d7161b

    • What research in AI is actually advancing the sorts of dangerous capabilities that might be increasing potential existential risk?

    • Do advances in AI hardware or advances in data collection count?

    • How about broader improvements to research processes in general, or things that might increase investment in the future through producing economic growth? 文

    The most relevant figure we could find was the expenses of DeepMind from 2020, which were around £1 billion, according to its annual report. We'd expect most of that to be contributing to "advancing AI capabilities" in some sense, since its main goal is building powerful, general AI systems. (Although it's important to note that DeepMind is also contributing to work in AI safety, which may be reducing existential risk.) 文

    If DeepMind is around about 10% of the spending on advancing AI capabilities, this gives us a figure of around £10 billion. (Given that there are many AI companies in the US, and a large effort to produce advanced AI in China, we think 10% could be a good overall guess.) 文

    As an upper bound, the total revenues of the AI sector in 2021 were around $340 billion. 文

    конец большой сноски, переведённой в другом месте

  56. Приведённые возражения являются вариацией доводов из раздела 4.2 отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ.
  57. Детальный обзор того, насколько легко или сложно может быть контролировать цели ML-систем, можно прочитать в разделе 4.3.1 предварительного отчёта Джозефа Карлсмита по экзистенциальным рискам со стороны ИИ. Ещё один возможный сценарий, как может появиться ML-система, стремящаяся нас обмануть, можно прочитать в статье Котры "Если не предпринять специальных мер, кратчайший путь к трансформационному ИИ приведёт к захвату им власти".
  58. В случаях, когда люди захотят использовать систему, которая, по их мнению, может немедленно убить их с вероятностью (например) 10%, скорее всего, они это сделают из-за беспокойства о безопасности (например, пытаясь предотвратить запуск трансформационного ИИ другими людьми) или, возможно, по этическим/идеалистическим соображениям, а не ради денег. С другой стороны, кажется, что современные исследования, направленные на улучшение способностей ИИ, в значительной степени подстёгиваются именно денежными соображениями. Не исключено, что денежные соображения также способствуют предвзятым рассуждениям о том, насколько велики риски со стороны ИИ.
  59. Это разделение взято из обзора Сэма Кларка о вопросах регулирования ИИ.
  60. Есть перевод на русский язык. — Прим. перев.