Об автономных ИИ агентах

admin · 27.07.2024

Что, если я скажу тебе, что провентелировать вопросик в гугле, кошмарить контору, выплачивать зарплату пентестерам, общаться с мудилой-селлером и даже организовывать работу команды может твой личный виртуальный негр? С появлением автономных агентов ИИ это возможно!

Что?
Автономный агент - это большая языковая модель (LLM), которой прикрутили "руки" aka интерфейс взаимодействия с реальным миром. В действительности, человеческий мозг работает схожим образом - прежде чем совершить действие, он явно или неявно формализует задачу в языке: «Не хотят платить?? Надо пригрозить им дампом персональных данных в СМИ, включить таймер по оплате, пусть пацаны им еще раз нахуй там все полочат!». Только потом этот "программный код" превращается в реальные действия: нажатия потной ручонкой на клавиши клавиатуры, клики мышкой и общение с контрагентами.

Зачем?
Что уже делают автономные агенты - проводят ресерч (Для просмотра ссылки Войди или Зарегистрируйся), пишут код (Для просмотра ссылки Войди или Зарегистрируйся), в общем, автоматизируют задачи (Для просмотра ссылки Войди или Зарегистрируйся). Почему это охуенно? Потому что задачи не обязаны быть четко сформулированы в алгоритм, как в случае с каноническим программированием машин. Иными словами (в идеале), ты можешь сказать ей: «Разошли по СМИ сэмпл с данными, потом иди кошмарить жертву в чате. Дави, чмори и манипулируй», и она сама напишет/исполнит код это выполняющий: прогуглит и спарсит топовые СМИ, подключится к интерфейсу SMTP, сгенерирует и отправит письма, подключится к API админки с доступом к чату адверта, всех кого надо ограбит и сама же тебе в жабу, как обычный работник, отпишется с отчетом. По сути, универсальный солдат, почти как настоящий человек. Ключ от квартиры где деньги лежат? Ну, почти.

Для просмотра ссылки Войди или Зарегистрируйся

Основные проблемы:

У LLM inference ограничено контекстное окно. На данный момент для state-of-the-art моделей оно варьируется от 4к до 128к токенов (100 токенов ≈ 75 слов). Вся ее жизнь умещается в этот семантический объем, это максимальный размер данных, которыми она может оперировать. Решение: сохранение промежуточных данных в persistent файл (долговременная память), создание ассоциативных look up таблиц
Ограниченный размер вывода - 4к токенов. Костыли - аутсорс либо итеративное выполнение тасков, разбиение на мелкие подзадачи, подфункции. Все это выполняется самой же LLM
Галлюцинации и шиза - есть неотъемлимая часть любой статистической модели. Чтобы твой виртуальный негр не словил психоз и не наделал глупостей, нужно следить за ним, как за ребенком, отвечать на вопросы, контролировать, о чем он "думает". Чем больше ты его учишь, тем полезнее он становится. Один из костылей: retrieval-augmented generation (RAG)
Часть моделей зацензурена соей. Решается fine-tuning, а по сути реверсом чмошных предубеждений модели. Детальнее тут - Для просмотра ссылки Войди или Зарегистрируйся

Почему?
Поговорим о более близких русской душе вещах. Виртуальный негр может:

с аккаунта красивой тяночки разводить мамонтов на крипту
контролировать работу команды; автоматизировать рутинную работу а-ля "купить дедик-проверить корп-пообщаться с селлером-заплатить-передать его в работу"
быть Богом Active Directory, Оракулом для твоих офисных пентестеров. тем, к кому они будут бежать с визгами "аррряяяя как кобальт запускать??7", пока ты с пацанами в бане обкашливаешь более важные вопросы
закодить сайт/скрипт/малварь/фишинговое письмо*
прибегать к помощи на аутсорсе, нанять очкарика на фрилансе (Для просмотра ссылки Войди или Зарегистрируйся)
шароебиться по форумам, искать контрагентов
используя СИ автоматизированно фармить доступы; помогать в переговорах по выкупу
и т.д.

Алгоритм работы выглядит примерно так: в свободной форме дается задача, нейросеть свободную форму переводит в конкретный ТЗ, который отправляется "команде кодеров", где роль каждого "кодера" определена промптом/моделью. Эта команда итеративно, идентично настоящему программисту, сидит и ебется с задачей, по 500 раз запуская неработающий код, гугля ошибку и исправляя его. Имея выход в интернет и базовый интерфейс к физической машине будь это просто терминал, интерпретатор Python, тулчейн LLVM или даже полноценный доступ к прерываниям/сисколам, в своей пластичности автономный агент ограничен лишь набором знаний и текущей производительностью генеративных моделей. Модель может взаимодействовать с другими моделями.

Для просмотра ссылки Войди или Зарегистрируйся

Как?
Тут должен быть PoC, но так как сложно+впадлу+я хочу спать, будут лишь наставления:

берешь слитые веса Mistral 8x7B medium (state-of-the-art модель, наиболее мощная. сравнима с GPT-4 годичной давности) - Для просмотра ссылки Войди или Зарегистрируйся
покупаешь вычислительный кластер на runpod.io или vast.ai и ставишь туда TheBloke TextGen UI для тестов | конфига 80 GB VRAM 125 GB RAM 16 vCPU будет достаточно, стоит 2.3$/hr ЛИБО если ты счастливый обладатель макбука с 50Гб+ RAM - ставь LM Studio и накатывай quantized версию miqu-1-70b.q5_K_M.gguf
запускаешь эту дичь в режиме HTTP API интерфейса формата OpenAI. теперь ты можешь программно обращаться к своему негру из питона/жс как к обычному GPT API, используя дефолтную библиотеку OpenAI
берешь фреймворк Autogen или Langchain и начинаешь выпиливать своего Буратино, приделывать ему руки-интерфейсы - Для просмотра ссылки Войди или Зарегистрируйся
особое внимание удели технологии Mixture of Experts (MoE) - секретный рецепт GPT-4, он же используется в Mistral (8x7B = 8 экспертов по 7млрд параметров каждый). специализированная модель-аутист лучше, чем пиздабольская модель-всезнайка. в кодинге таким state-of-the-art аутистом является DeepSeek-Coder 33B Instruct Для просмотра ссылки Войди или Зарегистрируйся
используй несколько ролей (промптов) для разных задач. у тебя может быть целая команда виртуальных негров, считай почти стартап - отдельно фуллстек, отдельно дизайнер, отдельно гуглящий шнырь, отдельно менеджер всего этого цирка
формализуй базовые параметры, по которым модель может отслеживать прогресс своих действий в течение времени, потому что как только закончится окно вывода, у LLM случится полная амнезия, inference остановится, и тебе придется запускать ее заново. этот чистый лист надо будет нагрузить прошлой памятью, которую ты предусмотрительно сохранил и семантически оптимизировал в файле
для дообучения на нашинских специфичных тасках (малварь, социнженерия, пентест, вымогательство, манипуляции), которые были отмечены звездочкой, а так же сохранения эмпирического опыта, изучи технологию LoRA. это позволяет не пересчитывать все N миллиардов весов, а модифицировать лишь небольшой внешний слой модели, что СИЛЬНО снижает необходимый compute power, время, цену, короче - охуительно
для уменьшения галлюцинаторного бреда, можно имплементировать свой RAG интерфейс - т.е. ground truth Оракул, от которого будет происходить весь последующий chain-of-thought конкретного inference. правильно структурировав в RAG информацию по теме (например, пентест AD), негр резко превращается в русского и без 5 минут может сам ковырять сетки
не стесняйся аутсорсить часть задач ДОРОГОМУ БРАТУ gpt-4-1106-preview. все, что не вызывает этических вопросов, наиболее правильным будет вынести в GPT-4

Для просмотра ссылки Войди или Зарегистрируйся

Техническую реализацию можно описывать хоть до бесконечности и поебаться действительно придется, но задача, кажется, решаема. Я постарался дать минимальную основу, вбросить концепцию будущего. Не знаю нахуя я это все написал, но:

генеративная нейронная сеть может быть РЕАЛЬНЫМ ЭКОНОМИЧЕСКИМ АКТОРОМ. это главная мысль данной статьи
эта идея экстраполируется и замыкается на Web 3.0 & крипту, DAO/DAI/ХУИ. концепция автоматизированной экономики, где экономическим актором является уже не человек, а оркестр из виртуальных негров, управляемый человеком и осуществляющий автоматизированные расчеты и взаимодействия с реальным миром/экономикой через обозначенный технологический стек. экономика, в которой убраны неэффективные экономические тугодумные агенты вроде бухгалтера Наташи или пидорковатого московского фронтендера-кнопкодава. например, целый отдел виртуальных кодеров с одним реальным СЕО

Немного фантазий напоследок (я не употребляю ничего. правда):

state-sponsored армии виртуальных блекхетов. у КНДР, например. сами аудитят контракты, сами СИшат доступы в корпы, сами рансомят | ДА/НЕТ?
baby SkyNYET - автономный агент с начальным балансом в крипте, без базовых этических установок и единственным, исключительно криминальным умыслом - зарабатывать деньги любым способом. GPT-4 уже во многом умнее медианного населенца, обладает уровнем абстракций, логическим аппаратом и (условно) интеллектом на уровне способного ученика старших классов. наскамила мамонтов в телеге - купила еще один серверный кластер, реплицировала себя -> мультипликативный эффект. потеря канала связи с автономным агентом оставляет армию буйных шизофреников "где-то в Интернете", "где-то на серверах" абсолютно неуправляемыми | ДА/НЕТ?
пропаганда, медиаманипуляции. тут итак все понятно - ДА !

Интересно мнение специалистов по генеративному ИИ.

Об автономных ИИ агентах

admin

#root