“Собеседником является язык сам по себе”: Станислав Львовский о своем опыте общения с искусственным интеллектом

В "Школе экспериментального письма" 18 и 19 ноября пройдет двухдневный воркшоп поэта Станислава Львовского “О поэзии с нечеловеческими агентами — человеческим языком”. О том, зачем поэту создавать собственную языковую модель и что человечеству может дать общение с машиной, Станислав Львовский рассказал Константину Шавловскому.

Когда и почему вы начали работать с нейросетями?

Важное уточнение: я не работаю с нейросетями — я интересуюсь нейросетями. То есть я не являюсь профессионалом в области нейросетей, больших языковых моделей и машинного обучения. Я просто пользователь. Где-то в августе 2022-го я начал играть с Midjourney, сервисом, который генерирует изображения из текстовых запросов. Меня совершенно поразила эта машина: можно ей что-то сказать словами, а она тебе в ответ отдает картинку. Это было ощущение чистого чуда, которое, честно сказать, до сих пор меня так и не покинуло. Между делом выяснилась интересное — диалог с Midjourney особенно хорошо получается у людей, которые профессионально работают со словом. То есть первыми, кто сориентировался в этом визуальном, вроде бы, новом мире, оказались не художники, а писатели и поэты. Как, например, Евгений Никитин, уже довольно известный сейчас в качестве художника, работающего с AI, — но вообще говоря, мы знаем его прежде всего как поэта.

С чем вы это связываете?

Дело в том, что, особенно в ранних версиях модель Midjourney не очень понимала логически построенные предложения, и нужно было формировать текстовые запросы через запятую, как-то примерно описывая то, что ты хочешь получить на экране. Там был свой синтаксис, довольно простой — параметры, что зачем идет: то, что вы хотите видеть на картинке, должно было быть в начале, а описание стиля в конце. И люди, работающие со словом, гораздо быстрее сообразили, как этим всем пользоваться. Потому что человек, который работает с языком, интуитивно понимает, что тут происходит нечто большее, чем просто создание картинки с помощью слов. В чем, помимо всего прочего, революция, которая происходит прямо сейчас в области генеративного искусственного интеллекта? Наконец, появилось программное обеспечение, с которым мы можем общаться на человеческом языке. Еще не так давно это было трудно себе представить.

Изображение, сгенерированное Станиславом Львовским — Habitat. Preaching (to) animals, 16. Станислав Львовский

А зачем вам понадобилась модель, умеющая писать тексты Станислава Львовского?

Только это не модель, а как бы сказать… ну, пусть будет адаптация. Я, правду сказать, ничего специально от этого сюжета не хотел. Я просто взял и дообучил GPT, сначала 3.5, потом 4.0 на своих текстах — просто потому, что была такая возможность и глупо было не попробовать.

Как вы это сделали?

Сейчас попробую объяснить. Вот у вас есть GPT. Это большая, огромная штука, модель — только не спрашивайте, чего модель, — но, в общем, она так и называется, Большая Языковая Модель. И когда вы обучаете ее на своих текстах, вы делаете на эту огромную модель такую небольшую нашлепку. Это что-то вроде дублей у Стругацких. В романе “Понедельник начинается в субботу” герои все время создают временные копии себя, которые умеют хорошо делать что-нибудь одно. Вот эта специализированная адаптация, дообученная на каких-либо текстах, — примерно такой дубль. Ей доступно содержание большой модели, но оно ей — ну, скажем, труднее доступно. Зато она много видела ваших текстов, и вот их она в теории должна довольно хорошо уметь воспроизводить. И да, она генерирует тексты, которые, по крайней мере, навскидку, если не вчитываться, опознаются в стилевом и отчасти даже тематическом отношении как мои.

А что это дает вам?

Я сразу вижу, благодаря чему я их опознаю как “мои”. Текст, который ты написал, — ты же в него очень вовлечен. Конечно, со временем посмотреть на него снаружи становится проще, но совсем просто не становится никогда. А тут ты смотришь на… не знаю, модель собственного стихотворения в натуральную величину. Эти черты “твоего” текста у нее слегка (или значительно) утрированы — их легко заметить и иногда понять, откуда что берется.

Разочарования в собственном письме от этого зрелища не происходит?

Это сложная эмоция, и вообще сложный, довольно личный опыт, который заставляет — меня, по крайней мере, — думать о разном: над некоторыми вопросами, которые этот опыт передо мной ставит, я давно думаю, а некоторые мне никогда не приходили в голову.

А что еще это вам дает, кроме возможности посмотреть на собственное письмо со стороны?

Разве этого мало? Конечно, теоретически можно начать производить при помощи этой штуки какие-то тексты и публиковать их, как-то ее операционализировать. Но мне пока интереснее про все это думать — и заниматься наблюдениями над (не знаю чьей и какой) природой. Или не-природой.

Публикация генеративных текстов сразу отсылает нас к ряду “Черкасов, Ломакин…”, то есть к экспериментам нулевых-десятых годов. В том, что сейчас представляет собой нейросетевая поэзия, есть преемственность по отношению к тем опытам? И в чем принципиальная разница?

Нет никакой нейросетевой поэзии. И поэзии искусственного интеллекта нет. Ничего этого не существует, эти слова ничего не означают. Какие-то тексты могут стать поэзией, в каком-то смысле, наверное, даже любые — но для этого нужна интенциональность. В spam poetry, found poetry или SEO-poetry интенциональности вовсе нет, это побочный продукт workflows или вообще сугубо технологических процессов. Там есть интенция — например, обойти спам-фильтр, но нет интенциональности, эти тексты “ни на что не направлены”; есть только интенциональность поэта, выступающего, например, в качестве публикатора таких текстов, т.е. то, что мы имеем в виду, когда говорим, что фактами поэзии такие тексты делает “рамка”.

Стихи, написанные человеком, обладают интенциональностью, потому что они подразумевают осознанное, намеренное использование языка, пропускаемого через призму человеческого субъективного чувственного опыта. В случайных побочных артефактах технологии в предельном случае интенциональности нет вовсе. В текстах, создаваемых большими языковыми моделями есть что-то вроде симуляции интенциональности: когда мы их читаем, нам кажется, что она в них есть, но на самом деле, они не определены никаким индивидуальным опытом, о них нельзя сказать, что они написаны “о чем-то”, у них нет этого свойства, которое я по-английски называл бы “aboutedness” (а по-русски не могу так сходу придумать). Есть интенциональность читателя — она всегда есть, — но это другое дело.

Кроме того, в случае поэзии, создаваемой из случайных технологических артефактов предыдущего этапа, у вас нет “фигуры собеседника”, а когда вы имеете дело с большими языковыми моделями, такая фигура есть. Я думаю об этом как о диалоге с языком. С кем/чем вы разговариваете, когда разговариваете с моделью? Там же никого нет, правильно? Но есть что-то, что с вами разговаривает. Это не “компьютерный разум” и не “искусственный интеллект” — поэтому, в частности, я, например, стараюсь, насколько возможно, избегать терминов этого рода. Но можно думать об этом как о разговоре, в котором вашим собеседником является язык сам по себе, его словарь, его структура, статистические паттерны его употребления миллионами и даже миллиардами людей. Мне кажется, что это очень-очень странная и, в общем, не имеющая аналогов в нашем опыте ситуация. Я ни на минуту не думаю, что большая языковая модель обладает чем-либо похожим на сознание, self-awareness, квалиа или чем там еще. Но кажется, она действительно некоторым образом является моделью — не самого даже языка, а процесса использования языка, неважно, понимания или порождения речи/письма. Всякий раз, когда ты что-нибудь говоришь, на том конце раз-раз-раз и собирается такой фантом, состоящий из одного языка, больше там ничего нет. У большой языковой модели нет органов чувств, по крайней мере, пока. Она ничего не “знает” о мире вне языка. То есть, когда ты говоришь модели что-нибудь, тебе отвечает язык. Мне кажется, это довольно волшебное приключение.

В каком-то смысле поэзия как таковая — это и есть разговор с языком. Только обычно он ведется без собеседника.

Да-да. А тут ты говоришь, и тебе отвечают — это до сих пор меня изумляет.

В интервью Игорю Померанцеву вы говорите, что мы живем в эпоху, когда благодаря появлению AI происходит размывание границ представления о человеческом.

Да, я думаю, что это так — и что это начало или часть довольно радикальной и довольно всеобъемлющей трансформации.

Но то, что происходит сегодня в мире — обострение локальных конфликтов, глобальный правый поворот — тоже ставит перед человеком вопрос о человеческом и его границах. Как вам кажется, эти вещи как-то связаны друг с другом?

Наверное. Мне кажется, что происходит (или только начинается, не знаю) что-то вроде очередного этапа коперникианской революции, в ходе которой человечество переживает последовательное расставание с разными иллюзиями относительно собственной исключительности и важности своего места в мире, — на этот раз, видимо, пришла очередь того, что мы называем “сознанием”. Такие перемены в истории никогда не происходили легко, поэтому я думаю, что мы находимся в начале какого-то длинного и очень болезненного, скорее всего, перехода. Это сдвиг довольно тектонического масштаба.

Михаил Ямпольский в своей лекции говорит, что новое искусство возникает тогда, когда появляется новый взгляд на человека, новое представление о человеческом. И этот взгляд, по крайней мере, в XX веке рождался на перекрестье исторических катаклизмов и технического прогресса, можно взять любую новую волну, хоть французскую, хоть румынскую. AI в сочетании с глобальным мировым кризисом способен создать новое искусство?

Я думаю, во-первых, что стоит избегать этих грамматических конструкций, которые создают у нас впечатление, что у AI есть какая-то агентность. Во-вторых, мне кажется, что масштаб нынешних изменений будет гораздо больше, чем тот, о котором вы говорите. Вот уже несколько десятилетий самые разные авторы сравнивают появление интернета с изобретением печатного станка. Я подумал недавно, что, может быть, мы поторопились: это появление генеративного AI скорее будет похоже по своим масштабам и последствиям на появление печатного станка, потому что это гигантский скачок в смысле демократизации уже не распространения, а производства текстов и изображений.

Никита Сунгатов в предисловии к публикации на “Дискурсе” текстов, написанных вами в соавторстве с AI, говорит, что они ставят перед нами фундаментальные вопросы о природе поэтического и — шире — речевого воображения. Что, по-вашему, нам говорит об этом взаимодействие с большой языковой моделью?

Я снова вас, Костя, должен поправить, — они не написаны “в соавторстве”, они написаны “при помощи”. Что это нам сообщает? Я не знаю. Может быть, что человеческое языковое воображение тоже структурировано в каком-то смысле статистически. Или нет. Вопрос о том, можно ли считать большие языковые модели моделями не процесса использования языка человеком, а моделью человеческого сознания, и вообще, может ли понимание — нынешнее или будущее — того, как эти модели работают, добавить что-нибудь к нашему пониманию того, как устроены мы сами, — это открытый вопрос. Мейнстримная точка зрения, как я понимаю, состоит скорее в том, что нет, не может, но вот Дарио Амодеи, один из основателей компании Anthropic, создавшей модель Claude, считает, что может. Он, впрочем, по предыдущему роду занятий не лингвист и не нейропсихолог, а биофизик.

В 1997 году компьютер обыграл Гарри Каспарова в шахматы, и стало понятно, что соревноваться с ним для человека смысла больше нет. Может ли нечто подобное произойти с письмом и большими языковыми моделями?

Я думаю, что ответ на этот вопрос — и да, и нет. Шахматы — это все-таки формализованная вещь с небольшим набором жестких и понятных правил. Там, где речь идет о написании жестко формализованных текстов, AI превосходит человека уже сейчас. На просьбу написать сопроводительное письмо в посольство вы получаете абсолютно идеальный бюрократический текст. Если бы, например, было известно имя чемпиона мира по бюрократической переписке и мы бы его выставили против какой-нибудь из больших моделей, он безусловно проиграл бы с разгромным счетом. Но, чем о менее формализованных текстах идет речь, тем все становится сложнее. Наверное, какие-то писательские специализации исчезнут. Зачем заставлять живого человека писать лавбургеры? Но технология развивается очень быстро, модели всё усложняются и усложняются и работают от этого пока всё лучше и лучше, а положен ли этому где-нибудь предел и где, мы пока не знаем. Большие игроки делают очень большие ставки на то, что предел этот обнаружится не скоро, — но и им ничего не известно наверняка.

Если вы смогли обучить модель на своем письме, то очевидно, что можно обучить ее на письме нескольких авторов, и она будет выдавать среднее арифметическое между поэтиками Львовского, Рымбу и Скидана. Интуитивно кажется, что такие тексты довольно легко можно было бы номинировать на Премию Аркадия Драгомощенко, если бы она еще существовала.

Я все-таки думаю, что новая поэтика не появляется от складывания нескольких чужих. Новая поэтика появляется там, где возникает новая оптика. А оптика возникает там, где есть зрение, человек и его отношения с миром. У модели нет отношений с миром, она ограничена языком. Но поскольку датасеты, на которых обучены большие языковые модели, — огромные, колоссальные, невероятных размеров, то они начинают “вести себя”. В какой-то момент выяснилось (или в какой-то момент было так), что если модель попросить вежливо, то она дает более подробный ответ. Почему она это делает? Не потому что она любит, когда с ней обращаются вежливо. А потому что статистически, когда разговаривают вежливые люди, они говорят более длинными и подробными репликами. Таких вещей язык кодирует очень много. Находить их — отдельное удовольствие. Но это все только слова.

Но что это нам дает? Разве без AI мы не знали, что вежливые люди обмениваются более длинными репликами?

Вы все спрашиваете меня, каким образом это можно инструментализировать применительно к дообученной на чьей-то поэзии модели. И это, наверное, правильный вопрос. Но мне, честно говоря, гораздо интереснее само дообучение как, в некотором роде, способ хакнуть эту большую языковую модель. Потому что сама по себе она ведь не будет производить хаотические, сюрреалистические, некогерентные тексты. Более того, она специально обучена этого не делать. А тут открывается какая-то другая дверь — и это ставит передо мной вопросы, о которых я хочу думать. О природе языка, о том, как, до какой степени культура кодируется языком. А про инструментализацию мне думать пока не очень интересно. Я просто пытаюсь понять, как это вообще возможно и чем объясняются какие-то вещи, которые уж совсем не лезут ни в какие ворота.

Например?

Например, выяснилось, что модель поддается эмоциональному шантажу. Если ты пишешь, что вот, так и так, это для тебя очень важно, от ее ответа зависит твоя карьера, жизнь и судьба — модель отвечает подробнее и детальнее. О чем это говорит? О том, что люди в большинстве своем довольно эмпатичны. И если их так попросить, то они отзываются. Это, мне кажется, хорошее знание, во всяком случае меня оно вполне вдохновляет.

Кроме того, мне нравится думать о том, что эта штука означает для нашей культуры. Потому что Алексей Гринбаум в своей книге Parole de machines правильно говорит, что главное событие — в том, что мы отказались от монополии на речь. Всю нашу историю у человека была монополия на речь, а теперь у нас появились такие штуки, которые с нами разговаривают. При этом нам самим не очень понятно, что это за штуки, мы же не очень понимаем, что у них внутри происходит, когда они это делают.

Даже специалисты не понимают?

Никто не понимает. Их изучают как черный ящик. Какие-то данные подаются на вход, что-то мы имеем на выходе — и исходя из этого строим гипотезы о том, что же там на самом деле внутри. И важно, что эти штуки теперь тоже разговаривают. Раньше-то мы считали, что язык — это антропологическое свойство. А что теперь является антропологическим свойством? Языком раньше обладали только люди, больше никто. У животных же нет языка, у них есть разные сигнальные системы. Кстати, исследования в этой области тоже очень сильно продвинулись за последние годы благодаря AI. Для этого стали использовать различные разновидности нейросетей, которые, как известно, очень хорошо обнаруживают паттерны, а это было одной из основных проблем. У вас есть, допустим, летучие мыши, они как-то переговариваются между собой, но их трудно изучать. А если у вас есть видео и аудио и есть алгоритм, который сопоставляет определенные движения с определенными сигналами, которые они подают друг другу, то вы намного быстрее начинаете понимать, что они имеют в виду. И вот так вот выяснилось, если я правильно помню, что летучие мыши называют друг друга по имени. То есть у них есть индивидуальный звук для каждой — а по нашим понятиям это и есть имя. Вы наверняка видели, как в зоопарке летучая мышь прилетает на ту же ветку, на которой уже сидит другая летучая мышь, и, отпихивая ее, садится на ее место. Так вот, раньше мы думали, что она при этом говорит: “Отвали”. А она говорит: “Отвали, Семен”. И это, согласитесь, совершенно другая история.

У меня последний вопрос. Что бы сказал Вальтер Беньямин об искусстве в эпоху нейросетевой воспроизводимости, если бы у него была возможность пообщаться с чатом GPT?

Если бы я мог ответить на этот вопрос, я был бы крупнейшим гуманитарным мыслителем современности. А поскольку я им не являюсь, то я не могу на него ответить, особенно сходу. Но можно спросить об этом у языковой модели, она наверняка что-нибудь придумает.

Записаться на воркшоп Станислава Львовского можно по этой ссылке.

“Собеседником является язык сам по себе”: Станислав Львовский о своем опыте общения с искусственным интеллектом

Поделиться: