Проблемы формы и значения в LLM

Время на прочтение:3мин

Впечатляющие способности больших языковых моделей (далее – LLM) в области овладения, понимания и генерирования человеческого языка основаны на использовании огромных языковых наборов данных, которые находятся в сети Интернет.

Обучение включает разбиение текста или речи на токены длиной в несколько символов для разработки статистической модели языка. Далее с помощью статистических методов и значительных вычислительных мощностей анализируются взаимосвязи между миллиардами токенов с целью создания грамматически корректных последовательностей конкатенаций токенов¹Конкатенация токенов – это процесс объединения двух токенов для создания одного. в ответ на вопрос. Однако не стоит рассматривать достижения LLM с точки зрения опыта, возможностей и характеристик человека. В отношении LLM важно понимать, что сгенерированный текст может не соответствовать фактам в реальном мире. Это обуславливает проблему галлюцинаций, то есть ответа, который статистически и грамматически верен, но является ложной или вводящей в заблуждение информацией. Важным аспектом понимания работы LLM является обработка наборов данных и создание выходных данных, предсказанием или расширением последовательности, основанных на ранее обработанном тексте.

Таким образом, утверждения относительно лингвистических возможностей LLM имеют два необоснованных предположения:

существование полноты языка, в виде отдельной и целостной сущности, схожей с физическими объектами, которая может быть эффективно смоделирована такой сложной инженерной системой как LLM;

и наличие полноты данных, в виде возможности идентифицировать и количественно оценить основные характеристики естественного языка в наборах данных, которые используются для обучения алгоритмов LLM, как в случае инженерных моделей систем реального мира.

В основе этих предположений лежит вычислительная теория разума, согласно которой человеческий разум представляет собой систему обработки информации.

В рамках этой теории человеческий разум является внутренним представлением внешней реальности, которая формирует основу для познания (обучения, мышления, решения задач), как вида вычисления.

Однако познание возможно рассмотреть с точки зрения теории энактивизма²Энактивизм – позиция в когнитивной науке, которая утверждает, что познание возникает в результате динамического взаимодействия между действующим организмом и его окружающей средой. С этой позиции можно выделить три основополагающих характеристики инсценированного языка, которые являются основополагающими для человеческого языка, но отсутствуют в LLM:

воплощение означает мотивацию и вовлечение человеческого языка в окружающую среду. Например, тон голоса, жесты, зрительный контакт, эмоциональный контекст, выражение лица, прикосновение, местоположение, обстановка;

участие включает социальные, смешанные и некоторые другие аспекты языка, которые невозможно представить статистически в обучающих данных, например, непринужденный разговор, мимолетные жесты, язык тела, паузы, колебания, которые непредсказуемы и не имеют формальных правил;

неустойчивость – это двусмысленность между людьми при некоторой совместной деятельности, например, трения, напряженность, разногласия. При этом, эти аспекты взаимодействия могут иметь отрицательную или положительную коннотацию и являются неотъемлемой частью человеческого общения.

Значение, которое передается языком является самым важным компонентом речи. Так, фундаментальным достижением в семантике 1970-х годов стала идея об оценке значения текста с помощью вычислительных моделей. Однако последние исследования по усвоению языка показали, что «изучение человеческого языка основано не только на физическом мире вокруг нас, но и на взаимодействии с другими людьми в этом мире».

В статье «Восхождение к пониманию естественного языка: о значении, форме и понимании в эпоху данных» выделяется разница между формой, значением и пониманием.

Форма – это любое наблюдаемое выражение языка, письменное, устное или жестовое;

смысл – это связь между формой, в которой выражается язык, и коммуникативным намерением, направленным на читателя или слушателя;

и понимание – это способность слушателя уловить значение, которое говорящий намеревается передать. Таким образом, «система, обученная только форме, a priori, не может усвоить смысл».

Энактивное познание обсуждается в статье «Разделение языка и мысли в больших языковых моделях: когнитивная перспектива». Здесь отмечается, что между языком и мыслью человека существует тесная связь. Высказывания других людей – это не просто отражение их языковых навыков, это «окно в их разум». Таким образом, предложение или высказывание воспринимается человеком, в качестве предложения или высказывания, сделанного на основе знаний другого человека о реальном мире, критического мышления и способности к рассуждению. Способность LLM генерировать конкурентный человеческому язык, привела к выводу о разработке человекоподобного ИИ в ближайшее время. Однако, авторы полагают, что приписывание человеческих свойств ИИ связано с взаимодействием человека исключительно с себе подобными.

В статье рассмотрены два вида языковых компетенций:

формальная языковая компетенция, то есть, «набор основных, конкретных способностей, необходимых для создания и понимания данного языка». Например, наличие словарного запаса, грамматических правил, исключений из правил, идиосинкразических языковых конструкций;

функциональная языковая компетенция – «неспецифические для языка когнитивные функции, которые используются в реальных обстоятельствах». Например, логический анализ, количественное мышление, целостное представление о фактах, концепциях, идеях, предположения о человеческом поведении, понимание социального контекста. Таким образом, язык интегрирован в более широкую и сложную когнитивную структуру. Вместе с этим, архитектура человеческого мозга имеет разные механизмы для обработки языка и рассуждения, формирования социальных навыков, памяти.

Таким образом, на сегодняшний день, LLM не могут повторно использовать и создавать формы для манипулирования смыслом и работы в изменяющемся мире. Впечатляющие результаты работы основаны исключительно на прогнозировании предложений. Резюмируя вышеизложенное, стоит отметить, что несмотря на неудачи в решении нелингвистических задач, LLM – это значительное инженерное достижение. Однако, они представляют собой инструменты, которые использует и контролирует человек. Как и все социально значимые технологии, перед развертыванием LLM необходимо тщательно оценивать. В частности, для смягчения тенденции к упрощению языка, кодированию общественных стереотипов и пр.

1
Конкатенация токенов – это процесс объединения двух токенов для создания одного.
2
Энактивизм – позиция в когнитивной науке, которая утверждает, что познание возникает в результате динамического взаимодействия между действующим организмом и его окружающей средой.