ФPAГMEHT КНИГИ (...) СООТВЕТСТВИЕ "ЦЕЛЬ—РЕАКЦИЯ" (ПЕРВЫЙ ПОСТУЛАТ КОНЦЕПЦИИ РЕАГИРОВАНИЯ)
В формировании концепции реагирования будем исходить из того факта, что всякое осознанное человеческое действие является, как .правило, целеподчиненным. Это тем более справедливо в отношении речевых действий и всегда имеет место в интересующих нас прикладных ситуациях естественно-языкового общения с ЭВМ.
В тех случаях, когда субъект может и желает достичь очередной цели собственными силами, он так и поступает, не прибегая к речевому акту и просто осуществляя действие, результатом которого должно явиться осуществление цели.
Но вполне типична и такая ситуация, когда для достижения цели необходимо или желательно посредничество другого лица (лиц). Если в качестве средства для вовлечения этого лица избирается обращение к нему посредством текста (возможны и другие способы: жест, мимика, сигнал и т.д.), то промежуточной целью автора текста, преследуемой при его формировании, становится получение от "понимателя" адекватной реакции на этот текст, а именно реакции, которая будет состоять в действии, ведущем к выполнению основной цели автора текста.
Условимся для простоты о следующем:
участники диалога настроены кооперативно, т.е. автор текста хочет быть понятым, а "пониматель" склонен в меру своих возможностей выдать ожидаемую реакцию;
диалоговая деятельность является рутинной, т.е.
участники считаются сложившимися носителями языка и всех видов реагирования (этап обучения языку и реагированию не рассматривается), язык и множество возможных реакций в течение длительного времени остаются неизменными (не пополняются и не редактируются).
Следует предостеречь читателя от вульгаризированного представления о реакции как о чисто бихевиористском акте, обязательно сводящемся к какому-то наблюдаемому движению, физическому действию. Нужная автору реакция может состоять по преимуществу из ментальных событий, таких, например, как запоминание слушателем (читателем) каких-то данных, работа его пространственного воображения, выработка какого-либо эмоционального состояния, принятие во внимание тех или иных этических моментов, проявление чувства юмора, проведение правдоподобного рассуждения, логического вывода и т.д. При этом практически всегда имеет место комбинация из многих подобных компонентов, включая, быть может, и физические действия. Таким образом, человеческое реагирование на текст является комплексным.
Сложнейшая структура, которую вынужден выстроить в своем мозгу "пониматель" для осуществления столь сложной, тонкой и разносторонней реакции со всеми ее деловыми, эмоциональными, логическими, ассоциативными и многими другими компонентами, — это и есть в обсуждаемой концепции то, что можно назвать смыслом, вызываемым текстом (но, конечно, не содержащимся в тексте, как принято считать). Так, вопрос, адресованный знакомой по курорту: "Ты помнишь июнь?" — конечно же имеет целью не напоминание о том, что между маем и июлем текущего года имелся июнь, а побуждение собеседницы к формированию в ее мозгу сложнейшего комплекса, включающего и зрительные образы моря, луны и т.д., и слуховые и обонятельные воспоминания, и определенное настроение, и чувство влечения к автору текста и многое другое.
Разумеется, все это ни в коей мере не содержится в словосочетании "Ты помнишь июнь?". Последнее, очевидно, является лишь кодом, запускающим у слушательницы механизм формирования указанного комплекса. В свою очередь, текст "Да" или "Нет", полученный в ответ, вызывает в мозгу автора вопроса целый мир образов и переживаний (соответственно радостных или горестных), на что такой текст и рассчитан. Разумеется, смысл, вызываемый в этой ситуации, например текстом "Да", не имеет ничего общего со смыслом, вызываемым тем же текстом при выяснении, например, готовности яичницы.
Продолжая примеры, можно было бы напомнить, что фраза "Джон подбросил к Мэри книгу ногой", скорее всего, предназначена для создания у читателя комплекса представлений об оскорбительном, унижающем отношении Джона к Мэри, о его пренебрежении ею и т.д., а не для сообщения того, что в данном действии участвовала именно книга и что она таким способом переменила владельца (как утверждается в монографии [2] (с. 34)). Равным образом текст "Иванов шествовал по коридору с бутербродом в руках" почти наверняка предназначен для формирования у слушателя иронического отношения к Иванову вместе со зрительным образом важничающего персонажа, скорее всего, не слишком умного, а не для сообщения фактов о коридоре и бутерброде.
Итак, мы приходим к первому фундаментальному постулату концепции реагирования:
текст не содержит и не передает смысла, а является лишь инструментом сообщения "понимателю" того, какую реакцию хочет от него получить автор текста.
Побуждение собеседника (включая и самого себя в этой роли) к продуцированию соответствующей реакции нормально является вообще единственной целью осмысленного текста.
Попытка охарактеризовать в рамках такой концепции понятие "смысл" (т.е. уже не "смысл текста", а "смысл в мозгу") в формальных терминах приводит к представлению о структуре, самое меньшее чрезвычайно многомерной и многоуровневой, построенной на огромном количестве элементов и притом охваченной необозримым количеством внутренних связей (например, ассоциации, логические связи, back-tracking).
Как известно, структуры такого типа не допускают моделирования в виде замкнутой математической системы, а допускают, да и то зачастую лишь теоретически, натурное, физическое моделирование, чем, очевидно, и объясняется невозможность построения формального определения для смысла. Смысл приходится считать имманентной, неотделимой и потому ненаблюдаемой принадлежностью мозга.
Но если смысл текста ненаблюдаем, то наблюдаема, по крайней мере в ее чувственно воспринимаемой части, реакция "понимателя" на текст. Поэтому, примирившись с фактом невозможности определить понятия "смысл текста", "понимание текста", мы вместе с тем получаем возможность, введя в рассмотрение цель автора при формировании текста и реакцию на него "понимателя" (или хотя бы ее наблюдаемую часть), использовать критерий правильности понимания, базирующийся на степени совпадения полученной реакции с ожидаемой. Напомним, что это есть вариант критерия Тьюринга для полноценности "машинного мышления".
В прикладных случаях хорошее имитирование машинной системой одной лишь наблюдаемой (и потому с определенной степенью полноты формализуемой) части человеческой реакции на тот же текст является достаточным для практики результатом. Это позволяет сформировать для таких случаев точную постановку задачи машинного понимания естественно-языковых текстов.
Для этого необходимо, очевидно, рассмотреть схему, несколько отличную от упоминавшейся выше, а именно считать:
входным объектом не просто текст, а текст с присоединенным к нему описанием вызвавшей его цели (всегда известной автору);
выходным продуктом устройства (алгоритма)—"понимателя" не "смысл", которому нельзя дать определение, а реакцию (из некоторого обозримого множества реакций), адекватность которой в прикладных случаях может быть точно установлена сравнением с целью.
Текст в этой схеме не является ни вместилищем, ни передатчиком смысла, а играет лишь роль некоторого кода, наподобие генетического, управляющего выстраиванием в мозгу "понимателя" сложнейшей структуры — смысла, которого добивался автор, чтобы получить требуемую реакцию.
ДВА ПРИНЦИПА ФОРМИРОВАНИЯ РЕАКЦИИ И КОНЕЧНАЯ ПРЕДМЕТНАЯ ОБЛАСТЬ (ВТОРОЙ ПОСТУЛАТ КОНЦЕПЦИИ РЕАГИРОВАНИЯ)
Упоминавшееся целеполагание, т.е. разбиение возникшей задачи на последовательность частичных задач, решаемых поочередно, является не только человеческой функцией. Все живые существа в процессе своей жизнедеятельности в меняющейся среде все время решают задачи по поддержанию гомеостазиса. Поэтому формулируемые ниже принципы имеют весьма обширную область применения. При их обсуждении удобно использовать некоторую символику.
...
Изложенное можно отнести и к задаче понимания текста. Автор текста, отображая в него некую мысль, решает прямую задачу и при этом осуществляет огромную редукцию информации. Соответственно "пониматель", восстанавливая по тексту мысль автора, решает обратную и некорректную задачу. Такая деятельность "понимателя" полностью укладывается в обсуждаемую модель"среда— субъект". В самом деле, в состав внешней среды входит генератор (авторы) текстов: появление очередного текста создает задачу z, так как побуждает "понимателя" отреагировать на него — выполнить какое-то действие по отношению к среде и/или к себе самому.
Существующий подход к решению некорректных задач основывается, как известно (см., например, монографию [7]), на их регуляризации — доопределении посредством привнесения извне дополнительных данных, недостающих в исходных посылках задачи. Однако подобный подход, обеспечивая правила использования дополнительных данных, не порождает самих данных. Творческая функция их "открытия" и предварительной оценки их пригодности остается неформализованной и реализуется человеком, Этот принцип решения некорректных задач можно назвать эвристическим. Для любой отдельно взятой задачи из множества {z} он яйляется пока единственным известным подходом к решению.
! Введем, однако, в рассмотрение следующий тезис: переход от представления о {z} как о совокупности индивидуальных задач к рассмотрению временнбго процесса генерирования этих задач средой открывает некоторые дополнительные возможности в решении каждой из задач при условии наличия у среды некоторого свойства стационарности.
Возникающей в силу таких возможностей второй принцип решения можно назвать "имитационным". Он состоит в том, чтобы при возникновении некоторой задачи z не приступать сразу к ее эвристическому решению, а вместо этого выяснить, не решалась ли уже однотипная задача, и в положительном случае применить к задаче z уже известный алгоритм, конечно придав его аргументам значения, содержащиеся в задаче г.
Говоря более точно, пусть fk (а') есть алгоритм решения некоторой задачи z‘ (символ fk является обозначением для тела данного алгоритма, а а' выражает вектор значений его аргументов для этой задачи). Задачи z' и г" называются однотипными, если алгоритмы их решения есть соответственно fk (а') и fk (а"), т.е. отличаются лишь значениями аргументов. Подмножество множества {z}, состоящее из всех однотипных задач, будем называть А:-м классом однотипных задач и обозначать {z}k.
Легко увидеть существенные прагматические отличия между двумя указанными принципами.
Данные психологии обучения и индивидуальный опыт каждого / человека убеждают, что применение имитационного принципа, т.е. распознание в новой задаче знакомой сущности и соответственно применение к этой задаче готового способа решения, требует во много раз меньших усилий, затрат времени и т.д., чем решение задачи данного типа впервые. При использовании же эвристического принципа решение всякой очередной задачи строится как решение „впервые.
При использовании эвристического принципа интеллектуальный уровень решателя (т.е. состав и объем его знаний, способность к "озарениям", "эврикам" и т.д.) должен быть априори достаточным для решения любой, в том числе самой сложной, из возможных задач. Опыт построения машинных решателей задач, доказывателей теорем и т.д. (см., например, монографию [8]) показывает, что "интеллектуальная мощь" таких систем не может даже отдаленно сравниваться с возможностями специалиста-человека, и такая ситуация в близком будущем, вероятно, сохранится. При использовании же имитационного принципа не существует ограничения сложности решаемых задач, отличного от характерного человека, так как впервые решение задачи каждого типа может быть поручено спе-циалисту-человеку высшей квалификации и найденный им алгоритм решения достаточно будет ввести в память ЭВМ в готовом виде.
Из приведенных соображений следует, что для создания практических систем несравненно эффективнее имитационный принцип. Вместе с тем для его применения необходимо, чтобы функционирование внешней среды, поставляющей задачи, подчинялось серьезному ограничению.
Рассмотрим последовательность генерируемых средой задач z 1,..., z„,...,zN. Для оправданного применении имитационного принципа, очевидно, необходимо, чтобы при столь большом, сколь потребуется, хотя и конечном N, существовало такое конечное К, что...
Эти условия являются выражением того простого факта, что при имитационном принципе решение каждой новой задачи основывается на распознании класса, к которому она принадлежит, а количество К классов во всякой задаче распознавания образов, по определению, конечно.
Свойство среды, описываемое условиями (1), назовем -стационарностью среды.
Конечную совокупность алгоритмов назовем А-набором алгоритмов. Она является множеством корректности для некорректной задачи. к
Наконец, множество ZK = Д {г} назовем множеством задач из конечной предметной области (КПО). Значение К характеризует ее ширину. Так, в проблеме машинного понимания естественно-языковых текстов множество {z} есть множество всех возможных текстов на данном языке (точнее, множество задач понимания каждого из этих текстов); множество же ZK есть множество текстов из КПО шириной А.
Наш опыт последних лет позволил сделать следующие два наблюдения.
1. А-стационарность среды {г}, обусловливающая ее разложимость на узкие предметные области ZK, отображает в идеализированном виде свойство окружающей среды, представляющее собой явление типичное, нормальное.
Примерами, иллюстрирующими его распространенность в окружающей жизни, могут служить огромный объем и роль (и успешность!) рефлекторной и инстинктивной деятельности в животном мире, выгодность массового или крупносерийного производства одних и тех же изделий в хозяйстве, профессиональная специализация людей в обществе.
2. А-стационарность обусловливает эффективный прием решения ряда научно-технических проблем, позволяя за счет вычленения из множества {z} одной (или более) КПО, перейти от неопределенной, непоставленной или даже неразрешимой задачи к одной (или более) корректной и разрешимой задаче распознавания образов.
Для краткости указанный прием будем в дальнейшем называть КПО-методом. Отмеченная выше распространенность А-стационар-ности придает этому методу наряду с силой также и общность.
Иллюстрацией эффективности КПО-метода может служить его применение к задаче определения формы произвольной и произвольно освещенной поверхности по ее полутоновому (плоскому) изображению — задаче, как показано в статье [9], некорректной и не имеющей общего решения. Нами эта задача рассматривалась применительно к проблеме зрительного очувствления механосборочных роботов. Данная прикладная направленность сразу позволяет постулировать А-стационарность среды, обусловленную тем, что робот постоянно имеет дело с деталями, которые обрабатываются главным образом на металлорежущих станках. Это выделяет в качестве КПО ряд поверхностей, таких, как цилиндр,
конус, плоскость и т.п. Исходная задача определения формы произвольной поверхности заменяется задачей распознавания нескольких заранее известных форм, решение которой оказалось легким и изящным [10].
Резюмируя соображения о двух принципах формирования реакций, заметим, что во всех видах деятельности, где потребность в творческих актах не возникает или возникает редко, т.е. в случаях, когда деятельность носит в основном рутинный характер, преимущество имитационного принципа перед эвристическим является абсолютным.
Это позволяет с учетом изложенного выше о рутинном характере рассматриваемой языковой деятельности сформулировать второй фундаментальный постулат концепции реагирования применительно к прикладной задаче машинного понимания естественно-языковых текстов:
решение задачи адекватного реагирования на множество текстов {z} следует искать в виде разложения {z} в конечную совокупность КПО:
где t, — допустимая доля текстов, не получивших адекватной реакции.
В пределах же КПО задача адекватного реагирования решается как задача распознавания по тексту z соответствующего ему алгоритма реагирования fk из Кк заранее известных алгоритмов.
Строго говоря, в соответствии с данным определением и все
множество U при конечных J и всех Kj является КПО шириной K — Kj. Однако е конкретных разработках будем связывать с понятием КПО не только конечность Кр но и их относительную малость (ради удобства машинной обозримости). Кроме того, практически удобно включать в одну КПО лишь в чем-либо родственные, сходные алгоритмы реагирования fk.
Конечность J следует из ограниченности и стабильности предметной (профессиональной) среды прикладной области, в которой должна работать система машинного понимания. В нашей идеализации эти свойства отображаются А'-стационарностью.
В заключение заметим, что общность факта превалирования имитационного принципа в рутинных ситуациях может, по-видимому, служить объяснением неоднократно делавшегося наблюдения, сводящегося к тому, что в решениях самых разнообразных проблем в различных областях сплошь и рядом обнаруживаются элементы распознавания образов.
Рассмотрим проблемы, возникающие при обслуживании большого количества J КПО одной и той же системой машинного понимания.
ПРЕДОПОЗНАВАНИЕ КПО И ТРЕТИЙ ПОСТУЛАТ КОНЦЕПЦИИ РЕАГИРОВАНИЯ
Очерченная выше роль имитационного принципа заставляет предположить, что Не только последовательности естественно-языковых реплик, адресуемых ЭВМ, но и тексты в обычных человеческих дискурсах рутинного содержания должны быть /f-стационарными. Выборочный анализ связных текстов подтверждает это предположение: какой бы обширный круг тем ни затрагивал протяженный текст или диалог в целом, он всегда может быть расчленен на части, обладающие признаками КПО.
Отсюда следуют два вывода:
концепция КПО имеет не только конструктивный, но и методологический характер, так как отражает некоторое явление природы;
требование, чтобы машинная система обеспечивала адекватное реагирование на тексты из / 1 КПО, является правомерным и естественным.
Систему, вМешающую в себя J КПО (-71), будем называть "многотемной". Требование многотемности выдвинуто практикой не только в связи с желательной многофункциональностью системы. Ситуация с J 1 может возникнуть и в силу чисто технологических обстоятельств: разбиение КПО шириной К на несколько суб-КПО меньшей ширины может потребоваться в связи с ограниченностью оперативной памяти машины, для увеличения быстродействия и т. д.
Одним из шагов к обеспечению многотемности является, конечно, ввод в систему /f-наборов алгоритмов для всех J КПО. Этого, однако, недостаточно: необходимы еще средства для обеспечения перехода системы по мере надобности из одной КПО в другую.
Простейший способ решений этой проблемы состоит в переложении ее на пользователя, который вводом с терминала надлежащего кодового слова переводит систему в нужную ему КПО. Так сделано, в частности, в системе, разработанной в ИППИ АН СССР B.C. Медовым под руководством автора и обеспечивающей две КПО [11].
Однако требование помнить и вводить кодовые слова, будучи нетрудным по существу, все же нежелательно с точки зрения оптимизации психологического климата общения с ЭВМ для непрограммирующего пользователя, для которого, собственно, и предназначены естественно-языковые системы.
Это побуждает рассмотреть проблему автоматического переключения машины с одной КПО на другую в зависимости от получаемых ею текстов.
Здесь снова сталкиваемся с задачей, конечно же, распознавания образов, что, как уже отмечалось, довольно естественно. В данном случае задача состоит в том, чтобы по тексту распознать КПО, к которой он относится. Результатом будет переключение системы в эту КПО, что в свою очередь, позволит распознать надлежащий алгоритм реагирования и осуществить "понимание".
Из изложенного следует, что многотемная задача машинного понимания является неоднородной по классификации [6, 12]; ее первый этап (распознавание КПО) называется "предопознавание" и должен
обеспечиваться качественно более простой процедурой, чем второй этап — собственно "понимание".
Как уже отмечалось, многотемность является нормальным, обычным свойством протяженного текста, дискурса. Это позволяет сформулировать третий фундаментальный постулат концепции реагирования:
естественный язык обладает свойством вводить в многотемные тексты специальные элементы, обеспечивающие надежное и простое (по сравнению с алгоритмами fk собственно "понимания") предопоз-навание КПО.
Простейшим типом таких элементов являются обычные ключевые слова, широко используемые в информационно-поисковых системах. Наше рассмотрение позволяет уточнить их роль и при машинном, и при человеческом понимании.
Более тонким и сравнительно недавно обнаруженным видом обсуждаемых элементов являются так называемые "модальности" [12]. Они начинают работать в тех случаях, когда группирование реакций в КПО происходит по целям, стоящим за каждой единицей текста.
Основанные на подобных элементах алгоритмы предпознавания просты и очевидны [6, 12].
Приведенные выше соображения о концепции реагирования позволяют сформулировать точку зрения на проблему уровня "интеллектуальности" систем машинного понимания, рассчитанных на работу в "языке в целом". В описаниях существующих систем вопрос об ограниченной проблемной области если и затрагивается, то лишь на стадии обсуждения требуемого объема памяти, а также возможных приложений системы, а не как фактор, влияющий на ее структуру. Иначе говоря, ограничение широты языкового репертуара и соответственно мощности множества {г} требуемых реакций в структуру этих систем не закладывается. По сообщаемым данным "понимание" в таких системах происходит на довольно примитивном уровне, хотя авторы обычно и высказывают надежду на возможность его повышения.
Однако, как было отмечено, радикальное повышение уровня интеллектуальности и тем более приближение его к человеческому возможно лишь на основе имитационного принципа, а он требует работы в КПО.
Отсюда следует важнейшее принципиальное положение: путь к расширению языкового (тематического) репертуара системы, претендующей на высокий интеллектуальный уровень, состоит не в изначальном расчете на широкий или даже неограниченный репертуар, а в создании пакетов информационного обеспечения для отдельных КПО, накоплении их и использовании механизма перестройки системы с одной КПО на другую на основе предопознавания.
Из изложенных положений концепции реагирования вытекает ряд конструктивных выводов.
ВЫБОР АЛГОРИТМА ИЗ /Г-НАБОРА И ОЗНАЧИВАНИЕ ЕГО АРГУМЕНТОВ
Задача понимания в КПО сводится, как мы видели, к распознанию по тексту требуемого алгоритма из имеющихся К алгоритмов и приданию его аргументам конкретных значений. Последние извлекаются из самого текста, а также частично из контекста и из банка знаний системы, если таковые нужны и имеются.
Будем обозначать текст, рассматриваемый не как носитель задачи понимания, а просто как цепочка символов, через t. Из концепции реагирования следует, что всякий такой текст содержит данные двоякого рода:
обеспечивающие распознавание адекватного алгоритма fk (образуют часть текста (субтекст), которую назовем кодом выбора алгоритма и обозначим г„,);
представляющие собой конкретные значения аргументов (at, ...а„к)=а алгоритма fk (обеспечивают выбор конкретной реакции г' из класса однотипных реакций {г}к, которые может при варьировании аргументов формировать алгоритм fk\ образуют субтекст, который назовем кодом выбора конкретной реакции в классе однотипных реакций и обозначим /„).
Например, в тексте "К какому врачу обращалась больная Н.П. Петрова в 1978 году по поводу кариеса?" слова "К какому врачу обращалась" составляют субтекст tw, так как данные, содержащиеся в них, обеспечивают выбор алгоритма реагирования — одной из К функций системы справочных функций базы данных по ис’гориям болезней, а данные "Н.П. Петрова", "в 1978 году" и "по поводу кариеса" образуют субтекст указывая конкретные значения аргументов этой функции. Тексты "Кто лечил в 81-м периодонтит у Цветкова?" и "У кого был в прошлом году Евсеев со своим парадонтозом?" требуют реакций из того же класса однотипных реакций, т. е. выбора той же справочной функции, что и ранее, но значения аргументов в этих случаях уже другие. С другой стороны, текст : "Сколько раз врач Федоров проводил удаление коренных зубов в период с 1975 по 1984 год?" вызывает уже другого типа реакцию и соответственно другой алгоритм.
Заметим, что в зависимости от значения К и сложности алгоритмов fk последние могут представляться в памяти ЭВМ как в готовом виде (эксплицитно), так и в виде набора отдельных блоков вместе с правилами их комбинирования для получения полных алгоритмов (имплицитно). Несколько подробнее этот вопрос рассмотрен в публи-
кации [13]. Выражения 1 и 2 в записи (2) относятся соответственно к человеческому и машинному реагированию. В последнем случае tN,L есть субтекст, состоящий из "лишних" (для машины, но не для человека!) слов. Например, в тексте "Ассистент, включите, пожалуйста, прибор А" слово "пожалуйста" необходимо при обращении к человеку для обеспечения желаемых этической и эмоциональной компонент его реакций; при обращении же к машине это слово является лишним, употребляемым "по инерции" межчеловеческого естественно-языкового общения.
Вообще при человеческом реагировании на естественно-языковый текст ни одно слово в нем нормально не является лишним: каждое слово вносит свой вклад в кодирование каких-то (в том числе и нефор-мализуемых) компонент искомой реакции. Это есть, по-видимому, одна из внутренних причин неосуществимости вполне формальной грамматики для естественного языка в целом.
Но это же дает основания для следующего утверждения: привнесение идеи КПО в задачу машинного понимания делает возможным построение полностью формализованных грамматик. Мотивируем это утверждение. Как видно из выражений (2), анализ текста при использовании КПО-метода сводится к распознаванию в тексте субтекстов tw и г„. Ответственным за выбор алгоритма является субтекст tw. Тело алгоритма реагирования олицетворяет сущность реализуемой реакции, т. е. сущность требуемого действия, поэтому естественно, что ядром субтекста tw довольно часто служит та или иная глагольная форма, а субтекст t„ содержит имена участников действия. Это рассуждение наталкивает на то, чтобы в основу работы алгоритма d(t) положить поиск в тексте комплекса из имени действия и имен его актантов с указанием их ролей (ДА-комплекса). Адекватность подобных комплексов для организации анализа текста была замечена многими авторами ("концептуальная зависимость" — в монографии [2], "глубинный падеж" — в статье [3], "событие" с его ядром и моделью управления — в ряде работ, например в монографии [14]).
Новое качество в использовании ДА-комплекса возникает благодаря привнесению эффекта определенности, обусловливаемого вводом КПО. Именно из конечности К следует, что списки имен действий, имен участников каждого действия и их ролей, а также списки возможных структур ДА-комплексов оказываются конечными и в силу определенности каждой из R реакций, однозначно определенными (и притом строго индивидуальными) для каждой КПО или суб-КПО, чем и обусловливается формализуемость грамматики. Так, список участников и их ролей для действия "ставить" будет одним в КПО, отвечающей ситуации "ставить стул" (здесь будут, в частности, аргументы, имеющие значения "куда", "чем" и т. д.), другим — в КПО, отвечающей ситуации "ставить спектакль" (где аргументы "куда" и "чем" исчезают, но появляются, например, аргумент "где"), третьим — для ситуации "ставить кастрюлю", четвертым — для ситуации "ставить оценку", пятым — для ситуации "ставить часы" и т. д.
Очевидно, что точность и однозначность представления структуры ДА-комплекса радикально упрощают анализ текста. В самом деле,
если обычный (без учета КПО) анализ вынужденно исходит из посылки, что априори в тексте может содержаться "все, что угодно", то в обсуждаемом случае в тексте ищутся заранее известные и заведомо там находящиеся конкретные объекты: имя алгоритма fk и значения его аргументов.
В плане реализации собственно поиска этих объектов представляются более или менее равноценными как вышеперечисленные формализмы, специально ориентированные на ДА-комплексы, так и некоторые формализмы общего назначения, такие, как фреймовая модель, КС-грамматики, сетевые грамматики и т. д. Равноценны ли эти формализмы также и в плане воплощения идеи КПО, приходится пока выяснять эмпирически. В настоящее время в рамках концепции реагирования под руководством автора статьи созданы две работающие системы естественно-языкового общения с системой управления базами данных: одна — B.C. Медовым (на основе КС-грамматик, две темы) [11], вторая — Л.И. Рубановым (на базе ATN-модели, одна тема) [15].
Заметим в заключение, что рассмотрение множества примеров выявило два интересных факта, важных, в частности, для многотемных систем:
ДА-организация, естественная для текстов, оперирующих прямыми физическими действиями (относящихся к вещно-действенному уровню), сохраняется и для текстов, относящихся к самым разнообразным ментальным действиям, абстракциям, в которых само понятие "действие" истолковывается метафорически (это позволяет сделать структуру анализа постоянной, независимой от КПО — "параметризовать" структуру);
развиваясь от примитивных текстов вещио-действеииого уровня к текстам современного интеллектуального обихода, в котором метафорические ситуации полностью доминируют над вещно-действенными ситуациями, язык явно избегал ввода новых слов, придавая все новые значения уже существующему слову и возлагая функцию указания нужного значения этого слова в каждом конкретном случае на наличествующую уже при этом КПО, раз уж она все равно присутствует (например, употребление слова "ставить" в ситуациях со стулом и театром, "побить" в случаях с ребенком и рекордом и т. д.), что является еще одним подтверждением радикальной роли концепции КПО в человеческом механизме понимания естественно-языковых текстов.
О ДОСТИЖИМОСТИ ПРИ МАШИННОМ ПОНИМАНИИ ЧЕЛОВЕЧЕСКОГО УРОВНЯ
Понятие "смысл" в целом, будучи неформализуемым фактором, может в каких-то случаях содержать некоторую "часть", допускающую формальное представление. В общем случае ниоткуда не следует, что эта формализуемая часть разделима с неформализуемой, однако для упрощения рассуждения сделаем такое предположение. Аналогичное допущение сделаем и о частях реакции, обусловливаемой данным смыслом, точнее, будем считать, что формализуемая и неформали-
зуемая части реакции разделимы и независимо управляются соответственно формализуемой и неформализуемой частями смысла. Не-формализуемая часть смысла не может быть воспроизведена ЭВМ по определению. Соответственно не может быть сформирована ею и не-формализуемая часть реакции.
Но это означает, что полноценное машинное понимание естественноязыкового текста в общем случае в принципе невозможно. Такое утверждение, естественно, сразу же порождает вопрос о том, какое же машинное понимание все-таки возможно. Сформулировать ответ на этот вопрос будет легче, если предположить, что упомянутая выше комплексная реакция представима в виде совокупности отдельных компонент. Тогда можно говорить о множестве R всех возможных компонент, таком, что каждая конкретная реакция r(t) образуется путем выбора некоторого подмножества компонент из этого множества.
Пусть имеется текст t. Полную (т. е. человеческую) комплексную реакцию на него обозначим rt) и будем считать в соответствии с только что высказанным предположением некоторым множеством, составленным из формализуемых и неформализуемых компонент, взятых из R. Машина же на текст t в состоянии воспроизвести лишь часть Tf/t) компонент (формализуемых) из множества rH(t). Наконец, введя в рассмотрение интересы пользователя, обозначим rmin(0 и назовем минимальной допустимой реакцией наименьшее подмножество компонент из 77/г), еще способное удовлетворить пользователя в конкретном случае машинного реагирования на текст t.
Тогда практическая применимость машинного понимания текста определяется следующим очевидным условием:
rM(t) = rmin(,). (3)
При выполнении этого условия минимальная допустимая реакция машинно воспроизводима, по крайне мере в принципе. В противном случае удовлетворительное машинное понимание текста t принципиально неосуществимо.
Но с совокупностью компонент, составляющих rminft), связаны следующие факты:
состав этой совокупности для каждого текста свой;
оценка ее способности быть минимальной допустимой реакцией в каждом случае может быть выполнена только человеком, поскольку только он имеет представление о составе rt) и о допустимом отклонении от этого состава.
Это вводит нас в порочный круг: для того, чтобы оценить допустимость машинного понимания очередного текста, необходимо знание полной (человеческой) реакции гц(1) на этот текст, т. е. необходимо ознакомление человека с каждым очередным текстом.
Но тогда для чего машинное понимание этого же текста?
Для задачи собственно машинного понимания выход из положения доставляется все той же КПО. Именно она, по определению, есть такая предметная область, для которой множество всех возможных реакций конечно (и машинно обозримо). Но в таком случае для каждого текста из обучающей выборки для данной КПО и для каждой из конечного набора возможных реакций можно заранее сопоставить Гц(1) и гтт(0 и выяснить выполнимость условия (3).
Иначе обстоит дело с другой задачей — машинным переводом. В рамках концепции реагирования полноценный перевод естественноязыкового текста t, вызывающего у понимателя-носителя данного естественного языка реакцию Г[/1). определяется как текст t' (на втором естественном языке), вызывающий у понимателя-носителя второго естественного языка такую же (или по крайней мере очень близкую) реакцию r(t'), что можно представить символически в виде r(t')rHt. (4)
Но понимателем текста t при машинном переводе является ЭВМ, и ее реакцией на t будет не rt), а rt), т. е. реакция, в лучшем случае воспроизводящая только формализуемую часть от rtft). Соответственно и подбор текста t' можно проводить исходя только из условия rftjrt), а не соотношения (4). Это показывает, что полно-ценый чисто машинный перевод в принципе невозможен во всех случаях, когда /7/0 содержит неформализуемую часть. Но судить о наличии или отсутствии ее в rn(t) может опять-таки только человек, причем лазейки в виде КПО в случае машинного перевода уже нет, так как переползание связного текста из одной предметной области в другую ничем не ограничено. Следовательно, в отличие от машинного понимания участие человека (постредактора) в полноценном машинном переводе принципиально неизбежно.
В этом свете кажется сомнительной целесообразность достижения максимальной синтаксической и семантической "гладкости" машинного перевода, на что нацелены практически все известные разработки. Такая "гладкость" способна принести скорее серьезный вред, усыпляя бдительность постредактора в тонких случаях, демобилизуя его. Как следует из проведенного рассуждения, за машинным переводом можно закрепить лишь роль подстрочника, более или менее совершенного. "Гладкость" же окончательного текста без каких-либо специальных мер явится неизбежным следствием интеллигентности постредактора, тем более, что его включение в процедуру обязательно.
ЛИТЕРАТУРА
1. Жолковский А.К. Модель "Смысл—Текст" // Энциклопедия кибернетики. Киев: Укр. Сов. энциклопедия, 1974. Т. 2. С. 46—47.
2. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980. 360 с.
3. Филлмор Ч. Дело о падеже // Новое в зарубежной лингвистике. М.: Радуга,
1981. Вып. 10. С. 369—390.
4. Wilks У. Grammar, meaning and the machine analysis of language. L.: Routledge, 1972.
116 p.
5. Кулагина O.C. Исследования по машинному переводу. М.: Наука, 1979. 320 с.
6. Файн B.C. Новые аспекты машинного понимания сообщений // Изв. АН СССР. Техн. кибернетика. 1982, N 5. С. 100—112.
7. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1974. 223 с.
8. Попов Э.В., Фирдман Г. Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. М.: Наука, 1976. 455 с.
9. Хорн Б. Определение формы по данным о полутонах / / Психология машинного зрения. М.: Мир, 1978. С. 137—184.
10. Файн B.C. Инвариантное к освещению распознавание простых поверхностей в полутоновых изображениях по поведению градиента яркости. Рукопись деп. в ВИНИТИ. N 1924—85 Деп.
11. Медовый B.C. К проблеме перенастройки лингвистических процессоров // Изв. АН СССР. Техн. кибернетика. 1982. N 5. С. 113—120.
12. Файн В.С. Машинное понимание сообщений на естественном языке как задача опознавания образов // Диалог в автоматизированных системах. М.: МДНТП, 1981. С. 9—16.
13. Файн B.C. Содержательный аспект информационного обмена в диалоге: Препр. М.: ВИНИТИ, 1983. 35 с.
14. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. 360 с.
15. Страмцов Н.Н., Рубанов Л.И., Кузьменко М.А., Гинзбург М. Я.. Назаренко Б. В.. Алиев В.М., Филиппов В.А., Семин В.М.. Катин П.М.. Рубанов Л.И., Филиппов М.И., Ибрагимов Р. С. Опыт разработки и эксплуатации автоматизированной системы управления обеспечением народного хозяйства нефтепродуктами / / Материально-техническое снабжение. М.: ЦНИИ ТЭИМС, 1986, с. 3—22. (Сер. 7; Вып. 5).
|