Введение в формальный анализ естественных языков - Ляпунова А.А.
Скачать (прямая ссылка):
Система зависимостей в языке L3 совершенно иная, чем в языке Li, Так, в цепочке Ьииіши ялика /.j зависимости не вгта-штш друг а другя, как и шчючки uubbuu из /.2; пмссто этого пигиертиИ CHMIwji зййисит от мерного, пятый — от второго и шестой — от третьего. Системы зависимостей такого рода также могут быть обнаружены в естественных языках (см. примеры в след, главе, разд. 4.2) и потому должны найти себе место в адекватной теории грамматики. Ho в таком случае искусственные языки L2 и L3 отражают реальные свойства естественных языков, причем ниже мы увидим, что этн свойства играют принципиальную роль для определения адекватности различных моделей грамматики.
Чтобы кратко пояснить, как этн соображения применяются к естественному языку, рассмотрим следующий маленький фрагмент грамматики английского языка.
Даио: й S П,
F1 -.S-> AB,
F2--A-* CD,
Fi--B-*- EA,
Fi--C^a, the, another,
Z75: О-*ball, boy, girl,
F6:E~* hit, stuck.
Правила Fi — F6 — это в действительности группы правил, поскольку они указывают несколько возможностей развертывания для каждого из символов С, D и Е. (Обычно мы интерпретируем символ А как группу существительного, В — как группу глагола и т. д.; однако эти привычные имена несущественны для формальной структуры грамматики, хотя они играют важную роль в общей лингвистической теории.) Во всякой настоящей грамматике должны быть, кроме того, фонологические правила, которые кодируют терминальные цепочки фонетическими символами. Для простоты мы отложим рассмотрение фонологического компонента грамматики до разд. 6.
С помощью грамматики (13) можно породить такие терминальные цепочки, как # the boy hit the girl tt («Мальчик ударил девочку»). В случае этой простой грамматики все терминальные цепочки имеют одну и ту же структуру составляющих, что может быть выражено с помощью скобок и приписанных им грамматических обозначений:
tt (s (л (с4Ис (cboy )С)Л (в (?hit)? (Л (cthe)c (с§'г0с)л)г)ї tt
Формальный анализ естественных языков
251'
или, эквивалентным образом, с помощью размеченного дерева, как показано на рис. 3. Мы предполагаем, что такое дерево должно быть составной частью структурного описания для всякого предложения; в дальнейшем мы будем называть это дерево маркером структуры состаоляющих (С-маркером). Грамматика, для того чтобы быть адекватной, должна обеспечивать
#S#
с о
# №е boy hit the girl *
Рис. 3. Графическое представление (С-маркер) вывода грамматически правильного предложения.
С-маркером любое предложение. Каждый С-маркер содержит,, в виде меток при конечных узлах, перечень словарных элементов (т. е. слов), из которых составлена данная фраза. Два С-маркера тождественны, если они имеют одинаковую структуру ветвей и одинаковые метки при соответствующих узлах. Заметим, что дерево С-маркера в отличие от кодовых деревьев разд. 2 характеризуется определенным упорядочением ветвей слева направо — в соответствии с порядком элементов в цепочке.
Роль С-маркеров можно продемонстрировать на предложениях (Ia) и (1(5)- Грамматика, которая только порождает заданные цепочки слов, не в состоянии охарактеризовать грамматические различия между этими двумя предложениями.
В лингвистике слова (морфемы) или последовательности, которые функционируют в качестве элементов другой конструкции, называются обычно составляющими. В предложении, С-маркер которого представлен на рис. 3, girl, the girl и hit the girl — это составляющие, а сочетание hit the — нет. Каждая составляющая возводится к некоторому узлу дерева. Нели этот узел помечен символом Л, то говорят, что составляющая принадлежит к типу А. Te составляющие, из которых конструкций
252
Н. Хомский, Дж. Миллер
непосредственно образована, являются непосредственными составляющими этой конструкции. Например, на рис. 3 the boy и hit the girl являются непосредственными составляющими предложения; Ilit И the f/irl — 'П О III-IIOC реДС'ПК'ПМие СОСТаИЛИЮЩИС глагольной гр у пни Й и т. д. Очевидно, грамматики не может считаться удонлетаорительмой, если она не дает порождаемым Предложениям структурного описания — хотя бы в виде разложения на непосредственные составляющие.
Таким образом, грамматика должна обеспечить С-маркером каждое из бесконечного числа порождаемых предложений, причем каждый С-маркер представляется графически в виде дерева ¦С размеченными узлами и размеченными ребрами (узлам соответствуют грамматические типы составляющих, а ребра, отходящие от одного узла, различаются своим порядковым номером). Цепью дерева мы будем называть последовательность ребер, каждое из которых связано с предшествующим. Так, одной из цепей дерева на рис. 3 является последовательность ((S—В), (В — ?), (? — hit)), другой — ((Л — D), (D — girl)) и т. д. Поскольку дерево соответствует правильной системе скобок, его ветви не пересекаются (чтобы сделать это ^неформальное замечание точным в том очевидном смысле, который здесь имеется в внду, нужно было бы различать разные вхождения в дерево одного и того же символа). Символы, которыми размечаются узлы дерева, — это те самые символы, которые используются в грамматических правилах. Поскольку число правил конечно, а во всяком представляющем интерес случае число С-маркеров бесконечно, то должны -найтись такие символы грамматического словаря, которые повторяются в С-маркерах сколь угодно много раз. Более того, должны найтись даже такие цепи, которые содержат некоторый символ более чем п раз для любого фиксированного п. Пусть дано множество С-маркеров; тогда символ словаря называется рекурсивным элементом, если для любого п найдется С-маркер, содержащий цепь, в которой этот символ встречается в качестве названия узла более чем п раз.