`
Читать книги » Книги » Научные и научно-популярные книги » Языкознание » Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов

Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов

1 ... 4 5 6 7 8 ... 15 ВПЕРЕД
Перейти на страницу:

Хотя П-классы задают более детальную классификацию сочетаемости основ с флексиями чем традиционные типы склонения и спряжения, они недостаточны для описания многих частных особенностей русского словоизменения. Эти особенности можно было бы учесть с помощью еще более дробной классификации, однако, во избежание чрезмерного увеличения числа П-классов, в ФМРС используются другие методы.

Как исключения описываются случаи сочетания основы с "нестандартной" для данного П-класса и данной формы флексией: в форме именительного падежа множественного числа существительных вместо характерной для 1-го П-класса флексии -ы (глаза, но заводы), пустая флексия вместо флексии -ов в родительном падеже множественного числа (глаз, но заводов). Исключением считается и наличие у некоторых существительных 2-го родительного (партитивного) и 2-го предложного (локативного) падежей: кусок сахару, в шкафу, но из сахара, о шкафе. Всего в ФМРС учитываются 26 исключений такого вида.

К особенностям словоизменения относятся и чередования в основе. В ФМРС учтено 55 чередований, например: ова - у (рис-ова-ть - рис-у), та - щ (клеве-та-ть - клеве-щ), е - ‹пусто› (царев-е- царев-н-а). Для И-слов с чередованиями достаточно рассматривать только один "стандартный" вариант основы, указывая тип и контекст чередования в описании значения основы. Так, для стандартного варианта основы царевн- указывается, что при пустой флексии перед последней буквой основы вставляется буква е.

Относительно редкие чередования (встречающиеся у 1-3 слов) в ФМРС учитываются по-иному: парадигмы таких слов задаются несколькими основами и Н-словами, образующими "семейство" слова (основы зай-, зайд- и заш- и И-слово зайти для глагола зайти). Семейства вводятся и для слов с супплетивными формами (хороший - лучше) или уникальными наборами флексий (некоторые числительные, личные местоимения).

В синтаксический класс объединяются слова и конструкции с общим набором ГП и общими синтаксическими функциями. Каждому представителю некоторого С-класса сопоставлен (как и в случае М-классов) вектор значений характерных ГП. Для большинства И-слов номер С-класса и соответствующий набор ГП совпадают с номером и набором ГП М-класса. Так, многие существительные - С-класс номер 7 - относятся и к 7-му М-классу. Однако некоторые слова изменяются по "необычной" модели: существительные прохожий, гончая склоняются как представители 8-го М-класса, для существительного кабельтов характерно местоименное склонение. В подобных ситуациях в описании значения основы указывается и синтаксический класс, а иногда значения "дополнительных" ГП (например, вида и залога для причастий - С-класс номер 18, склоняющихся по модели 8-го М-класса).

2.2.3. Основные программы

Морфологический анализ знакомых слов. Программа МОРФ1

Программа МОРФ1 строит все возможные разбиения входной словоформы на основу и флексию и ищет соответствующие части в словаре (первоначально МОРФ1 пытается найти в словаре совпадающее со словоформой Н-слово, а затем последовательно рассматривает словоформу как основу с пустой флексией, основу с флексиями длиной 3, 2 и 1) или неизменяемое слово.

Проверку правильности разбиения - сочетаемости основы и флексии - осуществляет вспомогательная программа, она же устанавливает значения ГП, определяемые флексией. Когда МОРФ1, отщепив флексию, не может найти полученную основу в словаре, происходит обращение к подпрограмме, применяющей к основе правила чередования. Если и после применения правил чередования найти основу в словаре не удалось, слово признается незнакомым и формируется обращение к программе морфологического анализа незнакомых слов МОРФ2 - список вариантов трактовки словоформы (грамматически корректные разбиения на основу и флексию, неизменяемое слово).

Результат работы МОРФ1 (для знакомого слова) - список вариантов анализа, каждый из которых содержит: грамматические признаки словоформы и ссылку на словарную статью, описывающую семантическое значение слова.

Примеры:

стекла → (7 2 3 1 2) - существительное (неодуш.,ср.род) стекло

в форме: ед.число, родит.падеж

(7 2 3 2 (1 4)) - существительное (неодуш.,ср.род) стекло

в форме: мн.число, именит. или винит.падеж

(9 1 1 3 2 1 1) - глагол стечь

в форме: прош.вр., женск.род, ед.число

Упрощенный вариант программы МОРФ1 - программа МОРФ3 - решает так называемую задачу лемматизации: определяет только начальную форму слова, не формируя список грамматических характеристик словоформы.

Примеры:

стеки → стек, стечь

стекла → стекло, стечь

стеками → стек

Морфологический анализ незнакомых слов. Программа МОРФ2

На вход программы поступает сформированный МОРФ1 список вариантов трактовки словоформы.

Пример (словоформа квазибиологом):

квазибиологом+∅ (ср. космодром/управдом)

квазибиолог+ом (ср. биолог+ом)

квазибиологом (ср. бегом)

При обработке незнакомого слова МОРФ2 учитывает флексию и строение основы. В большинстве случаев исследование флексии не позволяет однозначно установить не только П-класс, род слов субстантивного склонения, вид спрягаемых слов, но даже М-класс анализируемого слова, так как, например, флексия встречается у слов всех четырех рассматриваемых М-классов (класс-а, красив-а, дядин-а, ворош-а). Для уточнения грамматических признаков незнакомых слов МОРФ2 учитывает следующие составляющие (диагностические сегменты) основы: префикс, суффикс или некоторую цепочку букв в конце основы, последнюю букву основы.

По префиксу можно обнаружить некоторые Н-слова и установить вид некоторых глаголов. Анализ суффикса помогает установить М-класс, П-класс, род (а иногда и одушевленность) слова субстантивного склонения, вид глагола или даже все нужные (описываемые в словарной статье) грамматические признаки слова. По последней букве основы легко уточняется П-класс, а иногда и М-класс слова. Программа МОРФ2 работает с таблицами, содержащими 28 префиксов и 67 суффиксов. Анализ незнакомого слова МОРФ2 начинает с варианта расщепления с максимальной длиной флексии.

Если анализируется не отдельно взятое слово, а слово в составе предложения, появляется возможность учета контекста (синтаксических связей данного слова с соседними). Информация о контексте передается программам морфологического анализа от объемлющих их программ синтаксического анализа с помощью предсказаний - списка ожидаемых грамматических признаков обрабатываемого слова. Так, при анализе незнакомого слова Верхневартовск в контексте приехала из далекого Верхневартовска ожидаемые характеристики последнего слова фрагмента таковы: неодушевленное существительное в форме единственного числа, родительного падежа.

В таких ситуациях результат работы МОРФ2 сопоставляется с предсказаниями, и, в случае соответствия, запоминается. Если же предсказание не подтвердилось, начинает обрабатываться другой вариант разбиения словоформы. Если ожидаемый результат не получен, либо слово признается неизменяемым, либо в нем ищутся и исправляются ошибки.

Для каждого отобранного варианта формируются результаты анализа словоформы (и вариант/варианты новой словарной статьи).

Пример (словоформа квазибиологом):

(7 0 1 1 (1 4)) - существительное (одуш. или неодуш., ср.род)

квазибиологом в форме: ед.число, именит. или винит.падеж

(7 1 1 1 5) - существительное (одуш.,муж.род)

квазибиолог в форме: ед.число, творит.падеж

(11) - неизменяемое слово (возможно, наречие)

Заполнение словаря по грамматическим описаниям слов. Программа СЛОВ1

Основная сервисная программа автоматической генерации словарных статей - программа СЛОВ1. В ходе ее разработки были составлены таблицы соответствия словарной информации из словаря Зализняка и словарной информации ФМРС. Отметим, что программа СЛОВ1 автоматизирует трудоемкую, требующую хорошего знания ФМРС работу по составлению словарных статей. Действия, выполняемые программой, зачастую весьма нетривиальны из-за различий морфологической модели словаря Зализняка, и ФМРС. На вход программы поступает словарная статья, взятая из словаря Зализняка или (если такого слова там нет) сформированная экспертом.

1 ... 4 5 6 7 8 ... 15 ВПЕРЕД
Перейти на страницу:

Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов, относящееся к жанру Языкознание. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.

Комментарии (0)