RMU_{морфологический анализ}

читайте также по теме: Русская морфология

RMU_{морфологический анализ}

В настоящий момент проект RMU перерастает в RMS. В данном разделе можно ознакомиться с архивными материала по RMU.

Тестовый доступ к RMU

Модуль морфологии продолжает работать в тестовом режиме.

Морфологическая модель

Разработка и реализация модели русского словоизменения велась на базе классической модели Зализняка А.А. и полученного опыта прежних лет (Диссертация Волковой И.А. « Адаптация и обучение системы общения с ЭВМ на естественном языке (844.79 Кбайт)», 1982 год, ). Был учтён тот факт, что за это время производительность компьютеров выросла на несколько порядков, поэтому структуры данных можно изменить для облегчения алгоритма морфологического анализа/синтеза. В результате переработки в модели появились такие понятия, как «псевдооснова» и «псевдофлекия». Проблемы чередования были решены путём увеличения числа парадигматических классов (более 1600). Но в то же время объём информации был сокращён за счёт использования связанных парадигм (парадигмы глаголов связаны с парадигмами причастий).

Структурно модель представляет собой четыре словаря:

Словарь псевдооснов — список псевдооснов, которые имеют ссылки на лексемы словаря лексем.
Cловарь лексем — список лексем (слов, единиц языка), хранящих связанные грамматические характеристики. Каждая лексема связана с соответствующим парадигматическим классом и схемой ударения.
Набор парадигматических классов — статический список псевдофлексий, объединённых в классы. С каждым классом статически ассоциированы несвязанные грамматические характеристики соответствующих лексем. Благодаря чему возможен алгоритм предсказания морфологических признаков при анализе новых неизвестных слов.
Набор схем ударений — список номеров ударных букв, с учётом вариативности.

В БД модуля находится 93 976 слова (всего 2 831 866 словоформ). Для поддержки режима пополнения элементы словаря содержат признак принадлежности пользовательскому словарному набору.

При словоизменении учитываются следующие грамматические характеристики слов (разные для разных морфо-синтаксических классов):

частицы — не изменяются;
междометия — не изменяются;
личные местоимения — одушевленность (для 1 и 2 лица), род, число, падеж, лицо;
количественные числительные — одушевленность, род, число, падеж;
притяжательные прилагательные — одушевленность, род, число, падеж;
краткие прилагательные — род, число;
существительные — одушевленность, род, число, падеж;
прилагательные — одушевленность, род, число, падеж;
глаголы — возвратность, вид, наклонение, лицо, род, число;
предлоги — не изменяются;
союзы — не изменяются;
наречия — не изменяются;
предикативы — не изменяются;
—
знаки пунктуации — не изменяются;
краткие причастия — возвратность, вид, время, род, число, залог;
сравнительная степень прилагательных — степень;
причастия — возвратность, вид, время, одушевленность, род, число, падеж, залог;
деепричастия — возвратность, вид, время.

Программная реализация...

Материалы

За неимением ничего лучшего я выложил черновик спецификации RMU (633.33 Кбайт) от 31/03/03.

Особенности реализации

Программный интерфейс ядра анализатора базируется на методе передачи структурных данных в виде размеченного текста в формате SGML (ISO 8879). В режиме отладки морфологическая база представляется также в формате SGML, что удобно для ручного контроля. В связи с тем, что размер внутреннего представления словарей ограничивается десятками мегабайт, было принято решение переложить вопросы подкачки и управления памятью на аппарат виртуальной памяти самой ОС. Таким образом, RMU не нуждается в СУБД для управления своими данными.

Полная загрузка словарей в память позволяет хранить их в отсортированном виде (это логарифмически ускоряет поиск), а также связывать ссылки между записями с помощью указателей.

Оценка эффективности

Сложность алгоритма анализа (синтеза) можно оценить требуемым для его проведения количеством сравнений строк:

N ≤ w ( log2 S + f )

Где w — максимальная длина анализируемой словоформы, S — количество основ в отсортированном словаре основ, f — максимальное количество флексий в парадигматических классах. Для значений w = 30, S = 70000, f = 60 получаем, что N ≤ O (3·10³).

Скорость работы модуля можно оценить следующими значениями*:

анализ в одном процессе	~3000 сл/с
анализ через сетевое соединение	~500 сл/с

Ресурсоёмкость

Во время загрузки RMU запрашивает около 50 Мб виртуальной памяти. Загрузка/выгрузка словарей происходит приблизительно за 10 с^*. Практически RMU может работать на системе с минимум 16 мегабайтами оперативной памяти, правда, при этом загрузка может длиться пару минут.

Благодарности

Джулиану Р. Сьюарду (Julian R. Seward) за его бесплатную библиотеку компресии данных libbzip2, которая работает просто замечательно.

Краткая история разработки

18 мая 2003 г. После полугодового перерыва работа продолжена. Обновлена морфологическая база, каждому слову сопоставлена схема ударения. Реализован анализ неизвестных слов. Обновлена страница тестового доступа для демонстрации функции «Синтеза» и «Предсказания».
12 ноября 2002 г. Интеграция с библиотекой libbzip2 для компрессии бинарного формата внешнего представления словарей.
9 июня 2002 г. Выступление на Муждународном семинаре Диалог'2002 «Компьютерная лингвистика и интеллектуальные технологии». Завершение подготовки выпуска RMU версии 1.0 к годовщине начала программной реализации (8 июня 2001 года).
2 июня 2002 г. Разработан PHP-сценарий для проведения орфографической проверки фрагмента текста. Завершена реализация поддержки схем ударений.
14 января 2002 г. Разработан серверный сценарий на базе языка PHP, позволяющий проводить морфологический анализ пользователям глобальной компьютерной сети. Функция синтеза не реализована.
8 января 2002 г. Модуль RMU дополнен серерной функциональностью — теперь он выполняет запросы из сети. Разработан клиентский сетевой модуль.
10 сентября 2001 г. Готов работающий прототип, выполненный в виде самостоятельного приложения.
8 июня 2001 г. Начало разработок по проекту RMU.
май 2001 г. Предложение о разработке RMU.

*	В конфигурации Intel Pentium III-700 МГц, 128 Мб ОЗУ под управлением MS Windows 98SE.

14 января 2002—20 сентября 2005

Максим Проскурня

Реклама от хост-провайдера

RMUморфологический анализ

RMUморфологический анализ

Тестовый доступ к RMU

Морфологическая модель

Программная реализация...

Материалы

Особенности реализации

Оценка эффективности

Ресурсоёмкость

Благодарности

Краткая история разработки

RMU_{морфологический анализ}

RMU_{морфологический анализ}