FreeSource : StcWiki/Morphoparser/GreekNames

Что делать? (Инструкция от Влада)

Слова с неславянскими основами лежат здесь: http://irmologion.ru/morphology/greek_words.rar .

Каждая лексема представлена txt-файлом. Внутри файла есть некоторая служебная информация (на которую внимания не обращаем) и перечень словоформ, предположительно этой лексеме принадлежащих. В конце может быть вспомогательный список (.Nearby:...) с «похожими» словами — на него тоже внимания не обращаем.

Нужно:

1. завести себе новый, пустой файл (скажем, Вордовый), который назовем для определенности «Результат»;
(а результат можно потом скопировать сюда: * Результат — Д.Т.)

2. для каждого txt-файла из архива: открыть его;

2.1. просмотреть имеющиеся там словоформы на предмет того, представляют ли они одну лексему или несколько;

2.2. каждую встреченную в .txt-файле лексему обработать следующим образом:

2.2.1. если это существительное — найти его в нашем корпусе текстов и распознать по контексту, какой у него род, именительный падеж, склонение (возможно, потребуется проанализировать несколько мест в текстах);

в «Результате» поместить именительный падеж слова и его род. Если именительный падеж НЕ оканчивается на -ь, больше ничего не надо.
Если оканчивается на -ь, но род у него — женский, больше ничего не надо. В противном случае добавьте еще и номер склонения.

(Мне нужно отличать м.р. на -ь, склоняемый по первому склонению, от м.р. третьего склонения.)

2.2.2. Если это — прилагательное (чаще всего это будут краткие притяжательные прилагательные, типа «иаковль, мариинъ, сафонь», прилепившиеся к лексеме существительного), поместите его в «Результате» в отдельный список для прилагательных, указав им.п. м.р. ед.ч. Остальное я пойму. Помещать их рядом с родственными существительными не нужно.

2.2.3. Если встретятся другие части речи — организуйте дополнительные списки. Или отбросьте.