Лингвистическая библиотека
Линвистические инструменты должны быть реализованы в форме
- вспомогательных библиотек (для программистов, использующих эти средства в своих проектах),
- утилит командной строки.
Перед началом работ требуется произвести поиск и анализ существующих проектов, сделать их обзор. Знающие что-либо по теме приглашаются высказаться здесь.
Библиотеки
Название ещё нужно обсудить и возможно поменять. Сейчас текущее название liblingvo. Скорее всего это будет часть libnatspec, которая будет разбита на низкоуровневую (/lib) и высокоуровневую (/usr/lib) часть.
Существует ряд задач, которые повторяются однотипно во многих программах:
- перекодирование с транслитерацией (реализовано в libnatspec)
- Определение близости с
1000
лова (Левинштейн) (из stardict)
- Числительные (прописью, определять), зависимость от языка, см. реализацию в ООо
См. gettext на предмет числительных.
- Склонение фамилий (например, мой алгоритм из 1С)
- Переносы (tex-алгоритм), чтобы был универсальный интерфейс для этого
- Ударения на словах (просто по базе)
- определение наличия буквы ё в слове (см. пакет
http://sisyphus.ru/srpm/dict-yo
- правописания (с аналог. проектом) enchant
- нормализация знаков препинания в тексте (к примеру, взять то что я делал для форматирования?)
- нормализация знаков в html-разметке
- определение кодировки (весовые коэффициенты) (enca)
- на эти темы много статей на английском...
- определиться с функциональностью при работе с gramps и сформировать API
Черепанов Андрей:
- проверка орфографии одновременно на нескольких языках, используемых в тексте
- проверка грамматики
- проверка стиля
- словарь синонимов (например,
Aiksaurus)
- словарь антонимов
- возможность посмотреть определение (чего? слова?)
- перевод слова (на другой язык?)
- распознавание текста с форматированием (подобное
реализовано в
WackoWiki, например)
Ссылки