Лингвистическая библиотека

Линвистические инструменты должны быть реализованы в форме

вспомогательных библиотек (для программистов, использующих эти средства в своих проектах),
утилит командной строки.

Перед началом работ требуется произвести поиск и анализ существующих проектов, сделать их обзор. Знающие что-либо по теме приглашаются высказаться здесь.

Библиотеки

Название ещё нужно обсудить и возможно поменять. Сейчас текущее название liblingvo. Скорее всего это будет часть libnatspec, которая будет разбита на низкоуровневую (/lib) и высокоуровневую (/usr/lib) часть.

Существует ряд задач, которые повторяются однотипно во многих программах:

перекодирование с транслитерацией (реализовано в libnatspec)
Определение близости слова (алгоритм Левинштейна) (из stardict)
Числительные (прописью, определять), зависимость от языка, см. реализацию в ООо. См. gettext на предмет числительных.
Склонение фамилий (например, мой алгоритм из 1С, да в сети уже давно есть и лучшие наработки)
Переносы (tex-алгоритм), чтобы был универсальный интерфейс для этого
Ударения на словах (просто по базе) – зачем?
определение наличия буквы ё в слове (см. пакет http://sisyphus.ru/srpm/dict-yo
расстановка буквы ё для слов, где она без вариантов
правописания (с аналог. проектом) enchant
нормализация знаков препинания в тексте (к примеру, взять то что я делал для форматирования?)
нормализация знаков в html-разметке
нормализация кавычек (относится к типографике)
определение кодировки (весовые коэффициенты) (реализовано в enca)

На эти темы много статей на английском...

Черепанов Андрей:

проверка орфографии одновременно на нескольких языках, используемых в тексте (актуально для пары русский-другой(английский) – когда легко отличить один язык от другого)
проверка грамматики
проверка стиля
словарь синонимов (например, Aiksaurus)
словарь антонимов
возможность посмотреть определение (чего? слова?)
перевод слова (на другой язык?)
распознавание текста с форматированием (подобное реализовано в WackoWiki, например)

Ссылки

A natural language translation library
libtextcat
libtranslate
libdict (-cpp)
Lingua:EN:Inflect
((http://www.kuban.ru/cgi-bin/forum/forum9.cgi?page=1

Страницы, ссылающиеся на данную: m17n
Локализация/НациональнаяСпецификаСистемы
ТЗ/ЛингвистическиеИнструменты