вспомогательных библиотек (для программистов, использующих эти средства в своих проектах),
утилит командной строки.
Перед началом работ требуется произвести поиск и анализ существующих проектов, сделать их обзор. Знающие что-либо по теме приглашаются высказаться здесь.
Библиотеки
Название ещё нужно обсудить и возможно поменять. Сейчас текущее название liblingvo. Скорее всего это будет часть libnatspec, которая будет разбита на низкоуровневую (/lib) и высокоуровневую (/usr/lib) часть.
Существует ряд задач, которые повторяются однотипно во многих программах:
перекодирование с транслитерацией (реализовано в libnatspec)
Определение близости слова (алгоритм Левинштейна) (из stardict)
Числительные (прописью, определять), зависимость от языка, см. реализацию в ООо. См. gettext на предмет числительных.
Склонение фамилий (например, мой алгоритм из 1С, да в сети уже давно есть и лучшие наработки)
Переносы (tex-алгоритм), чтобы был универсальный интерфейс для этого
расстановка буквы ё для слов, где она без вариантов
правописания (с аналог. проектом) enchant
нормализация знаков препинания в тексте (к примеру, взять то что я делал для форматирования?)
нормализация знаков в html-разметке
нормализация кавычек (относится к типографике)
определение кодировки (весовые коэффициенты) (реализовано в enca)
На эти темы много статей на английском...
Черепанов Андрей:
проверка орфографии одновременно на нескольких языках, используемых в тексте (актуально для пары русский-другой(английский) – когда легко отличить один язык от другого)