Наметки к работе над UDS
22 апреля 2003 г., 7:12:05, Dorosh Vladislav писал:
Первичны оригинальные тексты. Далее идет анализ того, что может встретиться в текстах: какие буквы и их варианты, какие надстрочные знаки, какие титла; в каких комбинациях, в каком контексте, в каких орфографических ограничениях; деление на изводы, национальные диалекты и пр.; наконец, четкое определение степени допустимого абстрагирования от всех особенностей оригинала — ибо, положение всех электронов в атомах бумаги и чернил передавать нужно не всегда. Так вот, все это должно быть собрано, разложено по полочкам, все закономерности отслежены, исключения каталогизированы, образцы накоплены. Это исходный материал для проектировщиков компьютерного представления текстов — то есть, построения некоторой абстрактной модели тех оригиналов, за которые мы решили взяться, с целью упрощения ряда работ с ними.
1 этап. Выяснение, какие изводы, периоды, диалекты и языки. А также,
в самом общем плане социологическое определение аудитории пользователей, их возможностей и потребностей. Здесь же — предварительные наметки по кластеризации требований.
2 этап. Выполняется специалистами по ЦС как основными исполнителями, и специалистами по программированию на подхвате.
- Сбор (специалистами) и упорядочение (программистами) сведений о составе знаков, надстрочников, титл и прочих элементарных составляющих текста: с картинками, с описанием, с историческими справками и т.д.
- Сбор, отслеживание и упорядочение статистики и закономерностей употребления этих знаков поодиночке, в парах, в контексте, в словах, в предложениях, в абзацах, в главах, в книгах, в заголовках, в сносках и т.д.
- Уяснение отличий этих закономерностей в соответствии с разными периодами, наречиями, изводами. Если говорить более точно, то не с изводами и периодами, а с разными кластерами требований. Вот зачем нужна кластеризация. – Мысли по поводу налаживания и подготовки какой-то работы с корпусом текстов пока что в бумажном виде, когда они потребуются на третьем этапе.
3 этап. Собственно, большая проектная стройка. Начнется она с:
- Выяснения ситуации на софтовом поприще. Что кто поддерживает или будет поддерживать в ближайшем будущем на разных платформах, для программ различного уровня открытости исходников? Подводные камни, заморочки и т.д. Солидное такое исследование гидрогеологической обстановки перед разбивкой колышков под фундамент.
- Выяснение наибольшего участка или группы участков, на которых можно строить более-менее безбоязненно относительно скорых оползней и обломов. Определение величины и возможностей этого участка/участков.
- Первые наметки на техническую сторону КШС.
- ...
На главную страницу StcWiki