Вернуться на главную страницу

Что не так с текстологией и как исправить ситуацию? Часть V. Об организации текстологической работы

2019-06-05  Towarzystwo cybernetyczne Версия для печати

Что не так с текстологией и как исправить ситуацию?  Часть V.  Об организации текстологической работы

Некоторое время назад к проблемам текстологии и, в частности к международному европейскому опыту текстологических работ, стали проявлять интерес не только переводчики, любители даталогии1, участники самообразования по теории марксизма и/или базам данных, но и практикующие текстологи. С нами связались участники текстологической группы, работающей над ресурсом многоязычной библиотеки классической теоретической, научной и чувственной (художественной) литературы. Поскольку товарищи уже столкнулись с теми же самыми проблемами, что и польские текстологи начала 2000-х годов, то нам был передан меморандум2, затрагивающий некоторые вопросы организации и способа проведения текстологических работ. Мы считаем необходимым публично прокомментировать этот документ из восьми параграфов и предать гласности некоторые места, не содержащие специальной терминологии и/или технических жаргонизмов.

В §4 меморандума превосходно сформулированы упоминаемые в широком международном и историческом контексте главным мысли целого ряда статей по текстологии, которые были опубликованы ранее на «Пропаганде»:

... возникает необходимость проведения международной текстологической работы, что и нашло отражение в историко-логическом изложении Фроша - Загорского и технологическом проекте Фроша - Загорского - Радкевичюте, из которого мы уяснили:

во-первых, попытки создания текстологического фонда предпринимались и не раз, но не были доведены до ума, поскольку это требует международной совместно-разделённой деятельности;

во-вторых, их исполнение не отвечало как техническим требованиям, так и требованиям текстологии, на преодоление чего и направлена техническая часть проекта Фроша - Загорского - Радкевичюте ...

Вслед за этим изложением, выражается обеспокоенность

... в-третьих, что существенно, остаётся открытым вопрос и о критерии подбора литературы для организации работы в теоретическом сообществе, особенно что касается пропедевтики и дидактики для овладения теоретическим способом мышления, как инструментом революционной практики - диалектикой, логикой и теорией познания.

Что касается вопросов дидактики и пропедевтики, то они принципиально были оставлены за пределами текстологического проекта. Впрочем, должно быть понятно, что хорошо исполненный международный текстологический проект должен быть пригоден именно для этих целей в первую очередь и, лишь после этого, для издательских и академических целей. Каковы должны быть критерии начального этапа? Не будет ошибкой указать, что жизненно важно в самом начале, чтобы состоялась международная совместно-разделённая деятельность (как это удачно названо в меморандуме). Каковы перспективы такой деятельности? Нужно сказать, что едва ли будет полезен громоздкий текстологический план товарища Петра Стрэнбского, который был опубликован другим польским текстологом - Домиником Ярошкевичем. Громоздкость этого плана сыграла в долгосрочной перспективе очень плохую роль, поскольку отсутствие сильного пропедевтического (популярного и завлекающего) компонента фактически остановило текстологическую работу в Польше спустя 12 лет после её триумфального начала3.

Некоторая близость популярных, как бы сказали ранее, издательских планов несомненно должна сохраняться в наше время4 для украинских, польских и российских условий исходя из общего полуимпериалистического положения Польши и России. В особенности небольшое отличие польской, российский и украинской пропедевтики и дидактики происходит из общего упадка промышленности и общего политического подавления со стороны транснациональных корпораций, связанных с политическим аппаратом США, которое особенно ярко проявляется на Украине. Эта страна тем менее отличается в пропедевтическом и дидактическом плане от соседей, чем более демонстрирует возможное будущее как польского, так и российского общества в случае продолжения господства всем хорошо известных упадочных тенденций материальной и духовной жизни.

Словом, не является проблемой понимание того, что для начала международной совместно-разделённой деятельности должна совпасть некоторая пропедевтическая потребность. Естественно ожидать, что в базу данных по FZ(R)-схеме сначала должно попасть нечто более-менее нормализованное и небольшое. Рискнём выдвинуть гипотезу, что разобраться в работе базы данных поможет размещение статьи Марека Яна Семека «Почему Сократ?»5, которая уже имеется в оригинальной аномальной (PDF) и российской нормализованной (html) версии. Полный трёхъязычный цикл с базой данных включает в себя выработку авторской карточки, книжной карточки и карточки статьи с обязательным переводом названий на эсперанто и мировые языки теоретического мышления. Затем на примере размещения вновь создаваемого украинского перевода можно будет понять принципы облегчения переводческой работы, которые реализованы в FZ-схеме.

___

Выраженное в меморандуме стремление текстологов-практиков к пониманию принципов FZR-схемы базы данных довольно показательно и весьма удобно для того, чтобы ещё раз противопоставить ясное изложение нашей позиции различным возражениям, которые не перестают поступать даже после многократного повторения основополагающих принципов международного текстологического проекта Фроша-Загорского-Радкевичюте. Итак, §5 меморандума сообщает нам:

§5. На Сократе, вначале работы мы акцентировали работу над переводами текстов и у нас не было представления о технической стороне дела, ни как работать с текстами, ни как оформить сайт - библиотеку, в лучшем случае она была дилетантской. Максимум что мы достигли - это книги в формате качественного ПДФ формата, образец «Капитал» и вообще работы Маркса в украинском переводе. Позже мы убедились, что так вначале были сделаны книги и в библиотеке Гутенберг. Полемика Фроша - Загорского поставила ребром вопрос о подготовке книг для фонда, которые отвечают требованиям текстологии - оригиналу, в формате html, в крайнем случае, для нас.

Если обращаться к международному текстологическому опыту, то сложно не заметить, что именно в названном направлении развивалась текстологическая работа в Варшаве и в Берлине. Ещё около 12 лет назад собственноручно стандартизованные PDF документы готовила текстологическая команда под руководством Петра Стрэнбского. Эта работа, однако, не получила должного технического развития, но подобные же проблемы вынуждены были решать немецкие товарищи. Так, несколько лет назад взамен PDF форм стали публиковать базовый гипертекстовый вариант издатели известного немецкого журнала RotFuschs. Необходимость универсализации текстовой формы классических произведений в уникодовый6 гипертекст западнее Буга не только признаётся в настоящий момент почти всеми текстологами, но и стихийно реализуется по мере сил уже несколько лет. Проблемы наших товарищей на этом пути указаны в §6 меморандума.

§6. ...поскольку нам необходимо готовить тексты в ворде и делать переводы на украинский, остановились на следующем варианте подготовки гипертекстов <приводится пример>. При этом мы делаем два формата - оставляем ПДФ как образец оригинала для сверки и делаем гипертекст в формате html. <...> нам необходимо понимать, соответствует ли наша работа требованиям текстологии для подготовки текстов для хранилища? Если нет то как это должно выглядеть, с учётом того, что нам необходимо готовить тексты для работы переводчиков.

Первое замечание касается того, что в западноевропейской текстологии фактическим стандартом примерно с 2001-2003 года является не Word (имеющий нестабильный и избыточный выход гипертекста), а редактор из пакета OpenOffice/LibreOffice под названием Writer. Этот редактор имеет полную поддержку ведению таблицы стилей в каждом подготавливаемом документе. В том числе поэтому он обеспечивает качественный выход гипертекста при условии, что выполняется нормальный текстологический цикл:

1. Восстановление авторских абзацев и пунктуации

2. Нейтрализация текста (Ctrl+M) то есть снятие стилей оформления

3. Восстановление авторской разметки (курсивы, подчёркивания, разрядки и пр.)

4. Отнесение абзаца к стилю оформления. Обычно это происходит через отнесение абзаца к авторскому типу (обычный текст, заголовок некоторого уровня, авторское примечание и пр.) или ко вспомогательному типу (редакционное примечание, сноска, цитата, подпись под иллюстрацией и пр.). При этом вспомогательные типы подлежат выносу в единую таблицу стилей текстологического хранилища (таблицы FZ-схемы со словом «Dizajnoj») и должны называться на языке эсперанто. Перечень вспомогательных типов пока что не утверждался и мы приглашаем всех заинтересованных к исследовательской работе по определению необходимых перечней вспомогательных стилей оформления для правильной передачи таких полиграфически сложных произведений как «Капитал».

Итак, прочитаем ещё раз как товарищи организовали контекстную текстологическую работу:

... мы делаем два формата - оставляем ПДФ как образец оригинала для сверки и делаем гипертекст в формате html. <...> нам необходимо понимать, соответствует ли наша работа требованиям текстологии для подготовки текстов для хранилища?

На поставленный вопрос можно ответить утвердительно. Потенциально PDF образец, совершенно разумно используемый для сверки, пригоден для описания в т. н. таблицах Радкевичюте (номер страницы оригинала и графические координаты в фотокопии для каждого абзаца). Важнейшей функцией PDF прототипа является также отнесение абзаца к странице, которое должно выполняться для всякого издания, признаваемого важным или авторитетным в результате обилия библиографических ссылок. Издания, не получившие широкого распространения в бумажном виде, однако, едва ли стоит дополнять постраничными сопоставлениями абзацев в FZR-схеме. В таком случае единственной системой публичных ссылок будет та, которая будет основана на UUID абзацев в конкретной базе данных. В общем случае подобные абзацные ссылки точнее страничных, хотя применение UUID делает их, по словам товарища Фроша, устрашающими.

В §7 меморандума товарищи рассказывают о типичных проблемах полного текстологического цикла, который на жаргоне называется циклом Радкевичюте7.

 

§7. <...> о мелочах, которые усложняют нашу работу и которые мы не понимаем, как преодолеть, в том числе как минимизировать ручной труд в процессе сканирования, конвертации и подготовки текста книги для печати.

Разберём указание не проблемы по этапам.

Сканирование, то есть создание нормализованной фотокопии. Этот процесс с точки зрения даталогического описания затронут в реплике по поводу полемики Фроша и Загорского. Каковы перспективы автоматизации этого процесса? Для небольших самообразовательных сообществ таких перспектив нет. Даже при условии промышленной организации всех иных стадий текстологической работы (что под силу любителям), автоматизировать сканирование практически невозможно. При разговоре об автоматизации сканирования невольно вспоминается арендованный немецкими товарищами полиграфический зал со сканером, где гильотиной уничтожали переплётную часть какого-то тома ленинских сочинений, а потом один товарищ раскладывал листы по порядку на широком столе, а другая товаришка по очереди выравнивала их в камере сканирования и складывала в архивную стопку. Подобный стиль работы, уничтожающий бумажное издание является предельным с вещественной стороны. Однако и с точки зрения базы данных фотокопия, например, рукописи, это предельная основа. На этом заканчивается техническая текстология произведений Нового времени. В общем случае текстологическое исследование заканчивается фотокопией достоверной рукописи на языке оригинала как первым объективным свидетельством. Это означает одновременно и то, что FZR-схема способна нести поабзацное описание до уровня авторской рукописи, и то, что в общем случае нет необходимости размещать в базе данных FZR-схемы все произведения с оригинальной графической основой из фотокопии рукописи.

Отдельные jpg или tiff файлы, накапливаемые в результате сканирования уже представляют из себя несомненный текстологический интерес и могут устанавливать связь с базой данных схемы Фроша-Загорского-Радкевичюте. Как это происходит практически?

1. Определяется некий единый каталог для хранения результатов сканирования. В этом каталоге создаётся каталог конкретного бумажного произведения письменности. Его целесообразно назвать по названию произведения с указанием автора. Так каталог хранения постраничных фотокопий работы http://hegel-marks.pl/downloads/teksty-siemek32.pdf можно назвать «Dlaczego Sokrates? Marek Jan Siemek».

2. В каталоге конкретного произведения размещаются пронумерованные любым очевидным способом файлы постраничных фотокопий.

3. Постраничные фотокопии подвергаются первичному распознанию программами tesseract и/или cuneiform, которые доступны как в RedHat ветви дистрибутивов (например, в Fedora) так и в Debian ветви дистрибутивов (например, в Ubuntu). Эти программы содержат шаблоны распознания для значительного числа европейских языков, в том числе, для украинской и болгарской кириллицы. Формат вызова tesseract довольно прост

tesseract файл-фотокопия файл-результат -l код_языка

Детальную справку8 даёт вызов программы без параметров: tesseract.

Суть применения программы tesseract довольно проста: на основе шаблонов начертания букв и словаря нужного языка она строит текст, находящийся на странице. При этом в большинстве случаев правильно соблюдено расположение абзацев. Аналогично работает программа cuneiform, также имеющая модуль украинской кириллицы. В ручном и/или наладочном режиме работа с cuneiform и tesseract обычно ведётся через оболочку yagf или аналогичные ей.

Весьма интересен у программы cuneiform формат вывода hOCR, который позволяет сохранить в гипертексте ссылку на графическое расположение конкретного слова. После упрощения hOCR документа возможно получение нормализованного гипертекста и т. н. таблиц Радкевичюте9. В частности для абзаца, не пересекающего страницу нужно вычислить наименьшую и наибольшую координаты по вертикали и по горизонтали. В большинстве европейских текстов в пределах указанного полигона будет расположен весь текст, а, в случае разделения абзаца между страницами, таблицы Радкевичюте будут хранить два полигона для одного абзаца на разных страницах. По результатам майского (2019) консилиума задача преобразования hOCR во-первых в текст-кандидат для вычитки и во-вторых в описание полигонов абзаца была оценена как задача общего программирования высокой сложности (до нескольких сотен строк Java кода). Однако несомненно, что эта задача поддаётся автоматизации и вполне разрешима в обозримой перспективе.

Завершив изложение лучших практик, связанных со сканированием перейдём к следующему этапу. Трудности этапа конвертации изложены в §7 меморандума следующим образом:

... Во-первых, для дальнейшей работы в Ворде, т. е. подготовки текста к переводу и заодно и гипертекста, мы бросаем его в Notepad++ после конвертации после сканирования или «передирания» с ПДФ. При этом сталкиваемся с тем, что предложения дробятся на части. Их восстановление и, заодно, проверка орфографии требуют много ручной работы.

Итак, товарищами указано два принципиально разных источника:

1. Существующие PDF, имитирующие бумажные издания или не имитирующие их, но не содержащие связного текстового слоя.

2. Фотокопии

Общим дефектом является нечёткая абзацная структура. В результатах распознания фотокопии кроме того, нередки орфографические дефекты. Готовых средств автоматизации текстологической работы по преобразованию фотокопий или аномальных (PDF) текстов в нормальный гипертекст нет. Однако ноябрьский (2018) консилиум выявил, что в большинстве случаев специальные редакторы типа Notepad++ излишни. По сути задача может решаться простым окном редактирования (реализованном хотя бы на языке Java или Python), которое выполняет функции абзацного разбиения и проверки орфографии10. Так, элементарная проверка по словарю реализуется сразу двумя словарными группами программ hyspell и aspell, причём каждая группа включает словарь украинской, немецкой, российской и польской лексики11.

Задача абзацного разбиения реализуется на любом языке программирования довольно просто. Установив курсор в нужное место раздела абзацев, можно вставить туда любой необычный символ, не встречающийся в авторском тексте. Обычно вставляется т. н. вертикальная табуляция или её аналог «␋», бывает что знак абзаца «¶». Довольно простая программа, получив сигнал разбора текста, автоматически может отделить текст указанного абзаца от фрагментов следующего абзаца. При этом также происходит уничтожение внутри текста абзаца переносов, табуляций и кратных пробелов. Как правило, ничто из названного не является элементом авторского текста и потому подобная автоматизации вполне допустима для 98-99% реально встречающихся абзацев на европейских языках и не создаёт лишних проблем за пределами встречающихся в книгах таблиц12.

Пока изложенная несложная логика не реализована в готовом программном средстве, стоит указать, что существует примерная реализация обсуждаемых функций средствами операционной системы Unix-типа. Так в Германии для автоматизации зачистки текста от дефектов распознания (лишних табуляций, пробелов, аномальных тире, неуместных знаков переноса и пр.) обычно используются однострочные команды замены, передаваемые старому текстовому редактору под названием sed. Эти команды простой замены осуществляют склеивание строк из PDF, когда они уже вынесены в отдельный текстовый файл Уникода. Производимая замена обычно обеспечивает устранение переносов, кратных пробелов и иных дефектов исходя из потребностей автора. Замены в sed весьма просты и легко настраиваются на устранение типовых дефектов а также довольно легко понимаются. Например, простые замены могут использоваться даже для полной замены системы письма в тексте13.

Добавлением к командам замены в sed обычно служит графический текстовый редактор (gedit/pluma/xed или аналогичный) с проверкой слов по словарям aspell или hyspell. Вероятно мало известный в европейских текстологических кругах Notepad++ также может быть чем-то полезен на данном этапе.

Вслед за формальной подготовкой исходного текста обычно следует содержательная подготовка или восстановление корпуса авторских примечаний и академического аппарата. Трудности этапа подготовки произведения к публикации («подготовки книги к печати») изложены в §7 меморандума наших товарищей следующим образом:

...сталкиваемся с тем, что предложения дробятся на части. Их восстановление и, заодно, проверка орфографии требуют много ручной работы. Тоже касается обычно и ссылок, когда цифры в Нотепаде идут строкой выше, а предложение ниже.

В том случае, если цифры сносок или степеней, ошибочно помещаются в отдельную строку, то этот дефект считается для текста PDF происхождения органически неустранимым, а для текста, распознанного из фотокопий это считается результатом неверной настройки программы распознания. Нередко для типовой серии фотокопий страниц перед отправкой на tesseract или cineiform производится весьма затейливая серийная обработка программой imagemagick, которая позволяет массово изменить резкость, контрастность, формальную детализацию и многое другое. Обычно в промышленных проектах обработка imagemagick и cuneiform или tesseract соседствуют в одном sh файле, где указываются подобранные на основе опыта параметры для всей серии фотокопий страниц.

____

§7 меморандума указывает и на другие технологические проблемы текстологической работы. В частности попытки продвижения в область специальной литературы привели к столкновению с проблемами, которые описаны весьма эмоционально:

... Третье. В книгах Ведуты или Глушкова (а это только цветочки, есть еще «Энциклопедия кибернетики», первая в мире и на украинском языке, она вышла в 70-е годы, и т д.) есть очень много формул. Снова ручной труд?

Короткий ответ: Да. Системы распознавания формул находятся в настоящий момент в зачаточном состоянии. Отсутствует текстологическая стандартизация представлений формул за исключением того, что они безусловно считаются авторским текстом, а следовательно, должны выражаться в гипертекстовом абзаце. В целях поиска не рекомендуется размещать формулы в виде изображений, однако конкретные требования к отражению взаимного расположения греческих и математических символов в гипертексте на настоящий момент не выработаны. Ясно только одно, что кодировка Уникод позволяет покрыть большую часть даже специальных математических трактатов. Например один из буквенных диапазонов вместе с дополнительным диапазоном операторов позволяет писать весьма разнообразные формулы. Кроме того есть ещё 3 или 4 исключительно математических диапазона разного назначения. Формат хранения непосредственно формул в текстологической базе данных полежит всестороннему обсуждению. Текстологическая экспертиза возможности разбора в odt формат письменного наследия Конрада Цузе (основателя немецкой социалистической кибернетики) указала на уместность формата редактора формул LibreOffice Math, однако способ встраивания таких формул в гипертекст пока что не ясен, ибо до его обсуждения дело не дошло. Как видим, эта проблема находится на переднем крае текстологической технологии и каких-либо готовых средств ещё не выработано.

___

Помимо технологических вопросов, наши товарищи столкнулись и с даталогической проблемой, то есть с проблемой сохранения связи между академическим аппаратом и текстом. В §7 меморандума эта проблема выражена так:

... При подготовке текстов античной литературы - Платона и Аристотеля мы столкнулись с тем, что в оригиналах на полях сделаны цифровые и буквенные ссылки. Но мы не понимаем, как их технически в формате html сохранить их для истории, тем более, что они связаны в оригинале с примечаниями!!!!

Античная текстология в целом сильнейшим образом отличается от простой текстологии Нового Времени, имеющей обычно дело с авторитетным или оригинальным авторским прототипом. Разумеется, текстологическая база данных по FZR-схеме не предназначена для полноценного отражения связей античной текстологии. Однако в смысле публикационной витрины для античных произведений FZR-схема вполне способна выполнить функции текстологического фонда.

Конкретно проблема ссылок на полях может решаться двояким способом.

1. Все ссылки размещаются в виде невидимых ссылок, содержащих ближайший к месту их постановки пробел. В предыдущей части настоящих очерков подобным образом в ленинских сочинениях проставлялся невидимый, но обнаружимый разрыв страниц. Гипертекстовый формат невидимой ссылки таков: «<A NAME=s1> </A>». В данном случае ссылка имеет название «s1». Невидимую ссылку можно использовать в качестве места, куда ведёт ссылка из примечания или комментария. Однако само примечание, как правило, лучше не отправлять из невидимой ссылки.

2. Помимо невидимой ссылки есть промежуточное решение, не ухудшающее поиск и текстологическое качество текста. Это невидимый комментарий «<-- текст -->», который можно вставить в любое место (даже в середину слова). Потенциально этот комментарий должен быть преобразован в какой-либо явный вид либо программой автоматического разбора перед занесением в базу данных либо программой JavaScript, чтобы читатель увидел издательские пометки к том или ином виде. Упоминаемая программа JavaScript обычно создаёт узкий столбец сбоку от основного текста и приписывает в этом столбце все пометки напротив тех строк, где содержатся невидимые комментарии.

Несмотря на то, что невидимые ссылки и невидимые комментарии не позволяют показать читателю весь текстологический слой, они, даже в неполноценном виде, однако сберегают работу текстолога. Действительно, последующую работу с академическими и библиографическими пометками на полях можно будет автоматизировать через JavaScript для демонстрации читателю или через добавление соответствующих таблиц в FZ-схему, чтобы формирователь гипертекстов из базы данных автоматически правильно расставлял пометки. В любом случае работающие в контакте с нами авторы FZR-схемы открыты для диалога и готовы изменить спецификацию набора таблиц, чтобы она полнее соответствовала популяризаторским и просветительским нуждам.

___

§8 меморандума наших товарищей содержит довольно много специфических технических терминов, однако именно здесь ставится вопрос о связи оформления сайта и вообще механизма публикации гипертекстов с базой данных.

... <Понадобится> удобный рубрикатор или каталог книг, тем более, что он должен быть на нескольких языках, или что ещё принципиально, это тематические подборки, для пропедевтики и дидактики <...> которые по идее, должны быть взаимосвязаны с каталогом или фондом, но мы не понимаем, как это сделать технически. Логически, если будет создан фонд теоретической текстологической литературы на различных языках мира, то это облегчит работу. Но эту работу надо делать параллельно и клонировать её.

Приведённые строки содержат довольно много интересных и важных для использования текстологического фонда идей. Вот, скажем, каталог книг легко может быть автоматически сформирован в многоязычную таблицу вроде https://www.marxists.org/xlang/lenin.htm на основе таблицы «Laboroj» с добавлением перевода названия на запрошенный пользователем язык.

Как в таком случае организовать рубрикатор? Это тоже не составит большой трудности, если внедрить в базу данных таблицу-рубрикатор. Первая и недопустимо узкая реализация рубрикатора может быть представлена как таблица, где каждому UUID относящемуся к конкретному произведению будет сопоставлено название рубрики. В этой таблице из двух полей вполне естественно можно повторять один и тот же UUID произведения несколько раз вместе с разными названиями рубрик и наоборот, название рубрики в связи с несколькими произведениями. Однако многоязычный рубрикатор не может быть реализован единственной таблицей. В этом случае должен быть сформирован 1) каталог рубрик из единственного свойства типа UUID, 2) таблица переводов названия рубрики, где этот UUID упоминается вместе с текстом названия и кодом языка, а также 3) таблица рубрикации, где UUID рубрики упоминается рядом с UUID оригинальной работы (UUID переводных работ можно не упоминать).

Тематическая подборка может быть реализована как рубрика с особым смысловым положением однако без какого-либо технологического отличия от обычной рубрики.

Завершается меморандум наших товарищей указанием на важнейшую роль международного текстологического проекта:

Логически, если будет создан фонд теоретической текстологической литературы на различных языках мира, то это облегчит работу. Но эту работу надо делать параллельно и клонировать её.

Положение о параллельном14 наполнении и клонировании (копировании? объединении? резервировании? вероятно, товарищи правильно подразумевают всё и сразу) действительно принципиально для базы данных, созданной по FZR-схеме. Широкое использование UUID вместо целочисленных кодов, которое является характерной особенностью схемы Фроша-Загорского-Радкевичюте призвано обеспечить именно то, что независимо составленные базы данных, содержащие разные произведения смогут максимально безболезненно объединиться в единую международную базу данных так, что единожды данные коды абзацев, примечаний и иных подобных элементов не будет уже меняться15. Поэтому пока не существует инфраструктуры единой международной базы данных по схеме Фроша-Загорского-Радкевичюте, пока нет международного хранилища, пока нет его текстологической и программистской команды, остаётся только создавать фрагменты будущего единого текстологического фонда для местного применения. Их совместимость и результативность вложенного труда гарантируется тем, что везде соблюдается единый порядок заполнения таблиц, перечень которых устанавливается в действующей спецификации схемы Фроша-Загорского-Радкевичюте. Эта спецификация достаточно гибкая для того, чтобы, даже в случае отсутствия серверных хранилищ, быть реализованной даже в SQLite файле16, который сможет быть загружен в единый общий текстологический фонд без остатка.

За работу!

Продолжение следует

___

1. Даталогия от нем. Daten - математическая наука о зависимостях данных, исследующая способы их выражения в формальных структурах, имеющих под собой самое разное техническое основание. Решающий вклад в обособление даталогии внёс Эдгар Кодд, выделивший понятие схемы данных - TC.

2. Меморандум - документ, выражающий достигнутое взаимное понимание или указывающий меру согласованности усилий - Ред.

3. В настоящий момент текстологическая работа фактически деградировала до нерегулярного составления фотокопий, хотя была начата с формирования pdf , стандартизованных специальной комиссией Студенческого Круга Философии Марксисткой. Подробнее см. по хронологии на http://marksizm.edu.pl/ - TC.

4. Это хорошо видно по историческому примеру столетней давности (искать по словам «издательской программы») - Ред.

5. Marek Jan Siemek, Dlaczego Sokrates?

6. Сторонники шовинистических и устаревших кодировок вроде кодировки 1250 или кодировки 1252 до сих пор присылают различные возражения. Мы отказываемся рассматривать их впредь. Меньше двух недель назад текстологическая комиссия в ответ на вопрос, представимы ли такие фундаментальные ленинские произведения как «Материализм и эмпириокритицизм» или «Тетрадки по философии» в кодировках, отличающихся от Уникода, ответила - нет. Обоснованием являются символы дробей, стрелок, удвоенных восклицательных знаков, частые знаки французской и немецкой диакритики, несовместимой с чешским, польским, российским, украинским латышским или литовским текстом в любой из кодировок 1250-й серии - TC.

7.Подготовка к созданию нормализованных критических гипертекстов некоторых ленинских работ на литовском языке привела к необходимости осмысления полного текстологического цикла, то есть всей последовательности работ от создания постраничных фотокопий до размещения проверенных абзацев в базе данных. По причине широчайшего технического охвата указанных работ для произведений на литовском языке, эта последовательность условно названа «циклом Радкевичюте». Связанное понятие - т. н. короткий текстологический цикл или в жаргоне «цикл Стрэнбского», который основан на наличии распознанного и относительно связного текста, то есть предполагает относительно слабую связь с фотокопиями - TC.

 8. Англоязычная подробная справка вызывается командой «man tesseract» - Ред.

9. Таблица «Абзац -полигон» отсутствует в диаграмме, поскольку ещё не была реализована. В общем случае она хранит в себе адрес исходного файла, четыре координаты полигона, принадлежащего абзацу в этом файле и UUID самого абзаца, то есть полученного текста. В такой формулировке один абзац может быть связан с несколькими полигонами. - TC.

 10. Англоязычный намёк на существующие средства проверки по словарю https://stackoverflow.com/questions/20888326/using-aspell-library-in-java.

 11. Сравнение качества предоставляемых словарей на указанных языках при подготовке этого очерка не производилось- TC.

 12. Полиграфические таблицы являются наиболее проблемным элементом для выражения в гипертексте. В настоящий момент в Германии признано, что таблица должна рассматривать аналогично отдельному абзацу авторского текста, а её структура воспроизводится переводами вручную. В пользу этого способа текстологической работы говорит только лишь относительная редкость таблиц в классических прозведениях, однако этот аргумент перевешивает прочие- TC.

 13. Пример. Реальная команда, используемая при переводах для полонизации украинских собственных имён. Вызов этой команды в терминале приводит к тому, что вводимые украинские имена выводятся близко к польскому написанию. Посредством перенаправления возможна автоматическая обработка файлов до нескольких миллионов знаков в секунду. В данных командах важен порядок замены букв - сначала идёт замена частных случаев, потом по более общим правилам.

sed -e "s/ль/l/g;

s/зь/ź/g;

s/нь/ń/g;

s/ць/ć/g;

s/сь/ś/g;

s/ь//g;

s/ш/sz/g;

s/ч/cz/g;

y/абвгджзійклмнопрстуўфцыэґи/abwhdżzijkłmnoprstuŭfcyegy/;

s/щ/szcz/g;

s/х/ch/g;

s/ ю/ ju/g;

s/ я/ ja/g;

s/ е/ je/g;

s/ ё/ jo/g;

s/ є/ je/g;

s/ю/iu/g;

s/я/ia/g;

s/є/je/g;

s/е/e/g;

s/ї/ji/g;

s/łia/la/g;

s/łiu/lu/g;

s/łie/le/g;

s/łio/lo/g;

s/łi/li/g";

14. Очевидно, первоочередные направления текстологической работы зависят от обстановки на национальном театре классовой борьбы. Так, от российских товарищей ожидается текстологическая база в виде оригиналов работ Ленина и Чернышевского. Украинские товарищи вполне могут считать первой значительной текстологической задачей публикацию двуязычного соответствия «Диалектики эстетического процесса» А. С Канарского, затем «Всеобщей теории развития» В. А. Босенко и «Диалектики» М. Л. Злотиной. К сожалению, как правильно отмечено в меморандуме, действительность такова, что сформировалось уже целое поколение украинских граждан, для которого оригиналы работ Чернышевского и Босенко представляют лексическую трудность. Впрочем, соответственно падению промышленности, на Украине упала стилистика всех употребляемых языков - TC.

15. Однако понадобится выбрать единственный UUID для каждого указанного автора, издательства и бумажного издания - TC.

 16. В настоящее время ожидаются пробы размещения небольших работ в базе данных FZR-схемы, которую реализует SQLite файл. Официального описания FZR-схемы в виде команд SQL для SQLite в настоящее время не существует - TC.

 

теория образование