Вернуться на главную страницу

Что не так с текстологией и как исправить ситуацию? Часть IV. Пример текстологического процесса

2019-05-11  Towarzystwo cybernetyczne Версия для печати

Что не так с текстологией и как исправить ситуацию? Часть IV. Пример текстологического процесса

Введение

Этот очерк помимо нескольких вопросов, пришедших от разных товарищей, посвящён разбору конкретного (притом весьма типичного) текстологического процесса над источником, указанным в вопросе №15 из предыдущей части этой серии. Повторим этот вопрос.

Вопрос 15: Как произвести занесение конкретного тома ленинских работ (например, http://uaio.ru/vil/33.htm) в базу данных, реализующую FZR-схему?

Полноценный ответ на этот вопрос требует, во-первых, детального раскрытия текстологических свойств конкретного источника, и, во-вторых, формирования группы SQL команд, порядок которых можно считать типовым. Читатель, не знакомый со сферой текстологической оценки, должен будет уловить преимущественно порядок заполнения сведений в SQL. Этот принцип более важен, чем текстологическая оценка; хотя бы потому, что порядок формирования базы данных не сильно отличается для источников в разных формах и на разных языках, а, значит, будет полезен также для понимания принципов международной текстологической работы.

Пример анализа текстологических свойств источника

Источником в нашем случае выступает гипертекст с публичным адресом http://uaio.ru/vil/33.htm. Какие особенности источника нужно рассмотреть в первую очередь? К сожалению, на этот вопрос нет никакого стандартного ответа. Текстология ориентируется в отношении произведений Нового Времени на содержательную полноту, понимаемую как точную передачу авторских особенностей. Если речь идёт об академическом гипертексте, то должна быть соблюдена и формальная полнота, проявляющаяся в заимствовании аппарата из наиболее авторитетного издания а также во вспомогательной разметке страниц. Посмотрим, как обстоит дело с полнотой источника.

С точки зрения формальной полноты представленный источник был подвергнут сравнению с польским изданием «Włodzimierz Lenin Dzieła wszystkie, tom 33» (в фотокопии см. http://marksizm.edu.pl/wydawnictwa/klasyka-mysli-marksistowskiej/wlodzimierz-i-lenin/dziela-wszystkie-tom-33/ ). Сравниваемый российский источник, поскольку он не является фотокопией, имеет более высокое качество. С точки зрения состава текстов русский и польский варианты ничем не отличаются. Аппарат 5-го издания ленинских сочинений на языке оригинала в рассматриваемом источнике заимствован. Также воспроизведена страничная структура. Однако, что касается авторского текста, то содержательная полнота принесена в жертву формальной. Авторский текст сильно разбавлен страничными отметками с линейками, что разрывает цитаты и нарушает поиск словосочетаний-цитат, если они попадают на границу страниц.

 

Оценка титульной части

Проведём конкретный анализ гипертекста. Его титульная часть выглядит так:

<HTML>

<HEAD>

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">

<meta http-equiv="Content-Language" content="ru">

<link rel="stylesheet" type="text/css" href="vil55.css">

<TITLE>Ленин ПСС издание 5 том 33</TITLE>

</HEAD>

<BODY>

В титульной части можно обнаружить языковую метку «content="ru"», что позволяет добраться до стандартного трёхбуквенного кода через каталог языков. Это безусловное достоинство.

Рядом есть ссылка на таблицу оформления «<link rel="stylesheet" type="text/css" href="vil55.css">». В действительности таблица эта весьма скромная и отнюдь не полностью охватывает способы оформления, заимствуемые из печатного издания. Однако никакое значительное искажение авторского текста из этого не происходит.

Достоинством является вынесение названия документа в подпись гипертекста: «<TITLE>Ленин ПСС издание 5 том 33</TITLE>».

Несомненным недостатком является применение шовинистической системы кодирования «charset=windows-1251"». Немецкие текстологи не позднее 2002 года доказали, что эта кодировка непригодна для воспроизведения ленинских сочинений. Своей ненужной национальной ограниченностью и архаичностью она лишает нас возможности изучать, например, ленинский конспект одного французского популяризатора наследия Гегеля. Нужных символов для французских слов в этой кодировке нет. Нет в ней двойного восклицательного знака и знака «½». Точнее не просто нет, а не было, нет и никогда не будет, как и в других архаически-шовинистических кодировках типа №1251 (латышско-эстонская?) или №1250 (польско-чешско-словацкая). Разумеется, архаичные и шовинистические кодировки для воспроизведения классических работ - это не российская особенность, но здесь хочется попросить российских товарищей не уподобляться ни польским текстологам 2001 года, ни чешским текстологам 2003 года, которые с применением архаической и шовинистической кодировки №1250 воспроизвели некоторые ленинские сочинения по адресам https://www.marxists.org/cestina/lenin/1917/041917t.html и https://www.marxists.org/polski/lenin/1917/07/10zryw.htm. С кучей архаических шовинистических кодировок не только невозможно полноценно воспроизводить классические тексты (авторы которых не признавали ограничения местным набором букв и знаков), но и нельзя координировать международные работы без изрядной квалификации в программировании. Международная кодировка Уникод ныне уничтожила для языков Европы проблему недоступных символов, которая осталась актуальной лишь для некоторых редких алфавитов в Индии. В отношении популярных алфавитов и популярной пунктуации теперь Уникодом каждому гарантируется возможность прочтения оригинала без искажений. Для ссылки между разными языковыми вариантами ленинских сочинений или для параллельного текста всякие иные варианты неприменимы в принципе.

 

Оценка образца внутренностей

Разбираемый образец охватывает несколько первых страниц. Все остальные построены на основе тех же самых особенностей. Приводимому ниже коду гипертекста точно соответствуют первые авторские страницы по адресу http://uaio.ru/vil/33.htm#s1 .

<P><HR><A NAME=s0> </A><A NAME=s1> </A><P ALIGN=CENTER>1

<H2 ALIGN=CENTER>ГОСУДАРСТВО И РЕВОЛЮЦИЯ</H2>

<H3 ALIGN=CENTER>УЧЕНИЕ МАРКСИЗМА О ГОСУДАРСТВЕ И ЗАДАЧИ ПРОЛЕТАРИАТА В РЕВОЛЮЦИИ <A HREF="#p1"><SUP>_1</SUP></A></H3>

 

<P><TABLE WIDTH=96%><TR ALIGN=CENTER><TD WIDTH=45%><SMALL>

Написано в августе - сентябре

1917 г.; § 3 главы II - ранее

17 декабря 1918 г.

<P>Напечатано в 1918 г.

в Петрограде отдельной книгой

издательством &laquo;Жизнь и знание&raquo;

</SMALL><TD><TD WIDTH=45%><SMALL>

Печатается по рукописи, сверенной с текстом книги, изданной в 1919 г.

в Москве - Петрограде издательством &laquo;Коммунист&raquo;

</SMALL></TABLE>

<P><HR WIDTH=15%>

 

<P><HR><A NAME=s2> </A><P ALIGN=CENTER>2

<P ALIGN=CENTER>Первая страница рукописи В. И. Ленина &laquo;Государство и революция&raquo;. - Август - сентябрь 1917 г.

<BR>Уменьшено

 

<P><HR><A NAME=s3> </A><P ALIGN=CENTER>3

<H3 ALIGN=CENTER>ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ</H3>

<P ALIGN=JUSTIFY>Вопрос о государстве приобретает в настоящее время **** Передовые страны превращаются - мы говорим о &laquo;тыле&raquo; их - в военно-каторжные тюрьмы для рабочих.

<P ALIGN=JUSTIFY>Неслыханные ужасы и бедствия затягивающейся войны делают положение масс невыносимым, усиливают возмущение их. Явно нарастает международная пролетарская революция. Вопрос об отношении ее к государству приобретает практическое значение.

<P ALIGN=JUSTIFY>Накопленные десятилетиями сравнительно мирного развития элементы **** ибо большинство так называемых великих держав давно эксплуатирует и порабощает

 

<P><HR><A NAME=s4> </A><P ALIGN=CENTER>4

<BR>В. И. ЛЕНИН

<P ALIGN=JUSTIFY>целый ряд мелких и слабых народностей. А империалистская война **** ига капитала, в ближайшем будущем.

<P ALIGN=RIGHT><i>Автор</i>

Итак, попробуем разобраться, как ленинский авторский текст связан с цитируемой разметкой.

Начало авторской страницы №1 отмечено как <A NAME=s1> </A>, а начало авторской страницы №2 как <A NAME=s2> </A>. Сам факт наличия постраничных ссылок, являющихся пробелами образует весьма удобную базу для справочного цитирования бумажного оригинала и сверки фотокопий (если они будут когда-либо загружены при работе по варианту Радкевичюте). Список всех страниц книги (из предисловия и авторских) подлежит занесению в таблицу "Libroj - paĝoj". Предварительно должна быть описана с указанием авторства и издательства вся книга. Упоминание самого тома будет во всякой записи о странице происходить как присутствие UUID всей книги в каждой соответствующей записи из таблицы "Libroj - paĝoj".

Место смены страниц передаётся хуже всего при работе с имитациями бумажных изданий. Так за отметкой о смене страницы, которая уже известно читателю, стоит повторение номера страницы прямо в гипертексте : «<P ALIGN=CENTER>2». Эта цифра, делающая смену страниц явной, означает, что абзац, прерванный страницей, никогда не будет найден как цельная цитата в какой-либо поисковой системе. Если же страница разрывает переносом слово, то и оно не будет найдено среди окружающего авторского текста. Присмотримся ещё раз к одному уже цитировавшемуся фрагменту:

... порабощает

<P><HR><A NAME=s4> </A><P ALIGN=CENTER>4

<BR>В. И. ЛЕНИН

<P ALIGN=JUSTIFY>целый ряд ...

Имитация бумажного издания, выражающаяся в центрированной надписи «<BR>В. И. ЛЕНИН» вблизи чётного номера авторской страницы и названия работы вблизи нечётного номера страницы абсолютно излишня. Она не выражает ни авторский текст, ни необходимый справочный аппарат, а потому подобные надписи должны быть безжалостно проигнорированы при составлении базы данных. Однако преобразование на стыке страниц доставляет немало хлопот. Товарищами было задано несколько вопросов.

Вопрос: Как представить абзац на стыке страниц?

Ответ: В таблице "Paragrafoj - paĝoj" код абзаца упоминается два раза, рядом с кодом одной страницы и рядом с кодом следующей страницы.

Вопрос: Как хранить в схеме Фроша-Загорского-Радкевичюте место разрыва страниц?

Ответ: FZR-схема оставляет этот вопрос открытым. Заседание Товарищества выявило несколько возможных способов решения проблемы.

1. Сохранение гиперссылок с номером страницы на первую букву или первый пробел новой страницы. Цитированный фрагмент внутри одной из записей таблицы абзацев будет выглядеть так:

... порабощает<A NAME=s4> </A>целый ряд ...

Недостатком этого способа является избыточность номеров страниц, которые, помимо таблицы "Libroj - paĝoj", повторяются в хранимом гипертексте. При условии того, что авторский текст не меняется такие гиперссылки принципиально допустимы, хотя похожи на избыточные.

2. Внедрение непечатного символа, который игнорируют алгоритмы поиска. В таком случае алгоритм формирования эталонного гипертекста обнаруживает этот символ и заменяет его на наименьший номер страницы, который извлекается для абзаца, следующего за данным. Таблица Уникода содержит довольно много непечатных символов, которые игнорируются популярными поисковиками. Выбор конкретного универсального символа должен быть согласован со знатоками этой таблицы (эта задач пока что не решена).

 

3. Полное уничтожение в хранимом абзаце следов смены страницы. Цитированный фрагмент внутри одной из записей таблицы абзацев будет выглядеть так:

... порабощает целый ряд ...

Однако при этом в таблице "Paragrafoj - paĝoj"создаётся необязательное свойство для указания позиции первого символа страницы в данном абзаце. У абзацев из середины страницы это свойство оставляется без заполнения.

Описание общего алгоритма разложения источника текста в базу данных

1. Ручным способом вводятся в разные таблицы сведения об издательстве, авторе и книге. Помимо времени жизни и расположения издательства это обязательные названия и имена на эсперанто и рекомендуемые на мировых языках теоретического мышления - deu, rus, esp. В результате база данных даёт UUID конкретной бумажной книги, который будет использоваться далее во всех уместных случаях.

2. Для известного кода книги формируется список страниц, повторяющий бумажное издание. Номерами страниц заполняется исключительно таблица "Libroj - paĝoj". Каждая страница получает свой UUID. В каждой записи о странице указана к какой книге она относится.

3. По довольно сложным признакам определяется начало авторской работы. Эти признаки абсолютно нестабильны и сильно зависят от источника гипертекста. Авторская работа понимается как блок авторского текста с авторскими предисловиями и послесловиями. В нашем случае признаком начала работы будет разметка: «<H2 ALIGN=CENTER>ГОСУДАРСТВО И РЕВОЛЮЦИЯ</H2>». Главы и другие единицы внутри авторской работы не получают никакого специального выражения, отличающегося от того, что уже есть в большинстве гипретекстов-источников. Схема Загорского-Фроша-Радкевичюте не хранит внутренних оглавлений работ, хотя и не затрудняет их полностью автоматическое составление.

4. Получив название работы, программа для размещения в базе данных должна потребовать обязательного перевода названия работы и её подзаголовков на эсперанто и, в случае с ленинскими сочинениями, обязательного перевода названия на немецкий и испанский языки. Это необходимо для того, чтобы позднее товарищи могли найти основу для сверки или составления переводов на эти мировые языки теоретического мышления. После занесения названий работы, её код из таблицы "Laboroj" будет сопровождать каждый составляющий её абзац.

5. Разбор абзацев и подтверждение их качества это наиболее трудоёмкая работа. Определитель абзаца должен уметь относить абзац к уже зарегистрированной ранее странице. Если же абзац примыкает к границе страниц, то пользователь должен иметь возможность вручную определить продолжается ли абзац на новой странице. Если абзац связан с двумя страницами, то этот факт тоже должен получить отражение. Если же на новой станице начинается новый абзац, то особенностей работы алгоритма не возникает.

6. В гипертексте абзаца идёт поиск ссылок на авторские и редакционные примечания. Их содержимое также помещается в таблицу абзацев как независимая цепочка абзацев. По результатам связывания в таблице "Paragrafoj - notoj" остаётся связь абзаца и первого абзаца в составе примечания к данному абзацу авторского текста. Примечания должны вручную размечаться текстологом как авторские или редакционные. Для этого в схеме Фроша-Загорского предусмотрено специальное свойство.

О результативности текстологической базы данных и её форме

Понимание текстологической работы вокруг схемы Фроша-Загорского-Радкевичюте именно на уровне базы данных принципиально именно потому, что результативность базы данных может принимать самые разнообразные формы. Помимо полуавтоматической подготовки бумажных изданий для печати это ещё поиск цитат, библиографических ссылок, облегчение новых переводов и наиболее лёгкая проверка качества и покрытия существующих, автоматический лингвистический и грамматический анализ и многое другое. Все эти разные виды библиографической и лингвистической работы значат весьма мало ровно до тех пор, пока не определена и не реализована сборка авторской эталонной формы гипертекста.

Как примерно выглядит эта форма? Должно быть понятно, что пользователь базы данных желает иметь дело либо с отдельной работой, либо с отдельной книгой. Поскольку библиотеку гипертекстов, вероятнее всего, реализуют для веб-сайта, то верхний блок со своими правилами оформления относится к сайту. Ниже начинается блок заголовков бумажного издания (если запрашиваемая работа имеет бумажную форму). Ещё ниже располагается блок заголовков конкретной работы. Ниже этого блока авторский текст со всеми особенностями оформления. Оформление блоков заголовков для книги и работы происходит по особым правилам и не подчиняется текстологической таблице стилей. Это легко понять, если вспомнить, что автор в общем случае не определяет особенности заголовка бумажного издания.

Как оформляются блоки заголовка бумажного издания и отдельной работы?

Заголовок книги начинается с алфавитного перечня авторов языком оригинала. Затем этот перечень повторяется на эсперанто другим цветом или уменьшенным шрифтом. Ниже идут поочередно перечни авторов на мировых языках теоретического мышления и на языке пользователя. Если языком оригинала является эсперанто, то текста со стилем особого названия на эсперанто не будет, если же работа создана на одном из мировых языков теоретического мышления (а для работ Ленина это справедливо), то соответствующий блок будет состоять из двух, а не трёх строк. Наконец, если пользователь предпочитает эсперанто или один из мировых языков теоретического мышления, то блок списка авторов на пользовательском языке, очевидно, не появляется.

За списком авторов следует блок разноязычных названий бумажного издания, где надписи следуют в том же самом порядке (оригинал->эсперанто->мировые языки теоретического мышления->пользовательский язык). Ниже названий указывается год издания и название издательства в том же самом языковом порядке для нескольких языковых вариантов.

Таким образом для бумажных изданий и названий работ устанавливается обязательный перевод на эсперанто и три указанных ранее мировых языка теоретического мышления. Для нескольких тысяч работ Ленина это выглядит непосильной задачей, но иного способа обеспечить быстрый поиск для международного сотрудничества в области текстологии и теории не существует. К сожалению современное теоретическое положение России таково, что изучение языка Ленина не является особенно популярным. Однако это дело может продвинуться, если в Германии или в США заинтересованные товарищи будут иметь как базу для новых переводов лучший академический гипертекст работ Ленина и Чернышевского. В таком случае, имея нечто с несомненным теоретическим значением для понимания современной общественной борьбы, товарищи из других стран будут иметь наибольшие побуждения к проникновению в оригинальные тексты и составлению переводов, а, значит, и к изучению языка Чернышевского и Ленина.

Как собирается блок авторского гипертекста?

Блок авторского гипертекста - это самый очевидный и самый ожидаемый результат работы текстологической базы данных. Этот блок всегда основан на структуре документа на языке оригинала. В общем случае пользователь указывает код документа на любом доступном языке и небольшой список языков для формирования параллельного текста. Даже при такой задаче формирования параллельной таблицы абзацев алгоритм оказывается довольно прост. Его основные этапы будут аннотированы ниже.

1. По коду работы определить работу-оригинал, являющуюся авторитетной основой для переводов (из таблицы оригиналов произведений). Может оказаться, что пользователь уже указал оригинальную работу.

2. Определить первый абзац оригинальной работы (из таблицы последовательности абзацев). Признаком первого абзаца является то, что он указан рядом с выбранным кодом оригинальной работы, но ни разу не упомянут как следующий за каким-либо (то есть отсутствует среди значений свойства Sekva). От первых абзацев многоабзацных примечаний первый абзац авторского текста отличается тем, что для него невозможно найти (в таблице абзацев-примечаний) исходного абзаца. То есть первый абзац авторского текста не является примечанием для какого-либо другого абзаца.

3. Для каждого абзаца оригинального текста собирается группа переводных абзацев в соответствии с указанным пользователем перечнем языков.

4. Для абзаца оригинального текста ищется следующий абзац и потом добавляется его текст и набор его переводов. Это повторяется до завершения авторского оригинального текста.

5. Формируется блок примечаний. Это формирование само по себе сложно для понимания тому, кто никогда не видел многоязычных книг. Однако интуитивно должно быть понятно, что по каждой группе абзацев-переводов собирается перечень примечаний, которые идут в ряд. Для авторских примечаний должно быть особо отмечено отсутствие их переводов, тогда как редакционные примечания без соответствия на других языках можно никак не обозначать. Если хоть к одному абзацу из полученных переводов есть примечание, то оно образует самостоятельный ряд в блоке примечаний. Примечания к другому абзацу или другой группе абзацев-переводов образуют другой ряд.

Вопрос о том, отделяется ли блок редакционных примечаний от блока авторских примечаний является спорным. В общем случае авторские примечания удобнее дать отдельным блоком с полным набором переводных соответствий, тогда как редакционные примечания нередко будут выглядеть разреженной таблицей в силу уникальности языковых условий и необходимых исторических пояснений.

Предложенный принцип разделения авторских и редакционных примечаний не имеет проверенного международного значения. Он подлежит уточнению и попыткам опровержения, поскольку пока что это всего лишь вывод из польской издательской традиции, в частности, применённый в сочинениях Ленина под редакцией Ярослава Ладоша.

Предложенный алгоритм для критической оценки полезно проследить по диаграмме связей таблиц в FZR-схеме:

Diagramme

____

 

 

Некоторые вопросы
(продолжение ответов)

Вопрос 25: Чем вызвано применение UUID вместо обычных кодов-номеров во всех изменяемых таблицах?

Ответ: Создавать и наполнять базу данных по FZ-схеме могут независимо один от одного разные люди, разные текстологические и/или самообразовательные группы. Отсутствие нумерации целыми числами облегчает объединение таких независимо наполняемых баз данных в единое хранилище общего результата, если для этого создадутся необходимые условия. Или, что тоже самое, устраняется значительная часть программистской работы по объединению баз данных так, что из задач общего программирования остаётся только поиск дубликатов в перечнях авторов/издательств/изданий/работ и прочих.

Вопрос 26: Чем обусловлен выбор PostgreSQL среди прочих программ, управляющих коллективными реляционными базами данных?

Ответ: Это решение было принято на мартовском (2016 г.) консилиуме в Берлине и соответствует местным техническим традициям. Отвечает т. Фрош:

«Рациональное обоснование, выдвинутое именно для PostgreSQL, состоит в наличии системы уведомлений, о которой сообщил небезызвестный depesz. В наших немецких условиях существует некоторая неприязнь программистского и кибернетического сообщества, которая определила направление на минимизацию программистского труда при работе с текстологической базой данных. Система сообщений, скрывающаяся за командами LISTEN и NOTIFY, позволяет значительно сократить вероятность конфликтов и ненамеренной перезаписи чужого результата обработки абзаца. Так, коды абзацев, с которыми ведётся работа могут рассылаться всем работающим в данный момент текстологам с тем, чтобы предупреждать о необходимости согласовать редактирование именно данных абзацев, поскольку кто-то ещё может создавать новый проверенный вариант текста. С точки зрения программирования система уведомлений это незаменимый способ инициировать событием в базе данных какие-либо уведомления или сообщения пользователю».

Вопрос 27: Чем обусловлен выбор языка эсперанто для названия объектов FZ-схемы?

Ответ: Это решение было принято на мартовском (2016 г.) консилиуме в Берлине. Отвечает т. Фрош:

«В наших немецких условиях существует некоторая неприязнь программистского и кибернетического сообщества. Я полагаю, что в целом сфера баз данных намного более демократична, чем сфера программирования, поскольку больше ориентирована на предметный смысл и меньше на технические особенности. Именно это на Консилиуме определило выбор названий объектов проектируемой текстологической схемы (ныне FS-схемы) на языке эсперанто. Преимущественными потребителями содержимого текстологической базы данных должны быть не программисты, а участники самообразования, то есть текстологи-любители. В различных графических программах-клиентах баз данных, переводимых обычно на родной язык, появляется необходимость отображать название таблиц и их свойств. Идея иметь несколько языковых версий или несколько языковых оболочек для базы данных не показалась здравой. Но понятность текстологам-любителям была необходима. На этом держали veto все иностранные участники Консилиума - из Латинской Америки, Франции, Польши, Чехии и Болгарии. Как не самая удачная (из-за лексического европоцентризма), но, безусловно, понятная и распространённая вспомогательная система был выбран язык эсперанто, обеспечивающий максимальную понятность, равную сложность и равную простоту для носителей трёх мировых языков теоретического мышления.

Эсперанто был выбран на Консилиуме (не получив ни одного veto) исходя из фактических мировых языков теоретического мышления и возможного добавления англоязычных и китайскоязычных товарищей. Эсперанто это отличная вспомогательная языковая система для наиболее быстрого изучения. Хотя лексика эсперанто далека от любой литературной китайской нормы, этот язык, несомненно, осваивается местными товарищами легче, чем любая другая сильно европеизированная лексическая система».

Вопрос 28: Как решается вопрос пользовательских надписей в текстологических программах, работающих с FZR-схемой? Где должны быть собраны названия библиографических свойств, надписи об отсутствии перевода и пр.?

Ответ: Самым логичным способом будет разместить комплекты переводов в специальной таблице баз данных «Mesaĝoj de programoj». Внутри таблицы разместить свойства «Kodo» тмпа uuid, «Lingvo» типа char(3) и «Teksto» типа text. Ключом таблицы объявляется UUID код сообщения вместе с трёхбуквенным кодом языка. То есть зная код сообщения и код языка можно найти текст. Суть использования таблицы весьма проста. При необходимости составлять сообщения для программ создаётся новый UUID, который записывается в свойство «Kodo» как минимум четырежды и связывается с текстами на эсперанто и трёх мировых языках теоретического мышления. Программисту, таким образом, нужно знать UUID сообщения, чтобы пользователю была дана надпись на запрошенном языке или на одном из имеющихся языков. Однако принципиально, что таблица «Mesaĝoj de programoj» никак не связана с текстологической работой, она носит независимый и справочный характер, облегчая составление и наладку многоязычных программ для программистов.

Вопрос 29: Почему в публикациях мало упомянуты проблемы текстологического разбора в базу данных письменного наследия Николая Чернышевского?

Ответ: Главным образом потому, что из 15 томов наиболее авторитетного бумажного издания едва ли больше двух томов покрыты приемлемым результатом распознания, не говоря о гипертексте, хотя бы и ненормальном. Таким образом, в отношении наследия Чернышевского российские текстологи освобождены разве что от утомительной необходимости делать фотокопии и получать первый вариант автоматического распознания. Остальные же текстологические работы ждут своих исполнителей. Сделать предстоит немало: сверить пунктуацию и исправить ошибки распознания, сверстать распознанные блоки текста в отдельные работы и, вместе с академическим аппаратом, создать каждой работе гипертекст, пригодный для публикации в базе данных. Все названные работы выходят за пределы того, что доступно западнее Днепра и Нарвы как по языковым причинам, так и по причинам трудоёмкости. Работа с письменным наследием Ленина, которое в целом уже неплохо нормализовано в текстологическом смысле, должна по указанным причинам (в сравнении с нормализацией произведений Чернышевского) рассматриваться как проба. Но так же, как важнейший участок получения лучшего теоретического наследия России всеми внешними для её самообразовательных сообществ товарищами.

Вопрос 30: Каковы легальные условия для текстологической работы над ленинским наследием?

Ответ: В континентальной Европе нам неизвестны случаи полицейских преследований за какую-либо текстологическую работу вообще и в отношении ленинского письменного наследия в частности. В некоторых штатах Индии, охваченных активной текстологической, переводческой и самообразовательной работой, работа с произведениями Ленина условно нелегальна. Очевидно, что местные товарищи должны будут обеспечить особые условия своей базе данных в том случае, если будут иметь желание и возможность вносить вклад. В континентальной Европе до сих пор допустима не только публикация результата текстологических работ в базе данных, но и гласная работа в ней, если иметь ввиду перспективу размещения письменного наследия Ленина и Чернышевского.

____

 

дискуссия