Alex Yu. Pyt'yev (pytyev) wrote,
Alex Yu. Pyt'yev
pytyev

Электронная библиотека «История Росатома», технические комментарии


Оригинал взят у russhatter в Электронная библиотека "История Росатома", технические комментарии
Предыдущий пост был о предмете, теперь о подходе. О том, что такое "Электронная Библиотека" вообще.
Хотите - считайте этот пост рекламой. Хотите - вводной статьёй.


* * *
Электронная библиотека - это не просто набор книг, это специализированная база данных. Функционал информационного комплекса разбивается на три компоненты:
1. Возможность читать материалы в удобном виде
2. Возможность искать по материалам
2'. Возможность видеть результаты поиска в режиме просмотра - подсветка найденного.
3. Возможности навигации - удобного перехода между материалами

* * *
Собственно, все эти три пункта (с добавкой 2') - и есть главное. И все они - главные. Из этого следует:
* если вы закачаете в свою какую-нибудь читалку много каких-нибудь разных книжек, у вас получится не электронная библиотека, а свалка книжек, в которых вы с трудом сможете разобраться, чуть только число книжек перевалит за какой-то порог, который Вы можете удержать в памяти - а это низкий порог
* если у вас есть куча отсканированных книжек, и вы можете их читать и читать - я вас поздравляю, но искать по ним вы не сможете, нужен текст
* если наоборот у вас есть куча электронных текстов, то... далеко не всегда вы сможете разобраться, что же и как написано в книжке, с которой эти тексты вбивались/распознавались в компьютер, нужны картинки страниц (если для беллетристики это не проблема, то для сколь-нибудь технических текстов, при появлении таблиц, иллюстраций, формул -.. это обстоятельство часто обессмысливает всю оцифровку)
* уже лет 10-20 в компьютерных технологиях мы имеем ситуацию, когда одну-две-три любимых книжки перевести в электронный вид может (почти) каждый, а вот сделать полноценный массив текстов - кошмарно тяжело
* наконец, если у вас имеется куча материалов в разнообразных форматах - я вас тоже поздравляю, но до большей части информации, которую вы накопили, добраться быстро у вас нет никакой возможности; по миллиону разных причин, вызванных разнообразием форматов, качества подготовки и всего прочего.

Выход - делать электронные библиотеки, в которых подготовка материала регламентирована и даёт определённые гарантии качества результата при заранее определённом уровне затрат. При этом учтите: уровень компьютерных технологий на сегодня не позволяет получать приемлемое качество результата без применения ручного труда, по крайней мере некоторые из операций подготовки могут быть выполнены только автоматизированно, а вовсе не автоматически. То есть, говоря простыми словами: это стоит приличных денег, и никакие не три копейки за книжку.

* * *
Мы готовим книжки в комбинированном формате - в принципе, это примерно то же, что научились делать уже больше 10 лет назад в Google Books и в средствах продажи в компании Amazon. Другое дело, что а) что-то за эти 10 лет не видать, чтобы этот подход распространился, по крайней мере в электронных библиотеках; б) у нас практикуется технология с существенно более высоким уровнем ручной работы квалифицированных редакторов - соответственно имеется реальные возможности по контролю качества результата. (Для продаж современных книг, как в Amazon, это всё не актуально, но для изданий XX века, и подавно для более ранних, это очень существенно.)

(Замечание. Выше сказано много утверждений, про которые можно спорить и оспаривать. Особенно это интересно тем, кто мало об этом спорил - а я вот много раз участвовал в таких спорах, и мне надоело. Всегда одно и тоже: да, есть миллион технических деталей, где-то что-то проходит, где-то что-то делается проще или мощнее - но тут тоже нужны оговорки... Ещё люди очень любят формулировать, что же они сами понимают под словами "электронная библиотека". И вариантов этого понимания очень много, и мало из них, извините, по делу: есть другие задачи, связанные с книжками, которые можно решать на том же компьютере, но они вовсе не обесценивают главную для меня и любимую задачу, которой я с перерывами занимаюсь уже 20 лет. В целом же - сколько хотите обвиняйте меня во вкусовщине, я принимаю эти попрёки - я всё-таки не соврал, с моей колокольни всё обстоит примерно так, как я сказал.)

* * *
Итак, комбинированный формат - это когда вы можете 1) читать книжку в самом аутентичном виде изображений страниц, 2) искать по текстам в этих книжках и 2') видеть подсвеченные в результате поиска места на страницах книжек.

В-общем, это именно то, что мы теперь умеем делать хорошо. У нас для этого есть технология.
Мы сделали на этой технологии Электронную Научную Педагогическую Библиотеку, сейчас вот открываем Электронную библиотеку "История Росатома".

И, надеемся, будем и дальше работать на этом поле. Тем, предметов - не просто много, их море. То только - ну, надеюсь, вы поняли - это всё незабесплатно. Это - довольно тяжёлый и утомительный труд. И если у вас есть идеи, где бы найти ресурсы на доброе дело - а то, что оно доброе, это даже не вопрос - заходите к нам на огонёк.

Разумеется, со временем, мы что-нибудь сделаем и с нашим самым любимым и самым почтенным детищем - ФЭБ. Надо только понимать, что это - действительно очень большая электронная библиотека, и перевести её в новый формат - задача действительно тяжёлая и масштабная. Когда-нибудь мы её решим.

* * *
Мой личный вклад в проект по атомной истории - весьма скромен. Моя команда трудилась эти полгода во всю - на программных средствах, которые я делал ранее. Кое-что, безусловно, для этого проекта я сделал, но довольно немного. Ну, а то, что я делаю сейчас - надеюсь, со временем тоже будет использовано. Довольно тонкое это дело - разрабатывать технологии, на которых потом разрабатывают проекты...

Tags: 2015, electronic libraries, rosatom, technology
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments