![]() |
(тезисы)
А.Б. Антопольский, Е.И. Козлова, Информрегистр, Москва
“Проблемы инвентаризации цифровых ресурсов в культуре и науке”
В последние годы в России происходит быстрый количественный цифровых библиотек, создаваемых, как путем оцифровки имеющихся у владельцев традиционных документов, так и сбора электронных документов. Часто эти методы формирования фондов цифровых библиотек пересекаются, поэтому вопросы инвентаризации цифровых массивов следует решать комплексно независимо от технологии их формирования.
Учет и инвентаризация цифровых массивов, в том числе в сфере образования, науки и культуры, является предметом ряда российских и международных проектов. Назову некоторые их них:
Кроме того, в инициативном порядке многие владельцы интернет-порталов и сайтов ведут каталоги цифровых библиотек, представленных в интернете. Число таких каталогов в российском интернете - несколько десятков, крупнейшие из них включают 200 и более ссылок или описаний ресурсов.
Число цифровых библиотек (включая полнотекстовые базы данных), представленных в Государственном регистре баз и банков данных, превышает тысячу.
Запланированное на конец этого года число описаний цифровых массивов в сфере науки в каталоге навигационной системы составляет 4 тыс.
Учитывая неполное пересечение существующих каталогов, общее количество в России цифровых библиотек в сфере образования, науки и культуры по состоянию на начало 2004 г. можно оценить как минимум в 3-5 тыс.
Необходимость инвентаризации существующих цифровых массивов ни у кого не вызывает сомнений. Однако эффективность всех указанных проектов резко снижается из-за отсутствия координации и управления деятельностью по учету и инвентаризации, включая методическое обеспечение и стандартизацию в данной области. До сих пор ни одно ведомство не брало на себя ответственность за деятельность в сфере цифровых библиотек вообще и по их учету в частности. НТЦ “Информрегистр”, являясь профильным учреждением в данной сфере, пытается выполнять функцию координации, однако наше влияние ограничивается проектами, в которых мы принимаем непосредственное участие. Как будет выглядеть управление проблематикой электронных библиотек в свете административной реформы, остается только гадать.
Одной из центральных проблем является отсутствие правовых и экономических механизмов, стимулирующих владельцев и создателей цифровых библиотек предоставлять для учета сведения о создаваемых цифровых массивах. Учитывая, что значительная часть этих массивов (70-90 %) не представлена в Интернете, провести инвентаризацию можно, только получая необходимые сведения от владельцев или заказчиков. Наш богатый опыт в этой области показывает, что получить эти сведения крайне сложно. Хотя есть и несомненные достижения. Так, РФФИ предоставил нам полные сведения о финансируемых им проектах, предусматривающих создание цифровых массивов, РГНФ выразил согласие предоставить эти сведения. На приемлемом уровне ведется учет цифровых массивов в системе Росархива и некоторых других ведомствах, а также в ряде регионов.
Наиболее сложная ситуация в этом смысле сложилась в системе РАН и научно-образовательных учреждениях. Большая самостоятельность подразделений научных и учебных институтов в поиске источников финансирования своих проектов привела к тому, что во многих институтах отсутствует даже внутренняя система учета ресурсов. Например, уже много лет ведутся разговоры о проведении учета цифровых массивов МГУ, но практически работа так и не начата. Фактически необходимо добраться до каждого руководителя лаборатории или кафедры и убедить его провести учет цифровых массивов. Понятно, что силами узкого круга каталогизирующих структур сделать это невозможно.
Одной из причин данной ситуации является нерешенность правовых вопросов, связанных с собственностью на создаваемые массивы и правами на распоряжение ими. Не секрет, что многие массивы цифруются без согласия обладателей авторских прав. Весьма запутан вопрос о соотношении прав государства, учреждения и физических лиц, реально создавших массив. В настоящее время мы работаем над методикой определения прав на цифровые массивы, но вопрос оказался весьма сложным.
Наряду с организационными и правовыми вопросами учета цифровых массивов. имеется множество нерешенных методических проблем. Назовем некоторые из них.
Если мы говорим о цифровых массивах в сфере образования, науки и культуры, то возникают проблемы определения границ этой сферы по тематическому и видовому признаку. Например, насколько входят в эту сферу массивы правовой информации, массовой информации (новостные сайты, газетная информация, развлекательная информация), различные специальные виды документов, циркулирующих в бизнесе, геологии, метеорологии, проектно-технологическая документация.
Также необходимо определить состав структурных типов цифровых массивов, являющихся объектом учета. Наряду с общераспространенными коллекциями текстовых и графических файлов, в том числе в виде электронных журналов и сборников, мы имеем базы данных, хранилища данных, электронные карты в составе ГИС, массивы аудио и видео данных, разнообразные мультимедийные продукты, и конечно, массивы документов, встроенные в различные программные приложения. Актуальной проблемой является определение как объектов учета веб-сайта и разделов сайта.
Еще одной важной методической проблемой является проблема идентификации цифровых массивов, связанная в частности, с вопросами экземплярности, дублирования и пересечения массивов. При каких условиях можно считать данный массив “тем же самым” или другим, самостоятельным массивом? Например, чрезвычайно распространенные информационно-правовые системы по составу документов пересекаются очень значительно, при этом существенно различаясь по функциональности, лингвистическим средствам, способам организации.
Проблема идентификации массивов осложняется также различными способами организации массивов. Например, многие цифровые библиотеки хранят полные тексты периодических изданий (газет и журналов). Однако в одних случаях мы имеем единую базу данных, в других – по каждому периодическому изданию формируется отдельная база данных, в третьих – отдельные базы данных формируются по хронологическому принципу. Можно, конечно, игнорировать эти факты, но тогда результаты учета будут значительно менее качественные.
Центральным методическим вопросом учета, является, безусловно, выбор системы метаданных для описания цифровых массивов. Понятно, что выбирать нужно из систем, регламентированных международными стандартами. Однако таких систем, как универсальных, так и ориентированных на отдельные виды массивов, насчитывается сейчас уже более 50 (см. например, каталог систем метаданнных на сайте elbib.ru). Наиболее перспективным нам представляется Дублинское ядро метаданных, однако далеко не все специалисты разделяют эту точку зрения. В среде библиотечного сообщества более популярен MARC, в образовательной среде - LOM, в музейной среде - CIMI, архивной –EAD и т.д. Кроме того, даже в рамках Дублинского ядра возможны различные версии, определяемые различным набором квалификаторов, различными методическими принципами и др. Однозначного решения этой проблемы не существует, хотя наиболее приемлемым выходом из положения представляется применение иерархии систем метаданных, в которой вершину образует Дублинское ядро, как наиболее общая система. Другие системы метаданных, могут занимать являться иерархическим развитием Дублинского ядра, что обеспечит однозначное конвертирование метаданных в одну сторону.
Даже независимо от выбранной системы метаданных в процессе инвентаризации необходимо выбрать тематическую классификацию. Не требует доказательств, что мониторинг состояния цифровых библиотек возможен только на базе единой тематической структуры. Все с этим согласны, однако вопрос упирается в то, какую именно классификацию следует выбрать. В тех проектах, в которых участвует НТЦ “Информрегистр” в качестве тематической классификации цифровых массивов выбран Рубрикатор ГРНТИ. Однако его применение также не является общепринятым. Данная проблема относится к числу вечных в информатике и все возможные пути ее решения известны, причем ни один не является оптимальным.
То же самое относится к другим классификаторам и словарям, применяемым для описания цифровых массивов. В некоторых случаях выбор помогает сделать наличие международного или национального стандарта, а также общероссийского классификатора. Это относится, например, к кодам стран, языков, органов власти и др. В других случаев применения различных словарей или способов нормирования лексики избежать не удастся.
Специфической проблемой для инвентаризации цифровых массивов является выбор метрики для измерения объема массива. Как известно, в разных информационных субкультурах (библиотечное дело, НТИ, архивное дело и др.) применяются различные единицы измерения для оценки величины фондов, поскольку используется различное понимание единицы учета (издание, произведение, документ, дело). В принципе применять для оценки объема библиотеки подобные логические единицы необходимо, однако для массивов, содержащих различные виды документов, оценки объема могут быть несопоставимы.
В электронной среде в качестве основного показателя в последние годы обычно используется физический объем массива (в байтах), хотя относиться к нему нужно крайне осторожно. Прежде всего, ни в коем случае нельзя суммировать объемы массивов, представленных в символьных или в графических форматах, хотя на практике это делается сплошь и рядом. Далее, говоря об объемах массива, представленного в символьных форматах, следует уточнять, идет ли речь о чистом тексте или размеченном на языке разметки или загруженном в СУБД. Объем в этом случае может изменяться в 2 раза или даже более. То есть теоретически правильно говорить об объеме чистого (визуализируемого) текста. В практическом же плане создатель ресурса редко утруждает себя разъяснениями, как именно он измерял свой массив.
Для массивов, представленных в графических форматах, критическим для определения объема является, во-первых, выбор формата, а во-вторых, степень разрешения. Опять-таки теоретически правильно оценивать объем массива, приведенный к объему в некоем стандартном формате (например, пересчитанный для формата JPEG) и стандартной степени разрешения. В противном случае оценки объемов введенной информации будут несопоставимы. Однако возникает вопрос: кто будет заниматься такими пересчетами?
Таковы в самых общих чертах проблемы инвентаризации цифровых массивов. Понятно, что все они могут решаться только в определенном приближении и при участии не только составителей каталогов, но и всего информационного сообщества. Специалисты НТЦ “Информрегистр” готовы принять участие в обсуждении указанных проблем и любых разумных действиях по их практическому решению.
|
|