пятница, 24 декабря 2010 г.

Открытые электронные архивы в России по данным OpenDOAR.org

По данным OpenDOAR.org на территории России зарегистрированы  10 открытых электронных архивов. 
Название Электронного Архива
Организация
Количество статей
ПО
DSpace at Belgorod State University Белгородский государственный университет
75
Dspace
Elar at YarSU Ярославский государственный университет им. П. Г. Демидова
114
DSpace
Krasnoyarsk State University Repository (КрасГУ) Красноярский государственный университет
420
DSpace
Siberian Federal University Digital Repository
Сибирский Федеральный Университет
1106
DSpace
Tver State University Repository Тверской государственный университет
811
EPrints
Архив электронных публикаций Калининградский государственный университет
468

Соционет (Sotsionet) Центральный экономико-математический институт, Российская Академия Наук
2554

Электронный архив УрГУ Уральский государственный университет им. А.М.Горького
1119

Е-library of the Udmurt State University Удмуртский государственный университет

DSpace
OpenArchive@GSOM Высшая школа менеджмента, Санкт-Петербургский Государственный Университет
93
DSpace

На сайте OpenDOAR.org можно ознакомиться с различной статистикой зарегистрированных у них открытых электронных архивов:


 Вообще, можно заметить, что Россия только начинает своё участие в обмене информацией таким образом. Так же существует статистика с сайте roar.eprints.org (статистика по РФ), на нем зарегистрировано уже порядка 30 архивов.

пятница, 17 декабря 2010 г.

Новая версия DSpace 1.7

Из новшеств можно отметить:

  • Mirage XMLUI Theme - приятно выглядящее оформление, совместимое со всеми браузерами;
  • DSpace Discovery - улучшенная интерфейс поиска;
  • Archive Information Package (AIP) Backup & Restore process: позволяет делать бекапы в METS-based, AIP формат, можно использовать для переноса данных из DSpace в другую систему поддерживающую AIP формат;
  • Извлечение текста из презентаций PowerPoint для дальнейшего полнотекстового поиска;
  • Улучшена индексация метаданных и текста в PDF для Google Scholar.

с более подробным списком обновлений можно ознакомиться на официальном сайте DSpace
либо в блоге DuraSpace.

вторник, 7 декабря 2010 г.

Импорт данных DSpace

В DSpace предусмотрена система импорта данных, она достаточно проста, но как следствие и примитивна.
Вскоре мы подробно разберем каждый пункт импорта, а пока что разберем импорт данных на небольшом примере. Для начала структурировать файлы в следующей форме:
archive_directory/
    item_00/
        dublin_core.xml -- xml файл содержащий описание в форме дублинского ядра (далее DC)
        contents   --  список имен прилежащих файлов
        file_1.ext  -- собственно сами файлы
        file_2.ext
    item_01/
        dublin_core.xml
        ...
Рассмотрим возможное содержание файла dublin_core.xml:
<?xml version="1.0" encoding="UTF-8"?>
<dublin_core>
 <dcvalue element="contributor" qualifier="author">Public, John Q.</dcvalue>
 <dcvalue element="language" qualifier="iso">en</dcvalue>
 <dcvalue element="subject" qualifier="none">Technology</dcvalue>
 <dcvalue element="title" qualifier="none">Sample Dublin Core Record</dcvalue>
</dublin_core>
element - это элемент DC
language - 2ух символьный ISO код языка для элемента
qualifier - это элемент определителя
В следующей статье более подробно разберем структуру этого документа.

В contents вписываем названия сопутствующих файлов,по одному в каждой строке, в нашем случае :
file_1.ext
file_2.ext
Файлы готовы для импорта в репозиторий и осталось воспользоваться скриптом import
[dspace]/bin/import -a -e ЭЛЕКТРОННАЯ_ПОЧТА -s ПУТЬ_ДО_ARCHIVE_DIRECTORY -c COLLECTION_ID
Для данного примера этой информации будет достаточно, в дальнейшем будем рассматривать более конкретно каждый пункт.

Импорт структуры разделов и коллекций

Приступим к рассмотрению импорта структуры разделов в DSpace, в документации это дело можно найти по следующему названию : Community and Collection Structure Importer.

Command used: [dspace]/bin/dspace structure-builder
Java class: org.dspace.administer.StructBuilder
Argument: short and long (if available) forms: Description of the argument able
-f Source xml file.
-o Output xml file.
-e Email of DSpace Administrator.

воскресенье, 21 ноября 2010 г.

Новая версия DSpace

В скором времени, а именно 17 декабря (хотя возможно и 3, это как пойдет) состоится релиз новой версии DSpace под номером 1.7. C нововведениями и подробностями выхода  можно ознакомиться здесь.

Установка DSpace

Как уже упоминалось, DSpace является кроссплатформенным приложением. Кроссплатформенность достигается за счет использования Java. DSpace реализован как J2EE приложение, а для его работы достаточно J2EE контейнера. Для хранения метаданных и прочей сопутствующей информации допускается использовать Oracle либо PostgreSQL. Так же на сервере должны быть установлены JDK (Java Development Kit), Apache Maven, Apache Ant и Tomcat, эти приложения нам понадобятся для сборки DSpace.

В качестве ОС на сервере будет использоваться Ubuntu Server 10.10.

среда, 10 ноября 2010 г.

Процесс поглощения и рабочий процесс в DSpace

Импорт данных в DSpace осуществляется по средствам приложения "Batch Item Importer" (импортер пакетов элементов - из за отсутствия русской документации, лучше названия не придумал =) )
ingesting process - Процесс поглощения
На вход Batch Item Importer подается ExternalSIP (Submission Information Package - расширенный пакет подачи информации - это xml файл, содержащий метаданные и файлы контента), далее обработанная информация уходит в объект  InProgress Submission (процесс приема) , как видно из диаграммы добавление через web интерфейс использует тот же механизм, оно и логично.
Далее в зависимости от политики коллекции в которую мы собираемся добавить новый материал может стартовать "Workflow" (рабочий процесс), это позволяет осуществлять проверку данного материала и дать гарантию его пригодности к выбранной коллекции.
Следующим этапом процесса поглощения является ItemInstaller (инсталляция объекта), в Дублинское ядро (это стандарт описания метаданных, более подробно с ним можно ознакомиться здесь: rus, eng) добавляется сообщение о "происхождении", которое включает в себя имена файлов и контрольные суммы, добавляемого контента.
При успешном завершении WorkFlow объект InProgressSubmission передается в ItemInstaller (инсталлятор элементов), который конвертирует его в полностью соответствующий архивированный элемент DSpace. 
Немного подробнее рассмотрим функции ItemInstaller'а
  • назначения даты внесения;
  • добавление значения  "date.availeble" в метаданные дублинского ядра;
  • добавление даты выпуска (если ничего другого нет);
  • добавление сообщения происхождения (включающего в себя контрольные суммы файлов);
  •  назначение Handle (постоянного идентификатора дескриптора);
  • добавление элемента в коллекцию, и соответствующей политики авторизации;
  • добавление нового элемента к индексам поиска и просмотра.
По своей сути пост является свободным переводом пункта 2.9. Ingest Process and Workflow в документации к DSpace.

Далее будет более подробно рассмотрен процесс импорта контента при помощи Batch Item Importer