Формат долгосрочного хранения электронных документов

Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспече...

Full description

Saved in:
Bibliographic Details
Date:2011
Main Authors: Мелащенко, А.О., Перевозчикова, О.Л., Скарлат, Е.С.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2011
Series:Компьютерная математика
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/84612
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Формат долгосрочного хранения электронных документов / А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат // Компьютерная математика: сб. науч. тр. — 2011. — № 1. — С. 106-115. — Бібліогр.: 11 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-84612
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-846122025-02-09T12:49:56Z Формат долгосрочного хранения электронных документов Формат довгосрокового зберігання електронних документів A format for long-term preservation of electronic documents Мелащенко, А.О. Перевозчикова, О.Л. Скарлат, Е.С. Инструментальные средства информационных технологий Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспечению последней стадии жизненного цикла документов – архивного хранения. Розглянуто деталі впровадження форматів файлів для довгострокового зберігання електронних документів. Проаналізовано існуючі формати файлів і зазначено основні аргументи доцільності використання формату PDF/A для архівного зберігання електронних документів. Запропоновано основні напрямки діяльності по забезпеченню останньої стадії життєвого циклу документів – архівного зберігання. Implementation details of file formats for long-term preservation are described. An analysis of existing file formats and main reasonable arguments of expediency of the exertion of PDF/A format for archive preservation of electronic documents are considered. A basic course of activities which provide a last stage of document lifecycle, i.e., their archival storage, is proposed. 2011 Article Формат долгосрочного хранения электронных документов / А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат // Компьютерная математика: сб. науч. тр. — 2011. — № 1. — С. 106-115. — Бібліогр.: 11 назв. — рос. ХХХХ-0003 https://nasplib.isofts.kiev.ua/handle/123456789/84612 681.3.06 ru Компьютерная математика application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Инструментальные средства информационных технологий
Инструментальные средства информационных технологий
spellingShingle Инструментальные средства информационных технологий
Инструментальные средства информационных технологий
Мелащенко, А.О.
Перевозчикова, О.Л.
Скарлат, Е.С.
Формат долгосрочного хранения электронных документов
Компьютерная математика
description Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспечению последней стадии жизненного цикла документов – архивного хранения.
format Article
author Мелащенко, А.О.
Перевозчикова, О.Л.
Скарлат, Е.С.
author_facet Мелащенко, А.О.
Перевозчикова, О.Л.
Скарлат, Е.С.
author_sort Мелащенко, А.О.
title Формат долгосрочного хранения электронных документов
title_short Формат долгосрочного хранения электронных документов
title_full Формат долгосрочного хранения электронных документов
title_fullStr Формат долгосрочного хранения электронных документов
title_full_unstemmed Формат долгосрочного хранения электронных документов
title_sort формат долгосрочного хранения электронных документов
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2011
topic_facet Инструментальные средства информационных технологий
url https://nasplib.isofts.kiev.ua/handle/123456789/84612
citation_txt Формат долгосрочного хранения электронных документов / А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат // Компьютерная математика: сб. науч. тр. — 2011. — № 1. — С. 106-115. — Бібліогр.: 11 назв. — рос.
series Компьютерная математика
work_keys_str_mv AT melaŝenkoao formatdolgosročnogohraneniâélektronnyhdokumentov
AT perevozčikovaol formatdolgosročnogohraneniâélektronnyhdokumentov
AT skarlates formatdolgosročnogohraneniâélektronnyhdokumentov
AT melaŝenkoao formatdovgosrokovogozberígannâelektronnihdokumentív
AT perevozčikovaol formatdovgosrokovogozberígannâelektronnihdokumentív
AT skarlates formatdovgosrokovogozberígannâelektronnihdokumentív
AT melaŝenkoao aformatforlongtermpreservationofelectronicdocuments
AT perevozčikovaol aformatforlongtermpreservationofelectronicdocuments
AT skarlates aformatforlongtermpreservationofelectronicdocuments
first_indexed 2025-11-26T01:30:13Z
last_indexed 2025-11-26T01:30:13Z
_version_ 1849814550143041536
fulltext 106 Компьютерная математика. 2011, № 1 Рассмотрены задачи внедрения форматов файлов для долгосроч- ного хранения электронных доку- ментов. Проанализированы суще- ствующие форматы файлов и аргументирована целесообраз- ность использования формата PDF/A для архивного хранения электронных документов. Пред- ложены основные направления работ по обеспечению последней стадии жизненного цикла доку- ментов – архивного хранения. © А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат, 2011 УДК 681.3.06 À.Î. ÌÅËÀÙÅÍÊÎ, Î.Ë. ÏÅÐÅÂÎÇ×ÈÊÎÂÀ, Å.Ñ. ÑÊÀÐËÀÒ ÔÎÐÌÀÒ ÄÎËÃÎÑÐÎ×ÍÎÃÎ ÕÐÀÍÅÍÈß ÝËÅÊÒÐÎÍÍÛÕ ÄÎÊÓÌÅÍÒΠВведение. В эпоху глобализации и популя- ризации информационных технологий, отме- ченную бескомпромиссной борьбой и кон- фликтами между компаниями-гигантами, правительствами разных стран и большими программистскими союзами, утвердилась концепция о целесообразности перехода в документообороте от доминирующих форма- тов файлов Microsoft Office (привычных .doc, .xls, .ppt) к новым, доступным и основанным на XML форматам. С одной стороны, формат ODF (Open Document Format) и стандарт ISO 26300 «ODF» [1] поддерживают многие ком- пании, среди которых IBM, Google, Sun Microsystems и большинство сообщества «open-source». С другой стороны – ISO/IEC 29500 OOXML (Office Open XML) [2], ини- циированный компанией Microsoft, ее парт- неры и многие разработчики одобрили как стандарт для реально действующей инфор- мационной технологии. Эти два конкурирующих формата обеспе- чивают редактирование документов с быст- рым отображением и легкой модификацией содержимого. Однако редактируемые (автор- ские) форматы несравнимы с «законченны- ми» (издательскими) форматами, разрабаты- ваемыми для точного отображения места расположения текста и графики на готовых страницах. Формат PDF (Portable Mobile Document) – пример издательского формата, в основе ко- торого лежит концепция «безбумажного офиса». Мобильность и кроссплатформность формата позволяет организовывать элек- тронный документооборот. ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ Компьютерная математика. 2011, № 1 107 Анализ форматов файлов. Документы форматов ODF и OOXML не подхо- дят для опубликования, поскольку не гарантируют четкость соблюдения расста- новок строк и страниц. Важность этих параметров в документе очевидна при публикации нормативных документов (законов, контрактов, протоколов и ак- тов), когда в тексте указаны ссылки на некоторую страницу и строку, на номера страниц в контенте документа. Открытые документы таких форматов, разные операционные системы и приложения отображают по-разному. Заметим, что это ограничение не является следствием дефектов операционных систем или про- грамм воспроизведения, все дело во внутренней реализации форматов. Окончательный внешний вид документов ODF и OOXML зависит от алго- ритмов форматирования (расстановка переносов, выравнивание строк, размеще- ние сносок), уникальных для каждого программного продукта, в котором такие документы открыты. Эта причина исключает ODF и OOXML при серьезном рассмотрении как пригодных форматов для публикации государственных и коммерческих документов. С другой стороны, формат PDF гарантирует четкость линий и страниц, но является одним из самых трудных для интерактивного ре- дактирования документов. В реализации этого формата месторасположение ка- ждого элемента определено на уровне защиты документа и дает уверенность, что ничего критического не произойдет в пределах строк. И тот, кто знает на- сколько ресурсно-затратным может быть ошибка печати, действительно ценит уровень надежности и устойчивости PDF. Основополагающий аспект PDF для целей электронного документооборота – включение механизма электронных подписей для целостности и подлинности документов. Использование старых заархивированных данных является слож- ной задачей. Например, созданные десять лет назад файлы в офисном пакете WordPerfect новые текстовые процессоры читать уже не способны, а хранимые рисунки были созданы в приложении, которого уже не существует. Для учреж- дений, задача которых – хранить в электронном виде миллионы документов, критически необходимо иметь формат, сохраняющий первоначальный вид до- кумента, имеющий хорошую документацию, не зависящий от производителя и операционной системы, поддерживающий поиск и являющийся автономным, т. е. не требует дополнительных данных для просмотра документа. Формат PDF отвечает всем указанным требованиям. Стандарт ISO 32000-1 [3] описывает ис- пользование PDF в прикладных сферах, где PDF – подходящая технология для обмена электронными документами, включая интерактивные XFA формы. В некоторых законодательных инициативах определен официальный изда- тельский формат с позиций ошибочного мнения о том, что если ODF и OOXML основаны на языке разметки XML, то они более открыты и дееспособны, чем язык описания текстовых страниц PDF. Несомненно, XML-формат семантиче- ски богаче и может содержать огромный объем метаданных, что улучшает поиск и навигацию по документу. Однако на практике существуют хотя бы два факто- ра, которые делают неуместным это теоретическое преимущество. Во-первых, распространение этой функциональности по всем государственным документам требует некоторого уровня стандартизации метаданных, достижение которого А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ 108 Компьютерная математика. 2011, № 1 связано с временными затратами, если это вообще возможно. Во-вторых, затра- ты человеческого труда, необходимого на существующем технологическом уровне даже для наименьшего семантического обогащения значимых докумен- тов, далеки от возможностей государственных служб. Если преодолеть эти барь- еры, фактом остается то, что ни ODF, ни OOXML неспособны поддерживать семантическое обогащение документов лучше, чем PDF. Учитывая явные преимущества публикации государственных документов в формате, разработанном для этих целей, нелогично рассматривать такой вид до- минирования стандартов над издательскими форматами. Подходящее подмно- жество PDF/A (А означает «архивный») уже имеет стандарт ISO 19005, специ- ально разработанный для долгосрочного хранения способом, допускающим вос- производить и обрабатывать документы с целостным и предсказуемым резуль- татом в будущем. Родное программное обеспечение PDF, надежно отображаю- щее любой PDF/A документ, уже свободно доступно. Перед обсуждением архивных форматов файлов определим, что архивиро- вать и зачем. Так, для архивации адресной книги необходимо фокусироваться на данных, а не на их представлении. А для архивации исторически важных доку- ментов важно сосредоточиться на их внешнем виде вдобавок к контенту. Также важно поддержать любой контент в его первоначальном «формате», например, векторную схему плана этажа, сгенерированную посредством CAD, легче оста- вить в векторном формате, а не преобразовывать в растр. Причем любые мета- данные, комментарии или ремарки также следует включать в архивный документ. Сообщество архивных учреждений обратилось к компании Adobe касатель- но использования PDF как единственного формата для долгосрочного архивного хранения контента, содержащего текст, изображения, векторные и растровые данные. В сочетании с его предназначением для легкого создания эталонных реализаций (нынешних и будущих) без каких-либо неоднозначностей, это гаран- тирует, что контент и его представление «выживет». В будущем заархивирован- ные документы будут видеть такими, какими их видел автор. Форматы OOXML и ODF не отвечают таким требованиям, поскольку сосре- доточены на текстовом контенте, метаданных и не поддерживают его представ- ление. Поэтому они не приемлемы даже для архивирования простых офисных документов. Эти форматы не отвечают требованиям к архивированию сканиро- ванных документов, изображений CAD, печатных публикаций и т. д. Эти фор- маты не разрабатывались для эталонных реализаций, что делает невозможным их использование в качестве стандартов архивации. Традиционная архивная практика (бумага, микрофильмы, микрофиши) га- рантирует долгосрочное воспроизведение, однако устарела с позиций современ- ных информационных технологий. Непреодолима невозможность быстрой пере- сылки бумажного документа большого объема из одной страны в другую, а так- же сложность поиска архивных документов требуемой тематики в архивах, обычно территориально удаленных. ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ Компьютерная математика. 2011, № 1 109 Первым шагом в реализации долгосрочного хранения было внедрение мно- гими фирмами разных стран TIFF архивов. Этот формат гарантирует долгосроч- ное воспроизведение и имеет установленную структуру, его легко пересылать по всемирной сети, однако организовать поиск практически невозможно. TIFF – растровый формат и до непосредственного поиска документ необходимо скани- ровать и распознать текст, т. е. фактически делать двойную работу. Поэтому в дальнейшем целенаправленно перешли на формат PDF, поскольку он хранит структурированные объекты (текст, векторную графику, растровые рисунки), что позволяет организовывать эффективный поиск по всему архиву. Размер PDF файлов меньше TIFF и отличается лучшим качеством. Меньший размер PDF файлов – преимущество при передаче файлов по сети, а метаданные файлов обеспечивают автоматическую классификацию поступающих документов. Кон- тент страниц PDF-документов не зависит от средств их воспроизведения. При просмотре или печати документа страницы документа преобразуются в растро- вое представление, поэтому PDF имеет технологические преимущества средств воспроизведения перед другими форматами. Компания Adobe Systems за последние 12 лет семь раз изменила специфика- цию формата PDF, добавив множество новых и усовершенствовав старые свой- ства. В итоге создан новый формат для долгосрочного хранения электронных документов PDF/A, главная особенность которого – это полная независимость и самодостаточность. Другой формат DjVu реализует технологию сжатия изображения с потеря- ми, разделяя документ на три обрабатываемых раздельно слоя: передний план, задний план и черно-белая маска. При этом используются алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный ал- горитм сжатия ZP, алгоритм распаковки по запросу. Можно добиться макси- мальной степени сжатия при минимальных искажениях. DjVu-файл может со- держать текстовый (OCR) слой, допускающий полнотекстовый поиск по файлу. Кроме того, DjVu-файл может иметь встроенное интерактивное оглавление и активные области – ссылки, что позволяет реализовать удобную навигацию. Если сравнивать DjVu и PDF, то главное достоинство формата DjVu – малый размер файлов. Особенно он хорош при обработке документов, в кото- рых много нераспознаваемых элементов: картинок, схем и формул. Кроме того, DjVu прекрасно подходит, когда необходимо передать не только сам текст, но и его оформление: цвет и фактуру носителя, существующие на нем дефекты и следы, оставленные другими предметами. Таким образом, DjVu подходит для хранения технической документации, например, инструкций и руководств, а также исторических и просто редких документов. Однако каждый раз примени- тельно к файлам в формате DjVu упоминается о сканировании реально сущест- вующих на бумаге или другом носителе документах, поскольку формат изна- чально создан для хранения именно отсканированных копий документов. А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ 110 Компьютерная математика. 2011, № 1 Немало недостатков препятствуют использованию DjVu в электронном до- кументообороте. Во-первых, применяемое сжатие данных с потерями неприем- лемо в отношение договоров, актов и других имеющих юридическую силу до- кументов. Во-вторых, относительно малое распространение формата DjVu не позволяет компаниям свободно использовать его для обмена документами со своими партнерами или клиентами. На большинстве корпоративных и домаш- них компьютеров нет программного обеспечения для просмотра таких элек- тронных документов. В-третьих, в DjVu полностью отсутствуют средства для обеспечения защиты и конфиденциальности документов. Форматы DjVu и PDF/А предназначены для решения разных задач, поэтому они не соперничают, а дополняют друг друга. Отметим, что в некоторых компа- ниях уже существуют цифровые DjVu-архивы технической и другой документа- ции, созданные путем сканирования бумажных документов. Однако это не явля- ется основанием для выбора именно этого формата для построения электронно- го документооборота. Целесообразно построить современную, реально рабо- тающую систему, а уже существующие DjVu-файлы конвертировать во всемир- но признанный формат PDF/А (рис. 1). РИС. 1. Связь между форматами файлов Стандартизация PDF/ A. Сегодня нет конкурентов PDF/A, этот единствен- ный формат документа признан ISO для целей долгосрочного архивирования [4]. Отметим, что сам по себе документ PDF/A – только составная часть для создания полноценного архивного решения. Для целей долгосрочного хранения необходимо достичь соответствия всем требованиям стандарта [5]. Формат PDF является де-факто стандартом всей глобальной печатной промышленности, он поддерживался развитием коммерческих печатных инструментов на протяжении пятнадцати лет. Вероятно, компания Microsoft попытается создать конкурента PDF/A, как это было в случае OOXML в противовес ISO ODF, но огромная база PDF инструментов и осознание ущерба, к которому может привести наличие конкурентной технологи, сводит такую попытку к минимуму. Какой редакти- руемый формат использовать для создания документов, остается открытым во- просом, пока для финальных документов целесообразен PDF/A. ODF, OOXML PDF/A PDF Ограничение редактирования, преобразование структуры доку- мента Ограничение и запрет свойств PDF под долгосрочное хранение DjVu, Tiff Обеспечение средств безопас- ности, увеличение аудитории ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ Компьютерная математика. 2011, № 1 111 Основные свойства PDF/A. Самодостаточность: все, что необходимо для обработки PDF/A файла содержится в нем как визуальный контент – это текст, растровые изображения, векторная графика, цвет и шрифты. Недопустимы внеш- ние ссылки на контент, включая аудио-, видео-, исполняемые файлы и Java Script. Самодокументирование: поддержка использования метаданных. PDF/A пре- доставляет рекомендации по документированию таких атрибутов файлов, как метаданные идентификатора файлов, происхождения, шрифта и т. д. Независимость от инструментов: PDF/A включает такие независимые ком- поненты, как цветовые профили RGB или CMYK, таким образом, надежно обес- печивая статический внешний вид документа при обработке файла или печати, не обращая внимания на используемые программно-аппаратные средства. Два уровня соответствия: низший уровень соответствия PDF/A-1b содержит все основные требования, необходимые для отображения внешнего вида доку- ментов. Он применим к сканированным документам и существующим PDF фай- лам при конвертации в PDF/A. Высший уровень PDF/A-1a требует теги, обеспе- чивающие основную структуру контента документа и средства поиска, повтор- ное использование контента документа, средства предоставления доступа для людей с ограниченными возможностями. Этот высший уровень соответствует документам, создаваемым в цифровом виде, например, с помощью программ MS Office, изначально создающие структуру документа. Неограниченность: PDF/A запрещает шифрование. Это означает, что PDF/A должен быть открыт и доступен любому человеку и программному продукту, воспроизводящему файл. Идентификаторы пользователей и пароли недопустимо встраивать. Контроль доступа выполняется вне формата файла системой управ- ления контентом или системой управления записями. Поддержка новых и улучшенных наборов свойств: шрифтов, метаданных, прозрачности, компрессии, слоев PDF и электронных цифровых подписей. Раз- решены новые варианты использования, включая поддержку коллекций и паке- тов PDF/A документов, архивное хранение PDF/X и PDF/E документов, со- здание нового уровня соответствия для указания документов, доступных для поиска, но необязательно открытых для доступа. Поддержка совместимости: с такими ISO-стандартами, как PDF/E и PDF/X. Удостоверение будущей совместимости: у ведомств, использующих PDF/A-1, нет необходимости мигрировать на новый формат без потребности в использовании новой функциональности PDF/A-2. Разработку и усовершенствование этих форматов файлов проводится под эгидой ISO, а ISO 19005-1 [6] описывает оптимизированный под долгосрочное хранение документов формат PDF/A-1. Долгосрочное архивирование происхо- дит сжатием согласно нормативным требованиям структуры PDF-файла с вклю- чением всех требуемых ресурсов (шрифты и изображения) и без использования интерактивного контента и средств написания сценариев (JavaScript). Поскольку PDF/A-1 основан на Adobe 1.4 PDF, а не на ISO 32000-1 [3], он не полностью поддерживает все свойства этого стандарта, доступны для электронных цифро- вых подписей, в частности отсутствуют вложенная информация об аннулирова- нии и штемпелевании времени. Поскольку такие свойства явно не запрещены, А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ 112 Компьютерная математика. 2011, № 1 то нет препятствий соответствующей программе записи PDF/A-1 помещать эти расширенные свойства в файл, то нельзя ожидать того, что соответствующая программа чтения PDF/A-1 правильно их обработает. В свою очередь PDF/A-1 имеет два уровня соответствия: PDF/A-1a и PDF/A-1b. Уровень PDF/A-1b дает минимальное соответствие, т. е. обеспечение того, что извлеченный текст будет отображаться корректно. PDF/A-1a включает все требования PDF/A-1b и допол- нительные требования касательно структуры документа, т. е. он дает полное со- ответствие стандарту ISO 19005-1 [6]. В конце 2011 года ожидается выход стандарта усовершенствованного фор- мата PDF/A-2 (ISO 19005-2 [7]), основанного на ISO 32000-1 [3] и с поддержкой ETSI TS 102 778 [8]. Стандарт ETSI TS 102 778 определяет серию профилей, описывающих использование цифровых подписей в PDF для обеспечения струк- туры расширенных электронных подписей для подписания электронных PDF документов. С полной поддержкой электронных подписей согласно [8], формат PDF/A-2 станет форматом файла для надежного долгосрочного архивирования подписанного в электронной форме и основанного на PDF электронного контен- та. Связь между стандартами PDF и PDF/A схематично показана на рис. 2. Иначе говоря, PDF/A – также подмножество PDF, однако поскольку формат PDF очень богат, для долгосрочного хранения необходимо указать ограничения, рекомен- дации и запрет некоторых свойств [6]. РИС. 2. Связь PDF и PDF/A стандартов Подмножества PDF. • PDF/Е – предоставляет спецификации для создания, просмотра и печати документов, используемых в инженерных бизнес-процессах, включая интерак- тивные медиа: анимацию и 3-D графику: • PDF/X – спецификации для создания, просмотра и печати конечных до- кументов, документов для печатной продукции; • PDF/VT – спецификации для транзакционных документов; • PDF/UA – универсальный доступ, улучшающий читабельность докумен- та для людей с ограниченными возможностями; ISO 32000-1 ETSI TS 102 778 ISO 19005-1 PDF/A-1 PDF/A-2 ISO 19005-2 PDF/A-1a PDF/A-1b Adobe 1.4 PDF Adobe 1.7 PDF Ожидается к концу 2010 Adobe 1.5 PDF Adobe 1.6 PDF ISO 24517 PDF/E ISO 15930 PDF/X ISO 14289 PDF/UA ISO 16612-2 PDF/VT PDF Health- Care ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ Компьютерная математика. 2011, № 1 113 • PDF HealthCare – рекомендации по облегчению создания, обмена, хране- ния и защиты медицинской информации, включая личные данные, медицинские записи, отчеты лабораторных исследований, изображения ЭКГ, снимки рентге- нографического обследования, фотографии, сканированные изображения. Многотомный стандарт ETSI TS 102 778 содержит описания следующих профилей: профиль CMS (Cryptographic Message Syntax – синтаксис криптогра- фический сообщений), основанный на ISO 32000-1; основной PAdES, основан- ный на ISO 32000-1; усиленный PAdES: профили PAdES-BES и PAdES-EPES; долгосрочный PAdES: профиль PAdES-LTV; PAdES для XML контента: профили для XAdES подписей. Мировые тенденции внедрения PDF/A. В Германии организация продви- жения автоматизированного финансового учета на выставке DMS Expo 2009 в Штутгарте представила свое предложение по созданию стандартного процесса для электронного обмена счетами. Стандарт eBilling [9] использует PDF/A как формат документа и XML-стандарт openTrans, разработанный ассоциацией Frauenhofer Association совместно с немецкими компаниями из сектора экономики, для вкладывания в документ данных по счетам. Документ PDF/A вместе с вложенными данными по счетам формируют единую сущность, заве- ренную электронной подписью. Потсдамский университет нацелен хранить свои документы в формате PDF/A. Национальная библиотека Германии предпочитает PDF/A всем другим форматам файлов, когда контент содержится в электронной форме. «Стандарт- ный» PDF находится на втором месте по критерию популярности, следующий за ним – формат HTML. В Швеции Национальный архив расценивает PDF/A как подходящий фор- мат для архивирования текстовых документов. Центр LDP (Centre for Long-term Digital Preservation) рекомендует PDF/A: формат PDF/A создан, чтобы отвечать требованиям по записям при выборе формата файла, а именно находиться в сво- ем исходном состоянии и быть укомплектованным для долгосрочного хранения; кроме основных метаданных каждого документа, можно добавлять другие мета- данные, что увеличивает способность отслеживания документов и показывает их историю. В Австрии Национальная библиотека в инструкции для поставщиков поста- вила условие о приеме документов только в формате PDF/A. Такое требование накладывает дополнительные условия на присылаемые файлы и нацелено на гарантию поддержки долгосрочного архивирования электронных документов. Библиотека ориентируется на стандарт ISO 19005-1 «Управление документами – Формат файлов для долгосрочного хранения электронных документов – Часть 1: Использование PDF (PDF/A)», основанный на PDF 1.4. Федеральная палата консультантов архитекторов и инженеров Австрии вы- двинула требование о соответствии общедоступных электронных документов стандарту PDF/A-1b. А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ 114 Компьютерная математика. 2011, № 1 В Дании, начиная с апреля 2011 года, по решению Парламента органы госу- дарственной власти обязаны использовать формат ODF, поскольку этот единст- венный редактируемый формат полностью удовлетворяет пяти критериям «от- крытости». PDF/A-1 указан для публикации нередактируемых документов. Во Франции Генеральный директорат по модернизации государства и бюд- жетное министерство в начале 2009 года издали рекомендации по обработке электронных данных по стандарту ISO PDF/A для архивирования администра- тивных документов со статичным, неизменным контентом. В Норвегии правительство поставило условие, что вся информация, опуб- ликованная на государственном WEB-сайте, должна быть сохранена в таких общедоступных форматах документов, как HTML, PDF соответственно PDF/A или ODF. PDF/A рекомендован для всех документов с обязательным формати- рованием. Эта рекомендация введена 1 января 2009 года. С 1 января 2010 года муниципальная администрация получила указание использовать открытые фор- маты файлов (ODF, HTML, PDF 1.4 или лучше PDF/A) при публикации инфор- мации через интернет. В Швейцарии Федеральный суд Швейцарии в проекте резолюции «Правила электронной передачи в домене административной деятельности» переходит на PDF/A, что и отображается в табрице. Правила приняты 1 января 2008 года и запланирована полная их реализация за последующее десятилетие [10]. ТАБЛИЦА. Состояние принятия правительственными ведомствами разных стран документов формата PDF и PDF/A для долгосрочного хранения Ведомства Формат Состояние Администрация Национальных архивов и записей США (NARA) PDF/A Общепринят Европейская комиссия (MoReq) PDF/A Рекомендован Правительство Германии (SAGA v4) PDF/A Рекомендован Правительство Франции PDF/A Рекомендован Правительство Дании PDF/A Требуемый Национальные Архивы Швеции PDF/A Общепринят Национальная библиотека Австрии PDF/A Рекомендован Национальные Архивы Норвегии PDF/A Рекомендован Организация по развитию автоматизированного учета PDF/A Рекомендован Бразильская федеральная законодательная власть PDF/A Требуемый Суды США PDF Требуемый Виктория, Австралия, архивы Public Record Office PDF Требуемый Архивный стандарт итальянского правительства PDF Общепринят Национальная центральная библиотека, Тайвань PDF Рекомендован Заключение. В ближайшие годы в архивах электронных документов как источниках информации для принятия важнейших управленческих решений проблемы хранения приобретут ключевое значение в методологии организации такого рода информационных ресурсов. Работы по обеспечению сохранности электронных документов можно разделить на три вида: 1) обеспечение физиче- ской сохранности и целостности файлов электронных документов; 2) обеспече- ние условий для считывания информации в долговременной перспективе; 3) обеспечение условий для воспроизведения электронных документов в чита- бельном виде. Первое условие зависит от создаваемой системы электронного до- кументооборота, будь она основана на спецификации MoReq2 [11], MoReq2010 или абсолютно иной. Последние два условия способен обеспечить формат PDF/A. ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ Компьютерная математика. 2011, № 1 115 А.О. Мелащенко, О.Л. Перевозчикова, O.С. Скарлат ФОРМАТ ДОВГОСРОКОВОГО ЗБЕРІГАННЯ ЕЛЕКТРОННИХ ДОКУМЕНТІВ Розглянуто деталі впровадження форматів файлів для довгострокового зберігання електрон- них документів. Проаналізовано існуючі формати файлів і зазначено основні аргументи до- цільності використання формату PDF/A для архівного зберігання електронних документів. Запропоновано основні напрямки діяльності по забезпеченню останньої стадії життєвого циклу документів – архівного зберігання. A.О. Melashenko, O.L. Perevozchykova, O.S. Skarlat A FORMAT FOR LONG-TERM PRESERVATION OF ELECTRONIC DOCUMENTS Implementation details of file formats for long-term preservation are described. An analysis of exist- ing file formats and main reasonable arguments of expediency of the exertion of PDF/A format for archive preservation of electronic documents are considered. A basic course of activities which pro- vide a last stage of document lifecycle, i.e., their archival storage, is proposed. 1. ISO/IEC 26300:2006 Information technology – Open Document Format for Office Applications (OpenDocument) v1.0 2. ISO/IEC 29500:2008 Information technology – Document description and processing languages – Office Open XML file formats ISO 32000 3. ISO 32000-1:2008 Document management – Portable document format – Part 1: PDF 1.7 4. PDF/Archive Committee http://www.aiim.org/Resources/Standards/Committees/PDFA 5. PDF/A – worldwide collaboration to preserve electronic Documents http://www.aiim.org/documents/standards/PDF-A/PDF-A-ISO-Focus.pdf 6. ISO 19005-1:2005 Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1) 7. ISO/DIS 19005-2.2 Document management – Electronic document file format for long-term preservation – Part 2: Use of ISO 32000-1 (PDF/A) 8. ETSI TS 102 778:2009 Electronic Signatures and Infrastructures (ESI); PDF Advanced Elec- tronic Signature Profiles 9. PDF/A archiving standard http://www.adobe.com/enterprise/standards/pdfa/ 10. Recommendations and Guidelines for PDF/A http://www.pdfa.org/doku.php?id=vorgaben:en 11. Model Requirements for the management of electronic records. MoReq2 specification. http://ec.europa.eu/transparency/archival_policy/ Получено 21.12.2010 Îá àâòîðàõ: Мелащенко Андрей Олегович, младший научный сотрудник, аспирант Института кибернетики имени В.М. Глушкова НАН Украины, Перевозчикова Ольга Леонидовна, доктор физико-математических наук, профессор, член-корреспондент НАН Украины, заведующая отделом Института кибернетики имени В.М. Глушкова НАН Украины, Скарлат Елена Сергеевна, младший научный сотрудник, аспирантка Института кибернетики имени В.М. Глушкова НАН Украины.