Формат долгосрочного хранения электронных документов
Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспече...
Saved in:
| Date: | 2011 |
|---|---|
| Main Authors: | , , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2011
|
| Series: | Компьютерная математика |
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/84612 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Формат долгосрочного хранения электронных документов / А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат // Компьютерная математика: сб. науч. тр. — 2011. — № 1. — С. 106-115. — Бібліогр.: 11 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-84612 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-846122025-02-09T12:49:56Z Формат долгосрочного хранения электронных документов Формат довгосрокового зберігання електронних документів A format for long-term preservation of electronic documents Мелащенко, А.О. Перевозчикова, О.Л. Скарлат, Е.С. Инструментальные средства информационных технологий Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспечению последней стадии жизненного цикла документов – архивного хранения. Розглянуто деталі впровадження форматів файлів для довгострокового зберігання електронних документів. Проаналізовано існуючі формати файлів і зазначено основні аргументи доцільності використання формату PDF/A для архівного зберігання електронних документів. Запропоновано основні напрямки діяльності по забезпеченню останньої стадії життєвого циклу документів – архівного зберігання. Implementation details of file formats for long-term preservation are described. An analysis of existing file formats and main reasonable arguments of expediency of the exertion of PDF/A format for archive preservation of electronic documents are considered. A basic course of activities which provide a last stage of document lifecycle, i.e., their archival storage, is proposed. 2011 Article Формат долгосрочного хранения электронных документов / А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат // Компьютерная математика: сб. науч. тр. — 2011. — № 1. — С. 106-115. — Бібліогр.: 11 назв. — рос. ХХХХ-0003 https://nasplib.isofts.kiev.ua/handle/123456789/84612 681.3.06 ru Компьютерная математика application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Инструментальные средства информационных технологий Инструментальные средства информационных технологий |
| spellingShingle |
Инструментальные средства информационных технологий Инструментальные средства информационных технологий Мелащенко, А.О. Перевозчикова, О.Л. Скарлат, Е.С. Формат долгосрочного хранения электронных документов Компьютерная математика |
| description |
Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспечению последней стадии жизненного цикла документов – архивного хранения. |
| format |
Article |
| author |
Мелащенко, А.О. Перевозчикова, О.Л. Скарлат, Е.С. |
| author_facet |
Мелащенко, А.О. Перевозчикова, О.Л. Скарлат, Е.С. |
| author_sort |
Мелащенко, А.О. |
| title |
Формат долгосрочного хранения электронных документов |
| title_short |
Формат долгосрочного хранения электронных документов |
| title_full |
Формат долгосрочного хранения электронных документов |
| title_fullStr |
Формат долгосрочного хранения электронных документов |
| title_full_unstemmed |
Формат долгосрочного хранения электронных документов |
| title_sort |
формат долгосрочного хранения электронных документов |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2011 |
| topic_facet |
Инструментальные средства информационных технологий |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/84612 |
| citation_txt |
Формат долгосрочного хранения электронных документов / А.О. Мелащенко, О.Л. Перевозчикова, Е.С. Скарлат // Компьютерная математика: сб. науч. тр. — 2011. — № 1. — С. 106-115. — Бібліогр.: 11 назв. — рос. |
| series |
Компьютерная математика |
| work_keys_str_mv |
AT melaŝenkoao formatdolgosročnogohraneniâélektronnyhdokumentov AT perevozčikovaol formatdolgosročnogohraneniâélektronnyhdokumentov AT skarlates formatdolgosročnogohraneniâélektronnyhdokumentov AT melaŝenkoao formatdovgosrokovogozberígannâelektronnihdokumentív AT perevozčikovaol formatdovgosrokovogozberígannâelektronnihdokumentív AT skarlates formatdovgosrokovogozberígannâelektronnihdokumentív AT melaŝenkoao aformatforlongtermpreservationofelectronicdocuments AT perevozčikovaol aformatforlongtermpreservationofelectronicdocuments AT skarlates aformatforlongtermpreservationofelectronicdocuments |
| first_indexed |
2025-11-26T01:30:13Z |
| last_indexed |
2025-11-26T01:30:13Z |
| _version_ |
1849814550143041536 |
| fulltext |
106 Компьютерная математика. 2011, № 1
Рассмотрены задачи внедрения
форматов файлов для долгосроч-
ного хранения электронных доку-
ментов. Проанализированы суще-
ствующие форматы файлов
и аргументирована целесообраз-
ность использования формата
PDF/A для архивного хранения
электронных документов. Пред-
ложены основные направления
работ по обеспечению последней
стадии жизненного цикла доку-
ментов – архивного хранения.
© А.О. Мелащенко,
О.Л. Перевозчикова,
Е.С. Скарлат, 2011
УДК 681.3.06
À.Î. ÌÅËÀÙÅÍÊÎ, Î.Ë. ÏÅÐÅÂÎÇ×ÈÊÎÂÀ, Å.Ñ. ÑÊÀÐËÀÒ
ÔÎÐÌÀÒ ÄÎËÃÎÑÐÎ×ÍÎÃÎ ÕÐÀÍÅÍÈß
ÝËÅÊÒÐÎÍÍÛÕ ÄÎÊÓÌÅÍÒÎÂ
Введение. В эпоху глобализации и популя-
ризации информационных технологий, отме-
ченную бескомпромиссной борьбой и кон-
фликтами между компаниями-гигантами,
правительствами разных стран и большими
программистскими союзами, утвердилась
концепция о целесообразности перехода в
документообороте от доминирующих форма-
тов файлов Microsoft Office (привычных .doc,
.xls, .ppt) к новым, доступным и основанным
на XML форматам. С одной стороны, формат
ODF (Open Document Format) и стандарт ISO
26300 «ODF» [1] поддерживают многие ком-
пании, среди которых IBM, Google, Sun
Microsystems и большинство сообщества
«open-source». С другой стороны – ISO/IEC
29500 OOXML (Office Open XML) [2], ини-
циированный компанией Microsoft, ее парт-
неры и многие разработчики одобрили как
стандарт для реально действующей инфор-
мационной технологии.
Эти два конкурирующих формата обеспе-
чивают редактирование документов с быст-
рым отображением и легкой модификацией
содержимого. Однако редактируемые (автор-
ские) форматы несравнимы с «законченны-
ми» (издательскими) форматами, разрабаты-
ваемыми для точного отображения места
расположения текста и графики на готовых
страницах.
Формат PDF (Portable Mobile Document) –
пример издательского формата, в основе ко-
торого лежит концепция «безбумажного
офиса». Мобильность и кроссплатформность
формата позволяет организовывать элек-
тронный документооборот.
ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
Компьютерная математика. 2011, № 1 107
Анализ форматов файлов. Документы форматов ODF и OOXML не подхо-
дят для опубликования, поскольку не гарантируют четкость соблюдения расста-
новок строк и страниц. Важность этих параметров в документе очевидна при
публикации нормативных документов (законов, контрактов, протоколов и ак-
тов), когда в тексте указаны ссылки на некоторую страницу и строку, на номера
страниц в контенте документа. Открытые документы таких форматов, разные
операционные системы и приложения отображают по-разному. Заметим, что это
ограничение не является следствием дефектов операционных систем или про-
грамм воспроизведения, все дело во внутренней реализации форматов.
Окончательный внешний вид документов ODF и OOXML зависит от алго-
ритмов форматирования (расстановка переносов, выравнивание строк, размеще-
ние сносок), уникальных для каждого программного продукта, в котором такие
документы открыты. Эта причина исключает ODF и OOXML при серьезном
рассмотрении как пригодных форматов для публикации государственных и
коммерческих документов. С другой стороны, формат PDF гарантирует четкость
линий и страниц, но является одним из самых трудных для интерактивного ре-
дактирования документов. В реализации этого формата месторасположение ка-
ждого элемента определено на уровне защиты документа и дает уверенность,
что ничего критического не произойдет в пределах строк. И тот, кто знает на-
сколько ресурсно-затратным может быть ошибка печати, действительно ценит
уровень надежности и устойчивости PDF.
Основополагающий аспект PDF для целей электронного документооборота
– включение механизма электронных подписей для целостности и подлинности
документов. Использование старых заархивированных данных является слож-
ной задачей. Например, созданные десять лет назад файлы в офисном пакете
WordPerfect новые текстовые процессоры читать уже не способны, а хранимые
рисунки были созданы в приложении, которого уже не существует. Для учреж-
дений, задача которых – хранить в электронном виде миллионы документов,
критически необходимо иметь формат, сохраняющий первоначальный вид до-
кумента, имеющий хорошую документацию, не зависящий от производителя и
операционной системы, поддерживающий поиск и являющийся автономным,
т. е. не требует дополнительных данных для просмотра документа. Формат PDF
отвечает всем указанным требованиям. Стандарт ISO 32000-1 [3] описывает ис-
пользование PDF в прикладных сферах, где PDF – подходящая технология для
обмена электронными документами, включая интерактивные XFA формы.
В некоторых законодательных инициативах определен официальный изда-
тельский формат с позиций ошибочного мнения о том, что если ODF и OOXML
основаны на языке разметки XML, то они более открыты и дееспособны, чем
язык описания текстовых страниц PDF. Несомненно, XML-формат семантиче-
ски богаче и может содержать огромный объем метаданных, что улучшает поиск
и навигацию по документу. Однако на практике существуют хотя бы два факто-
ра, которые делают неуместным это теоретическое преимущество. Во-первых,
распространение этой функциональности по всем государственным документам
требует некоторого уровня стандартизации метаданных, достижение которого
А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ
108 Компьютерная математика. 2011, № 1
связано с временными затратами, если это вообще возможно. Во-вторых, затра-
ты человеческого труда, необходимого на существующем технологическом
уровне даже для наименьшего семантического обогащения значимых докумен-
тов, далеки от возможностей государственных служб. Если преодолеть эти барь-
еры, фактом остается то, что ни ODF, ни OOXML неспособны поддерживать
семантическое обогащение документов лучше, чем PDF.
Учитывая явные преимущества публикации государственных документов в
формате, разработанном для этих целей, нелогично рассматривать такой вид до-
минирования стандартов над издательскими форматами. Подходящее подмно-
жество PDF/A (А означает «архивный») уже имеет стандарт ISO 19005, специ-
ально разработанный для долгосрочного хранения способом, допускающим вос-
производить и обрабатывать документы с целостным и предсказуемым резуль-
татом в будущем. Родное программное обеспечение PDF, надежно отображаю-
щее любой PDF/A документ, уже свободно доступно.
Перед обсуждением архивных форматов файлов определим, что архивиро-
вать и зачем. Так, для архивации адресной книги необходимо фокусироваться на
данных, а не на их представлении. А для архивации исторически важных доку-
ментов важно сосредоточиться на их внешнем виде вдобавок к контенту. Также
важно поддержать любой контент в его первоначальном «формате», например,
векторную схему плана этажа, сгенерированную посредством CAD, легче оста-
вить в векторном формате, а не преобразовывать в растр. Причем любые мета-
данные, комментарии или ремарки также следует включать в архивный документ.
Сообщество архивных учреждений обратилось к компании Adobe касатель-
но использования PDF как единственного формата для долгосрочного архивного
хранения контента, содержащего текст, изображения, векторные и растровые
данные. В сочетании с его предназначением для легкого создания эталонных
реализаций (нынешних и будущих) без каких-либо неоднозначностей, это гаран-
тирует, что контент и его представление «выживет». В будущем заархивирован-
ные документы будут видеть такими, какими их видел автор.
Форматы OOXML и ODF не отвечают таким требованиям, поскольку сосре-
доточены на текстовом контенте, метаданных и не поддерживают его представ-
ление. Поэтому они не приемлемы даже для архивирования простых офисных
документов. Эти форматы не отвечают требованиям к архивированию сканиро-
ванных документов, изображений CAD, печатных публикаций и т. д. Эти фор-
маты не разрабатывались для эталонных реализаций, что делает невозможным
их использование в качестве стандартов архивации.
Традиционная архивная практика (бумага, микрофильмы, микрофиши) га-
рантирует долгосрочное воспроизведение, однако устарела с позиций современ-
ных информационных технологий. Непреодолима невозможность быстрой пере-
сылки бумажного документа большого объема из одной страны в другую, а так-
же сложность поиска архивных документов требуемой тематики в архивах,
обычно территориально удаленных.
ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
Компьютерная математика. 2011, № 1 109
Первым шагом в реализации долгосрочного хранения было внедрение мно-
гими фирмами разных стран TIFF архивов. Этот формат гарантирует долгосроч-
ное воспроизведение и имеет установленную структуру, его легко пересылать по
всемирной сети, однако организовать поиск практически невозможно. TIFF –
растровый формат и до непосредственного поиска документ необходимо скани-
ровать и распознать текст, т. е. фактически делать двойную работу. Поэтому в
дальнейшем целенаправленно перешли на формат PDF, поскольку он хранит
структурированные объекты (текст, векторную графику, растровые рисунки),
что позволяет организовывать эффективный поиск по всему архиву. Размер PDF
файлов меньше TIFF и отличается лучшим качеством. Меньший размер PDF
файлов – преимущество при передаче файлов по сети, а метаданные файлов
обеспечивают автоматическую классификацию поступающих документов. Кон-
тент страниц PDF-документов не зависит от средств их воспроизведения. При
просмотре или печати документа страницы документа преобразуются в растро-
вое представление, поэтому PDF имеет технологические преимущества средств
воспроизведения перед другими форматами.
Компания Adobe Systems за последние 12 лет семь раз изменила специфика-
цию формата PDF, добавив множество новых и усовершенствовав старые свой-
ства. В итоге создан новый формат для долгосрочного хранения электронных
документов PDF/A, главная особенность которого – это полная независимость и
самодостаточность.
Другой формат DjVu реализует технологию сжатия изображения с потеря-
ми, разделяя документ на три обрабатываемых раздельно слоя: передний план,
задний план и черно-белая маска. При этом используются алгоритм отделения
текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия
фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный ал-
горитм сжатия ZP, алгоритм распаковки по запросу. Можно добиться макси-
мальной степени сжатия при минимальных искажениях. DjVu-файл может со-
держать текстовый (OCR) слой, допускающий полнотекстовый поиск по файлу.
Кроме того, DjVu-файл может иметь встроенное интерактивное оглавление и
активные области – ссылки, что позволяет реализовать удобную навигацию.
Если сравнивать DjVu и PDF, то главное достоинство формата DjVu –
малый размер файлов. Особенно он хорош при обработке документов, в кото-
рых много нераспознаваемых элементов: картинок, схем и формул. Кроме того,
DjVu прекрасно подходит, когда необходимо передать не только сам текст, но и
его оформление: цвет и фактуру носителя, существующие на нем дефекты и
следы, оставленные другими предметами. Таким образом, DjVu подходит для
хранения технической документации, например, инструкций и руководств, а
также исторических и просто редких документов. Однако каждый раз примени-
тельно к файлам в формате DjVu упоминается о сканировании реально сущест-
вующих на бумаге или другом носителе документах, поскольку формат изна-
чально создан для хранения именно отсканированных копий документов.
А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ
110 Компьютерная математика. 2011, № 1
Немало недостатков препятствуют использованию DjVu в электронном до-
кументообороте. Во-первых, применяемое сжатие данных с потерями неприем-
лемо в отношение договоров, актов и других имеющих юридическую силу до-
кументов. Во-вторых, относительно малое распространение формата DjVu не
позволяет компаниям свободно использовать его для обмена документами со
своими партнерами или клиентами. На большинстве корпоративных и домаш-
них компьютеров нет программного обеспечения для просмотра таких элек-
тронных документов. В-третьих, в DjVu полностью отсутствуют средства для
обеспечения защиты и конфиденциальности документов.
Форматы DjVu и PDF/А предназначены для решения разных задач, поэтому
они не соперничают, а дополняют друг друга. Отметим, что в некоторых компа-
ниях уже существуют цифровые DjVu-архивы технической и другой документа-
ции, созданные путем сканирования бумажных документов. Однако это не явля-
ется основанием для выбора именно этого формата для построения электронно-
го документооборота. Целесообразно построить современную, реально рабо-
тающую систему, а уже существующие DjVu-файлы конвертировать во всемир-
но признанный формат PDF/А (рис. 1).
РИС. 1. Связь между форматами файлов
Стандартизация PDF/ A. Сегодня нет конкурентов PDF/A, этот единствен-
ный формат документа признан ISO для целей долгосрочного архивирования
[4]. Отметим, что сам по себе документ PDF/A – только составная часть для
создания полноценного архивного решения. Для целей долгосрочного хранения
необходимо достичь соответствия всем требованиям стандарта [5]. Формат PDF
является де-факто стандартом всей глобальной печатной промышленности, он
поддерживался развитием коммерческих печатных инструментов на протяжении
пятнадцати лет. Вероятно, компания Microsoft попытается создать конкурента
PDF/A, как это было в случае OOXML в противовес ISO ODF, но огромная база
PDF инструментов и осознание ущерба, к которому может привести наличие
конкурентной технологи, сводит такую попытку к минимуму. Какой редакти-
руемый формат использовать для создания документов, остается открытым во-
просом, пока для финальных документов целесообразен PDF/A.
ODF, OOXML
PDF/A
PDF
Ограничение
редактирования,
преобразование
структуры доку-
мента
Ограничение и запрет свойств PDF
под долгосрочное хранение
DjVu,
Tiff
Обеспечение средств безопас-
ности, увеличение аудитории
ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
Компьютерная математика. 2011, № 1 111
Основные свойства PDF/A. Самодостаточность: все, что необходимо для
обработки PDF/A файла содержится в нем как визуальный контент – это текст,
растровые изображения, векторная графика, цвет и шрифты. Недопустимы внеш-
ние ссылки на контент, включая аудио-, видео-, исполняемые файлы и Java Script.
Самодокументирование: поддержка использования метаданных. PDF/A пре-
доставляет рекомендации по документированию таких атрибутов файлов, как
метаданные идентификатора файлов, происхождения, шрифта и т. д.
Независимость от инструментов: PDF/A включает такие независимые ком-
поненты, как цветовые профили RGB или CMYK, таким образом, надежно обес-
печивая статический внешний вид документа при обработке файла или печати,
не обращая внимания на используемые программно-аппаратные средства.
Два уровня соответствия: низший уровень соответствия PDF/A-1b содержит
все основные требования, необходимые для отображения внешнего вида доку-
ментов. Он применим к сканированным документам и существующим PDF фай-
лам при конвертации в PDF/A. Высший уровень PDF/A-1a требует теги, обеспе-
чивающие основную структуру контента документа и средства поиска, повтор-
ное использование контента документа, средства предоставления доступа для
людей с ограниченными возможностями. Этот высший уровень соответствует
документам, создаваемым в цифровом виде, например, с помощью программ MS
Office, изначально создающие структуру документа.
Неограниченность: PDF/A запрещает шифрование. Это означает, что PDF/A
должен быть открыт и доступен любому человеку и программному продукту,
воспроизводящему файл. Идентификаторы пользователей и пароли недопустимо
встраивать. Контроль доступа выполняется вне формата файла системой управ-
ления контентом или системой управления записями.
Поддержка новых и улучшенных наборов свойств: шрифтов, метаданных,
прозрачности, компрессии, слоев PDF и электронных цифровых подписей. Раз-
решены новые варианты использования, включая поддержку коллекций и паке-
тов PDF/A документов, архивное хранение PDF/X и PDF/E документов, со-
здание нового уровня соответствия для указания документов, доступных для
поиска, но необязательно открытых для доступа.
Поддержка совместимости: с такими ISO-стандартами, как PDF/E и PDF/X.
Удостоверение будущей совместимости: у ведомств, использующих
PDF/A-1, нет необходимости мигрировать на новый формат без потребности в
использовании новой функциональности PDF/A-2.
Разработку и усовершенствование этих форматов файлов проводится под
эгидой ISO, а ISO 19005-1 [6] описывает оптимизированный под долгосрочное
хранение документов формат PDF/A-1. Долгосрочное архивирование происхо-
дит сжатием согласно нормативным требованиям структуры PDF-файла с вклю-
чением всех требуемых ресурсов (шрифты и изображения) и без использования
интерактивного контента и средств написания сценариев (JavaScript). Поскольку
PDF/A-1 основан на Adobe 1.4 PDF, а не на ISO 32000-1 [3], он не полностью
поддерживает все свойства этого стандарта, доступны для электронных цифро-
вых подписей, в частности отсутствуют вложенная информация об аннулирова-
нии и штемпелевании времени. Поскольку такие свойства явно не запрещены,
А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ
112 Компьютерная математика. 2011, № 1
то нет препятствий соответствующей программе записи PDF/A-1 помещать эти
расширенные свойства в файл, то нельзя ожидать того, что соответствующая
программа чтения PDF/A-1 правильно их обработает. В свою очередь PDF/A-1
имеет два уровня соответствия: PDF/A-1a и PDF/A-1b. Уровень PDF/A-1b дает
минимальное соответствие, т. е. обеспечение того, что извлеченный текст будет
отображаться корректно. PDF/A-1a включает все требования PDF/A-1b и допол-
нительные требования касательно структуры документа, т. е. он дает полное со-
ответствие стандарту ISO 19005-1 [6].
В конце 2011 года ожидается выход стандарта усовершенствованного фор-
мата PDF/A-2 (ISO 19005-2 [7]), основанного на ISO 32000-1 [3] и с поддержкой
ETSI TS 102 778 [8]. Стандарт ETSI TS 102 778 определяет серию профилей,
описывающих использование цифровых подписей в PDF для обеспечения струк-
туры расширенных электронных подписей для подписания электронных PDF
документов. С полной поддержкой электронных подписей согласно [8], формат
PDF/A-2 станет форматом файла для надежного долгосрочного архивирования
подписанного в электронной форме и основанного на PDF электронного контен-
та. Связь между стандартами PDF и PDF/A схематично показана на рис. 2. Иначе
говоря, PDF/A – также подмножество PDF, однако поскольку формат PDF очень
богат, для долгосрочного хранения необходимо указать ограничения, рекомен-
дации и запрет некоторых свойств [6].
РИС. 2. Связь PDF и PDF/A стандартов
Подмножества PDF.
• PDF/Е – предоставляет спецификации для создания, просмотра и печати
документов, используемых в инженерных бизнес-процессах, включая интерак-
тивные медиа: анимацию и 3-D графику:
• PDF/X – спецификации для создания, просмотра и печати конечных до-
кументов, документов для печатной продукции;
• PDF/VT – спецификации для транзакционных документов;
• PDF/UA – универсальный доступ, улучшающий читабельность докумен-
та для людей с ограниченными возможностями;
ISO 32000-1 ETSI TS 102 778
ISO 19005-1 PDF/A-1 PDF/A-2 ISO 19005-2
PDF/A-1a PDF/A-1b
Adobe
1.4 PDF
Adobe
1.7 PDF
Ожидается
к концу 2010
Adobe
1.5 PDF
Adobe
1.6 PDF
ISO 24517
PDF/E
ISO 15930
PDF/X
ISO 14289
PDF/UA
ISO 16612-2
PDF/VT PDF Health-
Care
ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
Компьютерная математика. 2011, № 1 113
• PDF HealthCare – рекомендации по облегчению создания, обмена, хране-
ния и защиты медицинской информации, включая личные данные, медицинские
записи, отчеты лабораторных исследований, изображения ЭКГ, снимки рентге-
нографического обследования, фотографии, сканированные изображения.
Многотомный стандарт ETSI TS 102 778 содержит описания следующих
профилей: профиль CMS (Cryptographic Message Syntax – синтаксис криптогра-
фический сообщений), основанный на ISO 32000-1; основной PAdES, основан-
ный на ISO 32000-1; усиленный PAdES: профили PAdES-BES и PAdES-EPES;
долгосрочный PAdES: профиль PAdES-LTV; PAdES для XML контента:
профили для XAdES подписей.
Мировые тенденции внедрения PDF/A. В Германии организация продви-
жения автоматизированного финансового учета на выставке DMS Expo 2009 в
Штутгарте представила свое предложение по созданию стандартного процесса
для электронного обмена счетами. Стандарт eBilling [9] использует PDF/A
как формат документа и XML-стандарт openTrans, разработанный ассоциацией
Frauenhofer Association совместно с немецкими компаниями из сектора
экономики, для вкладывания в документ данных по счетам. Документ PDF/A
вместе с вложенными данными по счетам формируют единую сущность, заве-
ренную электронной подписью.
Потсдамский университет нацелен хранить свои документы в формате
PDF/A. Национальная библиотека Германии предпочитает PDF/A всем другим
форматам файлов, когда контент содержится в электронной форме. «Стандарт-
ный» PDF находится на втором месте по критерию популярности, следующий за
ним – формат HTML.
В Швеции Национальный архив расценивает PDF/A как подходящий фор-
мат для архивирования текстовых документов. Центр LDP (Centre for Long-term
Digital Preservation) рекомендует PDF/A: формат PDF/A создан, чтобы отвечать
требованиям по записям при выборе формата файла, а именно находиться в сво-
ем исходном состоянии и быть укомплектованным для долгосрочного хранения;
кроме основных метаданных каждого документа, можно добавлять другие мета-
данные, что увеличивает способность отслеживания документов и показывает
их историю.
В Австрии Национальная библиотека в инструкции для поставщиков поста-
вила условие о приеме документов только в формате PDF/A. Такое требование
накладывает дополнительные условия на присылаемые файлы и нацелено на
гарантию поддержки долгосрочного архивирования электронных документов.
Библиотека ориентируется на стандарт ISO 19005-1 «Управление документами –
Формат файлов для долгосрочного хранения электронных документов – Часть 1:
Использование PDF (PDF/A)», основанный на PDF 1.4.
Федеральная палата консультантов архитекторов и инженеров Австрии вы-
двинула требование о соответствии общедоступных электронных документов
стандарту PDF/A-1b.
А.О. МЕЛАЩЕНКО, О.Л. ПЕРЕВОЗЧИКОВА, Е.С. СКАРЛАТ
114 Компьютерная математика. 2011, № 1
В Дании, начиная с апреля 2011 года, по решению Парламента органы госу-
дарственной власти обязаны использовать формат ODF, поскольку этот единст-
венный редактируемый формат полностью удовлетворяет пяти критериям «от-
крытости». PDF/A-1 указан для публикации нередактируемых документов.
Во Франции Генеральный директорат по модернизации государства и бюд-
жетное министерство в начале 2009 года издали рекомендации по обработке
электронных данных по стандарту ISO PDF/A для архивирования администра-
тивных документов со статичным, неизменным контентом.
В Норвегии правительство поставило условие, что вся информация, опуб-
ликованная на государственном WEB-сайте, должна быть сохранена в таких
общедоступных форматах документов, как HTML, PDF соответственно PDF/A
или ODF. PDF/A рекомендован для всех документов с обязательным формати-
рованием. Эта рекомендация введена 1 января 2009 года. С 1 января 2010 года
муниципальная администрация получила указание использовать открытые фор-
маты файлов (ODF, HTML, PDF 1.4 или лучше PDF/A) при публикации инфор-
мации через интернет.
В Швейцарии Федеральный суд Швейцарии в проекте резолюции «Правила
электронной передачи в домене административной деятельности» переходит на
PDF/A, что и отображается в табрице. Правила приняты 1 января 2008 года и
запланирована полная их реализация за последующее десятилетие [10].
ТАБЛИЦА. Состояние принятия правительственными ведомствами разных стран
документов формата PDF и PDF/A для долгосрочного хранения
Ведомства Формат Состояние
Администрация Национальных архивов и записей США
(NARA)
PDF/A Общепринят
Европейская комиссия (MoReq) PDF/A Рекомендован
Правительство Германии (SAGA v4) PDF/A Рекомендован
Правительство Франции PDF/A Рекомендован
Правительство Дании PDF/A Требуемый
Национальные Архивы Швеции PDF/A Общепринят
Национальная библиотека Австрии PDF/A Рекомендован
Национальные Архивы Норвегии PDF/A Рекомендован
Организация по развитию автоматизированного учета PDF/A Рекомендован
Бразильская федеральная законодательная власть PDF/A Требуемый
Суды США PDF Требуемый
Виктория, Австралия, архивы Public Record Office PDF Требуемый
Архивный стандарт итальянского правительства PDF Общепринят
Национальная центральная библиотека, Тайвань PDF Рекомендован
Заключение. В ближайшие годы в архивах электронных документов как
источниках информации для принятия важнейших управленческих решений
проблемы хранения приобретут ключевое значение в методологии организации
такого рода информационных ресурсов. Работы по обеспечению сохранности
электронных документов можно разделить на три вида: 1) обеспечение физиче-
ской сохранности и целостности файлов электронных документов; 2) обеспече-
ние условий для считывания информации в долговременной перспективе;
3) обеспечение условий для воспроизведения электронных документов в чита-
бельном виде. Первое условие зависит от создаваемой системы электронного до-
кументооборота, будь она основана на спецификации MoReq2 [11], MoReq2010
или абсолютно иной. Последние два условия способен обеспечить формат PDF/A.
ФОРМАТ ДОЛГОСРОЧНОГО ХРАНЕНИЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
Компьютерная математика. 2011, № 1 115
А.О. Мелащенко, О.Л. Перевозчикова, O.С. Скарлат
ФОРМАТ ДОВГОСРОКОВОГО ЗБЕРІГАННЯ ЕЛЕКТРОННИХ ДОКУМЕНТІВ
Розглянуто деталі впровадження форматів файлів для довгострокового зберігання електрон-
них документів. Проаналізовано існуючі формати файлів і зазначено основні аргументи до-
цільності використання формату PDF/A для архівного зберігання електронних документів.
Запропоновано основні напрямки діяльності по забезпеченню останньої стадії життєвого
циклу документів – архівного зберігання.
A.О. Melashenko, O.L. Perevozchykova, O.S. Skarlat
A FORMAT FOR LONG-TERM PRESERVATION OF ELECTRONIC DOCUMENTS
Implementation details of file formats for long-term preservation are described. An analysis of exist-
ing file formats and main reasonable arguments of expediency of the exertion of PDF/A format for
archive preservation of electronic documents are considered. A basic course of activities which pro-
vide a last stage of document lifecycle, i.e., their archival storage, is proposed.
1. ISO/IEC 26300:2006 Information technology – Open Document Format for Office Applications
(OpenDocument) v1.0
2. ISO/IEC 29500:2008 Information technology – Document description and processing languages
– Office Open XML file formats ISO 32000
3. ISO 32000-1:2008 Document management – Portable document format – Part 1: PDF 1.7
4. PDF/Archive Committee http://www.aiim.org/Resources/Standards/Committees/PDFA
5. PDF/A – worldwide collaboration to preserve electronic Documents
http://www.aiim.org/documents/standards/PDF-A/PDF-A-ISO-Focus.pdf
6. ISO 19005-1:2005 Document management – Electronic document file format for long-term
preservation – Part 1: Use of PDF 1.4 (PDF/A-1)
7. ISO/DIS 19005-2.2 Document management – Electronic document file format for long-term
preservation – Part 2: Use of ISO 32000-1 (PDF/A)
8. ETSI TS 102 778:2009 Electronic Signatures and Infrastructures (ESI); PDF Advanced Elec-
tronic Signature Profiles
9. PDF/A archiving standard http://www.adobe.com/enterprise/standards/pdfa/
10. Recommendations and Guidelines for PDF/A http://www.pdfa.org/doku.php?id=vorgaben:en
11. Model Requirements for the management of electronic records. MoReq2 specification.
http://ec.europa.eu/transparency/archival_policy/
Получено 21.12.2010
Îá àâòîðàõ:
Мелащенко Андрей Олегович,
младший научный сотрудник,
аспирант Института кибернетики имени В.М. Глушкова НАН Украины,
Перевозчикова Ольга Леонидовна,
доктор физико-математических наук, профессор, член-корреспондент НАН Украины,
заведующая отделом Института кибернетики имени В.М. Глушкова НАН Украины,
Скарлат Елена Сергеевна,
младший научный сотрудник,
аспирантка Института кибернетики имени В.М. Глушкова НАН Украины.
|