Что такое PDF?

Что такое PDF и почему он незаменим для обмена электронными документами?

Обновлено: 26 августа 2024 г. Автор: Виталий

Узнайте, что такое PDF и как он стал стандартом для обмена документами. В этой статье мы раскроем все секреты популярного формата, от его технических характеристик до уникальных возможностей. Вы также узнаете, как создать и чем редактировать PDF.

Что за формат PDF?

PDF (Portable Document Format или в дословном переводе – портативный формат документов) – это файловый формат, специально разработан с целью обеспечить независимость отображения печатных документов от программного обеспечения, аппаратной части и операционной системы. Иными словами, независимо от устройства, где открывается документ, формат одинаково отражает все компоненты верстки: текст, изображения или другие графические элементы.

От популярны форматов электронных изображений (JPEG, PNG и других) PDF принципиально отличается тем, что он призван отображать именно бумажное, а не электронное изображение. В частности, основными характеристиками электронного изображения обычно являются размер в пикселах и глубина цвета. В то время страница в документе PDF измеряется в дюймах или сантиметрах бумажного листа, а разрешение в пикселах часто может быть практически любым, в зависимости от задачи. Кроме того, PDF довольно часто бывает многостраничным, в отличие от большинства форматов цифровых изображений.

От других форматов документов (docx, xlsx и других) отличается тем, что он задуман как максимально не зависящий от конкретной программы (например редактора таблиц или документов). Корректно сделанный PDF будет одинаково отображаться на любой операционной системе, не будет зависеть от наличия или отсутствия шрифтов на компьютере и т.д. Типичный же docx будет довольно сильно отличаться, если открыть его в Microsoft Word, или в Open Office. Даже конкретная версия той или иной программы может сильно влиять на внешний вид или даже количество страниц в итоговом документе. Зато docx очень легко редактировать, в отличие от PDF.

Подробная информация о формате

PDF разработан специалистами компании Adobe Systems в 1993 году. Этот формат основан на технологии, которая берет начало с PostScript. Последний создан той же Adobe, но в 1982 году, и является языком описания страниц, изначально предназначался для управления принтером и обеспечения правильной печати документов. Поэтому чтение PDF на компьютере или смартфон – это по сути эмуляция работы принтера, только вместо бумаги вывод осуществляется на экран.

Сохраненные в PDF формате документы представляют собой сэндвич, состоящий из множества объектов внутри: текстового блока, изображения, формы и аннотации. Когда просмотрщик открывает файл, запускается фиксированный набор инструкций, которые правильно компонуют все объекты на каждой странице. В результате пользователь видит документ в том виде, как он был создан изначально.

В зависимости от назначения слои делятся на типы:

  • Объектный. Содержит текст, изображения и другие графические элементы.
  • Структурный. Логическая структура документа, включающая иерархию заголовков, параграфов и метаданных.
  • Шрифты. PDF может хранить встроенные шрифты, что гарантирует корректное отображение текста независимо от того, установлены они на устройстве пользователя или нет.
  • Сжатие данных. Формат PDF поддерживает различные алгоритмы сжатия, включая ZIP, JPEG и LZW, что позволяет оптимизировать размер файла без потери качества.
  • Элементы интерактивности. В более поздних версиях формата появилась возможность иметь встроенные мультимедийные объекты. Это может быть видео и аудио, а также элементы интерактивности: гиперссылки, формы и кнопки.

С помощью PDF можно создавать документы любой сложности, будь-то буклет, электронная книга или инструкция со сложными графическими элементами, при этом гарантируя правильное отражение на экране.

Характеристики и возможности формата

На протяжении всего времени существования PDF формат активно развивался и получил несколько разновидностей, каждая разработана для решения конкретных задач и под определённые требования.

  • PDF/A. Специальная версия формата, предназначенная для долгосрочного архивирования документов. PDF/A исключает использование элементов, которые могут привести к нестабильности отображения или невозможности открытия файла в будущем, таких как шифрование или ссылки на внешние ресурсы.
  • PDF/X. Стандарт разработан для профессиональной печати и полиграфии. PDF/X гарантирует, что все элементы файла, необходимые для печати, включая шрифты и изображения, встроены в документ. Этот формат исключает такие функции, как интерактивность и шифрование, чтобы обеспечить предсказуемость и стабильность при выводе на печать.
  • PDF/E. Спецификация, предназначенная для использования в инженерных и технических областях. Поддерживает трехмерные чертежи, инженерные данные и другие специализированные элементы, что делает ее полезной для обмена и архивирования инженерной документации.
  • PDF/UA. Стандарт, направленный на обеспечение доступности документов для людей с ограниченными возможностями. Он включает требования к структуре и метаданным, чтобы обеспечить корректное взаимодействие с программами для чтения экрана и другими вспомогательными технологиями.
  • PDF/VT. Версия PDF предназначена для переменной и транзакционной печати, которая широко используется в сфере персонализированной печати, например, для создания счетов, уведомлений и других документов с переменными данными.

Отдельно стоит отметить, что кроме стандартных методов сжатия данных, PDF-документы поддерживают технологию MRC (Mixed Raster Content). Она работает по принципу разделения изображения на несколько элементов, каждый из которых может быть сжат с использованием оптимального для него алгоритма. Например, фон может содержать крупные области, такие как цветные заливки или изображения. Маска определяет контуры и границы объектов, а передний план содержит мелкие детали, например, текст или небольшие картинки.

После разделения каждый слой сжимается индивидуально, используя наиболее подходящий алгоритм. Например, для сжатия фонового слоя может использоваться JPEG, а для текста – JBIG2. Последний объединяет внешне похожие символы в кластеры, создавая единый словарь для всего документа. В результате получается только одна копия символа со списком координат размещения на странице. Сборка конечного отображения в MRC является последним этапом, который объединяет изображение, обеспечивая существенное сокращение размера файла без заметной потери качества.

Технология MRC особенно эффективна для файлов, содержащих как текст, так и изображения, что делает ее идеальным выбором для оцифровки бумажных документов, сканирования и архивации.

Сравнение PDF с другими электронными форматами печатных документов

Кроме PDF, есть и другие форматы, которые призваны быть электронной версией печатного документа. PDF отличается от других форматов, большей универсальностью и поддерживает большее разнообразие типов контента, демонстрируя эффективное сжатие каждого из них. Это одновременно и преимущество, и недостаток формата PDF. С одной стороны, он может собой заменить практически все остальные форматы этого типа, с сохранением всех функций. С другой стороны, такая чрезмерная универсальность сделала формат PDF чересчур сложным и дорогим в поддержке. К примеру, документ с описанием не самой последней версии 1.7 стандарта PDF имеет 747 страниц.

Отличия PDF от DjVu

Что такое PDF и чем отличается от DjVu
Что такое PDF и чем отличается от DjVu

DjVu – это формат, разработанный в 1990-х годах для сжатия отсканированных документов и изображений. Его главная особенность заключается в использовании технологии сегментации изображения и сжатия, которая позволяет значительно уменьшить размер файлов, сохраняя при этом достаточно высокое качество. Однако существуют значительные различия между PDF и DjVu:

  • Функциональность. PDF поддерживает широкий спектр возможностей, включая текст, векторную графику, мультимедийные элементы, гиперссылки и формы, что делает его универсальным инструментом для создания и распространения документов. DjVu, ориентирован исключительно на отсканированные изображения текстовых документов.
  • Векторный PDF может быть растеризован под любое разрешение, DjVu уже привязан к тому разрешению, в котором производилось сканирование исходного изображения.
  • Размер файлов. DjVu способен значительно уменьшать размер файлов по сравнению с PDF, поскольку он работает исключительно с изображением и не поддерживает встроенные шрифты. Поэтому его часто используют для архивирования и распространения больших объемов отсканированных документов, таких как книги или старые рукописи.
  • Совместимость. PDF признан международным стандартом (ISO 32000) и поддерживается на всех основных платформах и устройствах. Этот формат можно открыть штатным программным обеспечением, например, браузером EDGE Windows. В свою очередь DjVu менее распространен, и для его открытия часто требуются специальные программы или плагины.

Сравнение PDF с EPUB

Что такое PDF и чем отличается от EPUB
Что такое PDF и чем отличается от EPUB

EPUB (Electronic Publication) – это формат файлов, предназначенный для электронных книг и других видов публикаций, ориентированных на чтение с экрана. Несмотря на кажущуюся схожесть с PDF, они имеют принципиальные различия, которые делают их подходящими для разных задач.

Главным преимуществом EPUB является его способность адаптироваться к разным размерам экрана и изменению шрифта. Контент автоматически перестраивается под размер и ориентацию экрана, что обеспечивает удобное чтение на различных устройствах — от смартфонов до больших мониторов. В свою очередь PDF сохраняет фиксированное форматирование, что гарантирует точное отображение документа, но это может быть неудобно для чтения на небольших экранах.

Как и PDF, EPUB поддерживает встроенные мультимедийные элементы и различные интерактивные компоненты, включая гиперссылки и аннотации. При этом его возможность адаптации контента под пользовательский экран делает его более удобным решением для мобильных устройств.

PDF широко используется в профессиональных и деловых кругах для обмена документами, которые должны выглядеть одинаково на всех платформах. EPUB чаще встречается в сфере электронных книг и образовательных материалов, где важна адаптивность контента под разные устройства.

EPUB основан на технологии XHTML и HTML, поэтому представляет собой архив, хранящий в себе мини веб-сайт со всеми составляющими элементами: стилями, изображениями, шрифтами. Чтобы убедиться в этом, достаточно открыть файл с помощью архиватора.

Структура EPUB файла
Структура EPUB файла

Как открыть и чем редактировать PDF

Все современные браузеры имеют встроенные средства для открытия PDF без необходимости установки дополнительных расширений. Однако они способны только читать этот формат, соответственно, не поддерживают возможность оставлять комментарии или рекомендации по редактированию документа. Для этих задач необходимо использовать специальные просмотрщики, например, Adobe Acrobat Reader, который является бесплатным и может быть установлен в ОС Windows или MacOS. Кроме этого, есть мобильные версии программы для iOS и Android.

Что такое PDF и возможности его редактирования в Acrobat Reader
Что такое PDF и возможности его редактирования в Acrobat Reader

Adobe не выпускает ПО под это семейство операционных систем Linux, но пользователи последних могут использовать аналоги. Например, Okular – кроссплатформенный просмотрщик с открытым исходным кодом проекта KDE, обладающий всеми возможностями, что и Acrobat, но бесплатен и доступен как для Linux, так и для Windows операционных систем.

Открытие PDF-документа в программе Okular
Открытие PDF-документа в программе Okular

Создать PDF файл можно и с помощью текстового редактора Word или бесплатного аналога LibreOffice Writer.

Как сохранить PDF в LibreOffice Writer
Как сохранить PDF в LibreOffice Writer

Гораздо сложнее редактировать файл, сохраненный в формате PDF, так как формат изначально задумывался не для этого. Проще отредактировать исходный документ и сохранить его в PDF заново, но если такой возможности нет компания Adobe предлагает платную версию Acrobat Reader Pro, которая ежемесячно обойдется в $25. Кроме этого есть бесплатные решения с открытым исходным кодом. Например, в том же офисном пакете LibreOffice есть редактор векторной графики Draw, который хорошо работает с PDF документами и поддерживает возможность их редактирования.

Как редактировать PDF в LibreOffice Draw
Как редактировать PDF в LibreOffice Draw

Если возможности LibreOffice Draw вам покажутся недостаточными, есть более профессиональные бесплатные решения: Inkscape или Scribus. Последняя программа и вовсе считается аналогом Adobe InDesign и обладает всеми необходимыми функциями для издательского дела и полиграфии.

Как редактировать PDF в Scribus
Как редактировать PDF в Scribus
Как редактировать PDF в Inkscape
Как редактировать PDF в Inkscape

Заключение

PDF утвердился как стандарт для обмена документами благодаря своим уникальным техническим характеристикам и универсальности. Он обеспечивает надежное хранение и передачу данных с сохранением всех элементов оформления, что делает его незаменимым инструментом для создания, распространения и архивирования документов в самых различных сферах деятельности. В сравнении с другими форматами, такими как DjVu, PDF предлагает более широкий функционал и лучшую совместимость, но DjVu может быть предпочтителен в случаях, когда важно минимизировать размер файлов при оцифровке и архивировании отсканированных материалов.