E-books e seus formatos: falando sobre PDF - sua história, prós e contras

Em nosso blog, já discutimos as especificidades dos padrões DjVu , FB2 e FB3 . Hoje falamos sobre o formato PDF, que se tornou a personificação do sonho de um "escritório sem papel".


/ Flickr / Kim Siever / PD

Uma breve história do formato


O criador do PDF, ou Portable Document Format, foi criado por John Warnock, um dos fundadores da Adobe, que queria facilitar o processo de impressão de texto e imagens em um computador. Em 1984, a Warnock introduziu a linguagem de descrição da página PostScript .

A Wikipedia fornece um exemplo de código PostScript que desenha algumas palavras da Wikipedia em um círculo .

%!PS-Adobe-1.0 %  ,     1 =1/72 , %    . 72 25.4 div % 1  = 72/25.4  dup %      scale %         100 100 translate %     (100 , 100 ) /Times-Roman findfont %   Times-Roman 10 scalefont %    10 (  - !) setfont %    0 30 330 { %     0  330   30 gsave %     rotate %    (      ) 15 0 moveto %    (15 , 0 ) (Wikipedia) show %     grestore %    } for %   for showpage %   

Inicialmente, o PostScript foi desenvolvido como uma ferramenta para imprimir documentos em uma impressora, mas posteriormente Warnock decidiu que, com a ajuda de uma nova linguagem, é possível não apenas imprimir documentos, mas também "digitalizar" completamente o sistema de fluxo de trabalho.

Como parte dessa visão, a Adobe (fundada por Warnock) criou o formato IPS (sigla para Interchange PostScript). Para trabalhar com ele, foi criado o Adobe Illustrator - um editor de gráficos multiplataforma para Windows e Mac.

O IPS foi exibido pela primeira vez na conferência Seybold em San Jose, em 1991, mas com esse nome o formato durou dois anos - em 1993, foi renomeado para PDF. Depois veio o Acrobat Distiller e o Acrobat Reader (mais tarde renomeado para Adobe Reader).

No início, o PDF não era popular. A falha foi no alto preço do software: o Acrobat Distiller para uso pessoal custou US $ 700 e, para uso corporativo, US $ 2.500. Para o Acrobat Reader, eles pediram outros 50 dólares. Com o tempo, a Adobe baixou os preços e a popularidade do PDF começou a ganhar impulso.

No início do zero, o Acrobat Reader 4.0 foi baixado por cem milhões de pessoas, e grandes empresas de TI, como Microsoft e Apple, começaram a usar o formato PDF.

Como o PDF funciona?


A abordagem básica para apresentar gráficos e texto em PDF é muito semelhante à usada pelo PostScript. Os chamados elementos de texto são responsáveis ​​por exibir o texto em uma página. Eles indicam onde os caracteres devem ser desenhados. A Wikipedia fornece código para escrever Hello World:

 /Courier %   20 selectfont %     72 500 moveto %     72, 500 (Hello world!) show %     showpage %     

Para desenhar gráficos vetoriais em PDF, os caminhos são usados: linhas retas ou curvas de Bezier cúbicas . As formas construídas usando contornos podem ser preenchidas com cores ou sombreadas. Quanto às imagens raster, elas são representadas na forma de dicionários e fluxos . Os dicionários descrevem as propriedades e o fluxo contém informações binárias sobre a imagem.

O tamanho do arquivo PDF depende da resolução das imagens, configurações de fonte, uso de hiperlinks, vídeos e assim por diante. Até a década de 2000, o tamanho dos arquivos PDF era medido em megabytes, porque a maioria dos documentos era composta de imagens JPEG. Para resolver esse problema, a Adobe propôs a tecnologia de compactação MRC ( Mixed Raster Content ).

O MRC “ divide ” o arquivo digitalizado em camadas: uma camada de fundo, uma camada de texto e uma máscara de cores. Para a compactação das informações disponíveis em cada camada, seu próprio codec é responsável. Por exemplo, o JBIG2 pode ser usado para texto, que forma grupos de letras semelhantes e cria um dicionário com elas. Portanto, os mesmos caracteres são codificados uma vez e, em outros lugares, apenas as referências a eles são usadas.

Os codecs JPEG, JPEG2000 ou ZIP são usados ​​para compactar outro conteúdo. Com a ajuda deles, o plano de fundo da imagem, a alocação de cores do texto, imagens e fotos são salvas. Devido a essa abordagem, o tamanho de cada página é reduzido pela metade ou mais. Exemplos ilustrativos de compactação de PDF são fornecidos por Abbyy em seu blog em Habré .

Vantagens do PDF


Uma das principais vantagens dos arquivos PDF é o fato de todas as páginas terem exatamente a aparência que o autor do documento pretendia. O formato preserva o plano de fundo original, fontes e imagens em sua forma original, independentemente do dispositivo ou sistema operacional. Ao mesmo tempo, o PDF permite trabalhar com elementos interativos: hiperlinks para navegar nas notas de rodapé. Além disso , os arquivos de mídia são adicionados ao documento: música, GIF e até vídeos.

Ao mesmo tempo, o arquivo PDF pode ser feito somente leitura, o que ajuda a proteger o conteúdo do documento de copiar e fazer alterações. Para proteção adicional, é possível colocar uma senha ou uma assinatura eletrônica.

Outra vantagem do formato é sua acessibilidade. Atualmente, o programa para ler um documento PDF Adobe Acrobat Reader está na rede em acesso gratuito. Você pode abrir PDF em e-books. A maioria deles é "capaz" de trabalhar com esse formato por padrão. É suportado por muitos aplicativos de leitores, por exemplo, FBreader ou NEO Reader.

Formatar Contras


A imutabilidade do formato PDF, embora seja sua vantagem, também se mostra uma grande desvantagem. Esses arquivos (especialmente diagramas e gráficos grandes, anotações, documentos em grande formato) são difíceis de ler em dispositivos com telas pequenas - smartphones ou leitores eletrônicos compactos. A página simplesmente não cabe na tela do dispositivo ou o texto é exibido muito pequeno.

Existem leitores eletrônicos no mercado com uma resolução de tela de 13,3 ou 10,3 polegadas, que permite trabalhar confortavelmente com folhas A4 de PDF. Exemplos desses dispositivos podem ser o ONYX BOOX MAX 2 (uma revisão que preparamos em nosso blog ), o ONYX BOOX Note ou o ONYX BOOX Gulliver (também possui uma revisão ). Eles oferecem a oportunidade de considerar todos os detalhes dos desenhos e ilustrações no tamanho original e são adequados para aqueles que frequentemente precisam ler a literatura técnica. No entanto, o custo desses aparelhos é bastante alto.

Há outro problema com a exibição de páginas de documentos. Está associado ao formato JBIG2. Embora o codec permita compactar o texto várias vezes, ele está sujeito à influência do problema "yin" (escrevemos sobre isso no material sobre DjVu ). Ao compactar o texto e compilar o dicionário, alguns caracteres são substituídos por outros semelhantes (por exemplo, “e” se transforma em “n”), o que leva a uma distorção da essência do texto.

Também há problemas com a edição de arquivos PDF, pois você precisa instalar programas especiais geralmente pagos (por exemplo, Acrobat DC ). Também existem serviços de edição gratuitos na rede, como o PDF2GO , mas eles permitem apenas adicionar texto ou imagens "em cima" do arquivo original.

Desenvolvimento adicional


Apesar de suas deficiências, o PDF continua sendo um formato popular atualmente. A empresa de marketing HubSpot pediu a três mil visitantes em seu site o que eles fazem com os e-books: leia on-line ou faça o download em PDF. Aconteceu que 90% dos entrevistados preferem fazer o download de um arquivo PDF.

Os desenvolvedores estão constantemente adicionando novos recursos, inclusive para leitura em gadgets portáteis. Por exemplo, no início de 2018, a equipe da Adobe forneceu ao aplicativo Acrobat DC recursos avançados de exibição e edição em dispositivos móveis.

Além disso, em agosto, houve informações sobre um novo projeto - PDF audível . Ele combinará os recursos do PDF e a funcionalidade dos assistentes de voz: Alexa, Google Home e Siri. Até o momento, apenas um protótipo está pronto, mas os desenvolvedores prometem lançar uma versão funcional em um futuro próximo.

A Adobe está seguindo novas instruções e pretende tornar o formato mais interativo, por exemplo, adicionar recursos de realidade aumentada. Sua aparência ainda não está clara, mas os desenvolvedores prometem que o ecossistema PDF atingirá um novo nível de interação do usuário nos próximos anos.



Leitura adicional - opiniões dos leitores ONYX BOOX:

Source: https://habr.com/ru/post/pt435308/


All Articles