Esta entrevista integra uma série de entrevistas com profissionais de diferentes áreas que atuam em projetos de digitalização. Buscamos nas conversas tentar explorar as especificidades de cada parte envolvida no processo de trabalho. São bibliotecários/as, programadores/as, linguistas, acadêmicos/as e gerentes de projeto.
Nessa conversa, falaremos com Vitor Hitoshi Tsujiguchi, que é engenheiro de computação formado pelo departamento de Engenharia Elétrica da Escola Politécnica da Universidade de São Paulo em 2007. Atualmente faz seu mestrando em Engenharia de Computação nesta mesma instituição, desde 2008. Seu tema de pesquisa é caracterização e compressão de imagens digitais. Participa do projeto Brasiliana Digital desde 2008, como bolsista TT-IVA, como analista de sistemas na equipe de TI e coordena a equipe de importação no sistema de produção da biblioteca digital.

Entre os temas abordados, falamos sobre o uso de robôs digitalizadores, tratamento da imagem, formatos de saída e técnicas de compressão. Foi falado também sobre visualizadores e as qualidades e desvantagens de cada formato. Abordamos também um dos assuntos quentes nos últimos tempos: os formatos e sua durabilidade. Para tal, Vitor acredita na importância dos visualizadores online, mas que a pesquisa e adoção de padrões abertos é imprescindível – tais como o EPUB, compatíveis com os novos e-readers.

1. Fale sobre o sistema de digitalização utilizado na Brasiliana Digital.

Foi oferecido à Brasiliana Digital um treinamento de uma semana na operação e manutenção no sistema de digitalização APT-RA 2400, após sua aquisição e chegada ao Brasil. Em março de 2009, o analista de sistemas Maurício Nunes e eu atendemos ao treinamento na empresa Kirtas, na cidade de Victor, estado de NY, nos EUA. O treinamento englobou o sistema de escaneamento automático e os softwares de processamento de imagens, tanto na parte de operação quanto de manutenção. Após o treinamento, realizamos toda a instalação e configuração dos sistemas no projeto, seguido do treinamento no uso para as equipes de operadores, além de oferecer suporte técnico e manutenção preventiva.
O sistema de escaneamento automático é composto por um robô scanner, equipado com duas câmeras de 21 megapixels de resolução, um braço mecânico, um sistema de sucção e aspiração de ar e um suporte regulável para comportar o livro. As câmeras capturam simultaneamente as imagens das páginas direita e esquerda do livro. Após o disparo, o braço mecânico se aproxima das páginas direitas do livro e, por meio de um sistema de sucção no braço e sopro sobre as demais páginas direitas, puxa-se apenas a primeira página da direita, executando uma ação similar à virada de uma página do livro, permitindo reativar o ciclo. Há um suporte onde o livro é colocado com uma abertura de 90º, de modo a diminuir a pressão sobre a costura do livro; devido à angulação do suporte, as câmeras estão dispostas de maneira diagonal e cruzadas entre si, de modo a capturar cada página frontalmente. É possível configurar a taxa de captura, com um limite de 2400 páginas por hora, através de um software de gerenciamento da digitalização.

2. Como funciona o processamento das imagens?

Após a captura das imagens digitais do livro, estas são armazenadas em um servidor, onde se encontram as ferramentas para o processamento das imagens. Temos um software de tratamento de imagens, o BookScan Editor (BSE) e dois softwares para processamento em lote dessas imagens, SuperBatch e OCR Manager.
O processo de tratamento de imagens é composto por três etapas. A primeira etapa é o pré-processamento, no software BSE, onde selecionamos duas imagens modelo, uma página esquerda e uma página direita do livro, e aplicamos as configurações gerais sobre as mesmas, como ajuste do tamanho (crop), brilho e contraste. Após salvar essas configurações, fazemos um processamento em lote na segunda etapa, usando o software SuperBatch, usando as configurações definidas em todas as imagens do livro. Por fim, voltamos ao software BSE para o pós-processamento, resolvendo ajustes finos sobre as imagens. Nesta etapa, são realizadas as retiradas de manchas, centralização do texto e ajustes nas curvaturas. As capas e contra-capas, bem como as Ilustrações do livro, são sempre preservadas no formato original, apenas ajustadas às dimensões originais do livro.

3. Quais são atualmente os formatos de apresentação?

Oferecemos, no site da Brasiliana Digital, as obras digitalizadas como um arquivo único no formato PDF, em 300 DPI de resolução e com as ferramentas de OCR (Reconhecimento Óptico de Caracteres) aplicadas, permitindo realizar buscas dentro do texto. Diversas obras apresentam ilustrações em cores e riqueza de detalhes, que apresentamos separadamente como imagens no formato JPEG, além de integrarem o arquivo PDF. Junto a cada obra digitalizada disponível no site são apresentadas todas as informações sobre os metadados descritivos, como título original, nome do(s) autor(es), assunto, ano de publicação, entre outros.

4) Qual a “durabilidade” desses formatos? São discutidos novos formatos de saída como soluções futuras?

Atualmente, estamos oferecendo o acesso a um livro digitalizado completo apenas como um arquivo único no formato PDF. Este formato de arquivo é bastante popular na internet, mas ainda exige que o usuário tenha instalado algum software para sua visualização, como o Adobe Reader.
A Gallica (http://gallica.bnf.fr) oferece uma opção de visualização online dos livros digitais, de modo a permitir o acesso sem a necessidade de baixar nenhum arquivo no computador pessoal. Há instituições que oferecem seus livros como arquivos de texto, como o Projeto Gutenberg (http://www.gutenberg.org). Os aparelhos para leitura de e-books atuais estão utilizando o formato EPUB, padrão desenvolvido pela International Digital Publishing Forum (IDPF), que é livre e aberto.
Cada formato apresenta suas vantagens e desvantagens, além da sua própria “durabilidade” na evolução da tecnologia no mundo digital. É interessante se estudar quais formas de representação do nosso acervo digital são adequadas para o público-alvo a ser atingido, levando em conta quesito como compatibilidade, qualidade na apresentação e fidedignidade ao conteúdo da obra original.
A Brasiliana Digital está pesquisando diferentes formas de apresentação dos documentos digitais. Todas as imagens originais e as imagens tratadas são armazenadas, além dos arquivos de saída gerados, de modo que podem ser reaproveitados para a geração de alternativas de apresentação. Uma das linhas de pesquisa promissoras da Brasiliana Digital é a de acrescentar uma opção de visualização online dos documentos digitais.

5) Como a Brasiliana Digital realiza a compressão dos arquivos?

Um dos grandes desafios enfrentados na Brasiliana Digital dizia respeito às formas de representação dos objetos digitais para o usuário. Como as imagens digitais dos livros são capturadas em alta resolução, temos uma grande riqueza de detalhes, porém arquivos muito grandes para serem transmitidos e executados. Após a etapa de processamento das imagens, o arquivo PDF resultante geralmente apresenta um tamanho elevado de armazenamento.
Inicialmente, oferecíamos duas opções de arquivos PDF do mesmo documento digital para o usuário: uma versão em alta resolução (300 DPI), com qualidade apropriada para impressão, e uma versão em baixa resolução (100 DPI), para visualização na tela de computador e de menor tamanho de armazenamento, permitindo um acesso mais rápido. Após alguns meses de pesquisa, adquirimos o software LuraPDF Compressor, da empresa Luratech, para alta compressão de arquivos e implementamos modificações sobre o fluxo de produção de objetos digitais da Brasiliana. Desde o dia 25 de janeiro de 2010, junto com a inauguração da versão 1.1 do site da Brasiliana Digital, foi estabelecido também um único arquivo PDF para cada documento digital, em alta resolução (300 DPI), próprio para impressão, mas de tamanho reduzido, graças às capacidades de compactação do software.

6) Como funciona essa compressão do LuraPDF Compressor?

O procedimento de compressão consiste inicialmente na análise e segmentação do documento: cada página do documento é segmentada em três regiões: uma máscara de imagem monocromática (ou binária, apresentando apenas pixels de valor branco ou preto) contendo o texto, uma imagem do fundo (background) e uma imagem frontal, com as cores e detalhes das imagens (foreground). Em seguida, são aplicadas técnicas eficientes de compressão para cada tipo de imagem: algoritmos de compressão do JPEG2000 para as imagens coloridas e algoritmos específicos para imagens monocromáticas, como JBIG2 e FaxG4. Por fim, encapsula-se novamente, obtendo página inicial comprimida. Este processo é aplicado para todas as imagens das páginas tratadas, resultando em um arquivo PDF altamente comprimido, mantendo ainda o resultado do reconhecimento óptico dos caracteres.

Tags: , , , ,