A Brasiliana é um dos melhores exemplos de biblioteca digital do país. Fruto da doação do acervo pessoal do bibliógrafo José Mindlin e sua esposa Guita para a Universidade de São Paulo, o projeto já digitalizou 3 mil objetos dentre livros, mapas e imagens em domínio público.

Coordenador de Tecnologia da Informação da Biblioteca, o professor do Departamento de Engenharia de Computação e Sistemas Digitais da Escola Politécnica da USP Edson Gomi é um dos curadores do Simpósio e responsável pelo Grupo de Trabalho sobre “Texto e Imagem”. A ideia do eixo é debater temas como qualidade de digitalização para preservação, reprodução e visualização, formatos para objetos e repositórios digitais, modelos de negócio e sustentabilidade, padrões de metadados, entre outros.

Nesta entrevista, Edson conta como é feito o trabalho na Brasiliana, ressalta a importância do projeto para a educação e cultura do país e fala sobre as políticas públicas necessárias para o desenvolvimento desse tipo de projeto.

1. Qual o tamanho do acervo digital da Brasiliana hoje? Qual é o ritmo do processo de digitalização e qual a infraestrutura usada?

“A Brasiliana Digital disponibiliza hoje centenas de livros, mapas e imagens. Juntos, somam mais de 3 mil objetos digitais. O ritmo da digitalização não é tão rápido como gostaríamos, pois enfrentamos restrições em termos de equipamentos e profissionais.

O processo de produção de uma obra digitalizada inclui o escaneamento das páginas, o processamento das imagens digitais, a produção de meta-dados, o OCR, a produção da resenha e o controle de qualidade final. Na infraestrutura disponível atualmente, temos um robô-scanner (a Maria Bonita), estações de trabalho e servidores de armazenamento. Com os novos projetos que estamos negociando no momento, será possível melhorar e aumentar o parque computacional, contratar mais pessoas e aumentar o ritmo de produção.

Vale ainda ressaltar que o Portal da Brasiliana foi criado com software open source, o que permite outras iniciativas se beneficiarem do conhecimento gerado pelo nosso projeto.”

2. A Brasiliana utiliza o OCR para reconhecimento de caracteres. Qual a razão da escolha? Qual a política para padrões digitais?

“Sim, a maioria dos livros que estão à disposição na Biblioteca Brasiliana Digital foram preparados com a utilização do OCR (Optical Character Recognition) [software de reconhecimento de caracteres]. Usamos 2 produtos diferentes, o OCR do BookScan Editor da Kirtas e o OCR do Luratech, mas a tecnologia de OCR presente nesses produtos é da empresa russa ABBYY.

Livros digitalizados com OCR são interessantes, pois permitem ao leitor realizar buscas sobre o texto. Infelizmente a taxa de erros ainda é alta, o que inviabliza o uso de tecnologias como leitura automatizada (áudio). Adicionalmente, o OCR sobre textos manuscritos ainda é um problema de investigação científica em aberto. Assim, ainda não existem software experimental ou comercial que sejam capazes de reconhecer textos manuscritos quaisquer com taxa de acerto aceitável.”

3. Qual a importância de um projeto como a Brasiliana? Como podemos vislumbrar seus usos para a educação e para a cultura?

“O objetivo primário do projeto da Biblioteca Digital Brasiliana é tornar disponível, pela Internet, todo o acervo da Biblioteca Brasiliana Mindlin cujo conteúdo esteja em domínio público. Adicionalmente teremos como produtos do projeto a geração de tecnologia, métodos e processos para a criação de acervos digitais e a formação de profissionais qualificados nesta área.

A importância da Brasiliana Digital para a educação e cultura está no fato de que as pessoas terão acesso gratuito ao acervo digitalizado, podendo fazer download dos textos completos e das imagens, copiar e colar nas suas anotações de estudo e nos trabalhos de pesquisa.

A disponibilidade dos textos em edições originais ou em épocas distintas permite ao leitor uma interessante viagem às origens dos textos e à História do Brasil. Assim, a Brasiliana Digital torna-se uma ferramenta importante de acesso ao acervo que somente pesquisadores qualificados tinham acesso.”

4. Há ausência de políticas públicas para a digitalização? Por que ainda não há prioridade pública para essas iniciativas?

“Somente em anos recentes começamos a ter acesso aos diversos componentes tecnológicos necessários para uma empreitada deste tipo: scanners, hardware para processamento e armazenamento, software e as pessoas conectadas à Internet.

Ainda não há políticas estabelecidas para a digitalização de acervos culturais, mas isso não significa que não há prioridade para essas iniciativas. Pelo contrário, é o apoio do Ministério da Cultura que viabilizou a organização do Simpósio Internacional de Políticas Públicas para Acervos Digitais.

A ideia do Simpósio é ter a oportunidade de ouvir relatos de experiências de criação de acervos digitais, debater os problemas e os desafios existentes e obter um cojunto de recomendações que sirvam de base para futuras políticas públicas a serem implantadas. Essas políticas públicas deverão contemplar aspectos como a criação de infraestrutura pública para acervos digitais, pois o hardware é caro e a sua operação é complexa, e formas de financiamento para a operação e preservação desses acervos ao longo do tempo.”

5. Projetos como a digitalização das primeiras obras de Machado de Assis têm uma grande repercussão e uma inquestionável importância cultural. Existe algum critério para a disponibilização digital das obras?

“Sim, procuramos lançar as obras agrupadas em coleções por autor, por tema ou em comemoração a datas especiais. Cada lançamento é acompanhado de uma resenha escrita por um especialista no assunto.”

6. É certo que ainda há muitas obras já em domínio público e que ainda precisam passar pelo processo de digitalização. No entanto, obras contemporâneas são necessárias para avançar uma série de pesquisas, por exemplo, criando uma lacuna chamada “séc. XX”, por conta das leis de direito autoral. Como lidar com essa limitação?

“Evidentemente, temos como princípio respeitar a Lei do Direito Autoral e, por isso, obras que não estão em domínio público não serão digitalizadas e colocadas à disposição do público por enquanto. Sem levar em consideração mudanças na Lei do Direito Autoral, a alternativa seria obter o licenciamento (gratuito ou pago) dos detentores dos direitos sobre as obras.

Ao seguir esta estratégia, de imediato deparamos com um problema de ordem “cultural”. A maioria das obras não seriam candidatas a um grande sucesso comercial. Basta ver a enorme quantidade de livros que não se encontram mais à venda e cuja demanda é da ordem de alguns poucos leitores por ano. Um sub-conjunto dessas obras poderia se beneficiar da tecnologia “print-on-demand” (impressão de livros sob demanda), mas mesmo assim restariam muitas obras que despertam apenas curiosidade ou demanda por pesquisadores.

Não seria melhor licenciá-las e torná-las públicas? O acesso gratuito a essas obras poderia gerar maior demanda do que tentar a sua reimpressão e venda posterior. O acesso aberto permite a pessoas navegar pelos textos de maneira livre e descobrir tesouros que ela não encontraria se tivesse que comprar todos os livros pelos quais ela percorreu. Mas não é fácil convencer da existência desse efeito os proprietários dos direitos desse tipo de obra.

Outro problema é que é seria muito caro o processo de identificação dos detentores dos direitos das obras, sejam porque eles são desconhecidos, seja porque eles estão geograficamente espalhados. Outra alternativa seria estabelecer um Fundo Público e regras de licenciamento para este tipo de obra. Isso viabilizaria a digitalização de muitas obras do Século XX, pois se houver reclamações sobre os direitos, as regras e os custos de licenciamento estariam a cargo deste Fundo Público.”

7. Como está estruturado o GT Texto e Imagem? Quais as prioridades e como se pretende encaminhar os trabalhos?

“Já está disponível o Blog do GT Texto e Imagem: http://culturadigital.br/textoeimagem. Esta será a forma primária de comunicação e discussão dos assuntos relativos a livros, imagens, mapas, etc. Realizaremos no dia 15 de abril, na USP, com transmissão por IPTV, um seminário sobre Acervos Públicos, Culturais e Científicos. Esperamos receber contribuições de especialistas, praticantes e também do público em geral.”

Entrevista: Henrique Costa

Tags: , , , , ,