Últimos Posts

  • Arquivo do Estado

    2 comentários

    por: Fernão Lopes, em Entrevistas, Experiências no dia 26/04/2010

    O Arquivo Público do Estado de São Paulo é hoje um dos maiores arquivos públicos brasileiros. Destaca-se pela grande variedade de seu acervo: jornais diários, revistas, bibliotecas pessoais, acervos de órgãos jurídicos, documentos administrativos de órgãos estaduais, fotografias etc. Além de variado, o acervo é enorme. Tão grande que um novo prédio está sendo

    Centro de atendimento

    construído ao lado do atual, com o objetivo também de abrigar coleções e acervos que foram repassados para a tutela do Arquivo, além de oferecer condições adequadas para o armazenamento de diferentes tipos de materiais – livros, jornais, negativos etc. Atualmente, conta com um centro de atendimento ao público, que permite a consulta de 30 pessoas. No futuro prédio, há espaço previsto para 130 pessoas, acrescido de duas salas para atendimento coletivo.

    Historicamente, o principal público atendido foi o acadêmico. No entanto, uma vez que o Estado tem a posse de documentos que compõe a memória pública, é seu dever realizar a devolução para o grande público, seja ele qual for e quaisquer forem seus interesses. O fato de ter sempre servido principalmente à pesquisa não é incompatível com a perspectiva de uma ampliação dos públicos. Assim, a digitalização insere-se numa perspectiva ações sistemáticas para a expansão do foco do Arquivo.

    A digitalização do acervo, embora venha sendo feita desde 2000, só foi sistematizada em 2008. Segundo Lauro Ávila, diretor do departamento de Preservação e Difusão de Acervo do Arquivo Público do Estado de São Paulo, não existem ainda parâmetros e resoluções governamentais para a realização desse tipo de trabalho. Cita o exemplo do BNDES, que oferece linhas de financiamento para preservação, mas não para digitalização, justamente por não saber o órgão quais as regras que deveriam balizar iniciativas como essa.

    No arquivo, a digitalização vem sendo feita sem prescindir das técnicas analógicas de preservação. “Até agora, a única mídia digital que permanece é o HD”, afirma Lauro. Justamente por isso, a política de preservação de grande parte dos documentos é feita por meio de sua microfilmagem. O caso dos jornais é ilustrativo, já que o papel em que é impresso possui durabilidade muito baixa. Sendo assim, cada exemplar é microfilmado, sendo produzida uma matriz, de primeira geração. É feita uma cópia em prata, de segunda geração, e se guarda a matriz em outro local, fora das dependências do Arquivo. A partir da segunda, são feitas cópias para consulta do público em amônia/diaso, a chamada “cópia de terceira geração”. Com o processo de digitalização, essa última etapa vem sendo substituída pelo arquivo digital. Não se abandona a microfilmagem, que resta como backup persistente, num processo que possui uma durabilidade de séculos.

    Tratamento dos negativos do jornal Última Hora

    Higienização e novos envelopes para os negativos

    Já no caso das fotografias, o processo de digitalização do jornal Última Hora vem sendo feito em paralelo à higienização dos negativos, catalogação e acondicionamento em novas cartelas, com papel neutro e em ambiente climatizado. Todos os escritos das embalagens antigas são transcritos para as novas, adicionados de um número de índice – seu código no banco de dados. A partir de então, o negativo físico é guardado já sob nova organização. No novo prédio, diferentes salas armazenarão cada material, cada qual com a climatização adequada – ex: negativos de diferentes naturezas requerem distintas temperaturas. Os negativos são agrupados por “missões”, ou saídas. O passo seguinte é o preenchimento dos metadados: todas as informações existentes nos envelopes originais são repassadas ao metadado da “missão”, juntamente com a data, nome do/a fotógrafo/a e outras informações adicionais; o preenchimento é feito em lote pelo software Adobe Bridge, que grava o metadado no formato XMP.

    Atualmente, os arquivos digitais são disponibilizados por meio de coleções no seu site http://www.arquivoestado.sp.gov.br/ e por meio de acesso local, na central de atendimento ao público do Arquivo. No entanto, está em andamento um projeto de integração de todas os bancos em uma única base de dados, cujo desenvolvimento é realizado internamente pela equipe de informática do Arquivo. Os sistemas para consulta local são feitos em Visual Basic e Microsoft SQL Server, enquanto os serviços web são feitos em PHP e MySQL. A saída do conteúdo é feita nos formatos Jpeg e PDFa – versão atualizada que se propõe como atualização do formato PDF. Os arquivos oferecidos possuem resolução de 150 dpi, mas são mantidas versões de resolução maior (300 dpi) internamente.

    As pesquisas com OCR estão ainda em fase experimental. Foi feita uma experiência com fichas do Departamento de Comunicação Social da Polícia Civil, órgão que sucedeu o antigo DOPS e funcionou até 1999. Os arquivos tiveram sua abertura ao público autorizada no final de março de 2010; para que fosse possível sua disponibilização de forma rápida, foi feito o reconhecimento de caracteres por meio de OCR, o que permitiria a busca de informações por texto. Pelo fato de serem fichas datilografadas, a taxa de acerto foi considerada alta – entre 80 e 95% -, obtida sem treinamento da ferramenta. O software utilizado foi o Abbyy Fine Reader.

    Tags: , , , ,

  • Entrevista: Vitor Hitoshi – Digitalização e formatos

    0 comentários

    por: Fernão Lopes, em Entrevistas no dia 26/04/2010

    Esta entrevista integra uma série de entrevistas com profissionais de diferentes áreas que atuam em projetos de digitalização. Buscamos nas conversas tentar explorar as especificidades de cada parte envolvida no processo de trabalho. São bibliotecários/as, programadores/as, linguistas, acadêmicos/as e gerentes de projeto.
    Nessa conversa, falaremos com Vitor Hitoshi Tsujiguchi, que é engenheiro de computação formado pelo departamento de Engenharia Elétrica da Escola Politécnica da Universidade de São Paulo em 2007. Atualmente faz seu mestrando em Engenharia de Computação nesta mesma instituição, desde 2008. Seu tema de pesquisa é caracterização e compressão de imagens digitais. Participa do projeto Brasiliana Digital desde 2008, como bolsista TT-IVA, como analista de sistemas na equipe de TI e coordena a equipe de importação no sistema de produção da biblioteca digital.

    Entre os temas abordados, falamos sobre o uso de robôs digitalizadores, tratamento da imagem, formatos de saída e técnicas de compressão. Foi falado também sobre visualizadores e as qualidades e desvantagens de cada formato. Abordamos também um dos assuntos quentes nos últimos tempos: os formatos e sua durabilidade. Para tal, Vitor acredita na importância dos visualizadores online, mas que a pesquisa e adoção de padrões abertos é imprescindível – tais como o EPUB, compatíveis com os novos e-readers.

    1. Fale sobre o sistema de digitalização utilizado na Brasiliana Digital.

    Foi oferecido à Brasiliana Digital um treinamento de uma semana na operação e manutenção no sistema de digitalização APT-RA 2400, após sua aquisição e chegada ao Brasil. Em março de 2009, o analista de sistemas Maurício Nunes e eu atendemos ao treinamento na empresa Kirtas, na cidade de Victor, estado de NY, nos EUA. O treinamento englobou o sistema de escaneamento automático e os softwares de processamento de imagens, tanto na parte de operação quanto de manutenção. Após o treinamento, realizamos toda a instalação e configuração dos sistemas no projeto, seguido do treinamento no uso para as equipes de operadores, além de oferecer suporte técnico e manutenção preventiva.
    O sistema de escaneamento automático é composto por um robô scanner, equipado com duas câmeras de 21 megapixels de resolução, um braço mecânico, um sistema de sucção e aspiração de ar e um suporte regulável para comportar o livro. As câmeras capturam simultaneamente as imagens das páginas direita e esquerda do livro. Após o disparo, o braço mecânico se aproxima das páginas direitas do livro e, por meio de um sistema de sucção no braço e sopro sobre as demais páginas direitas, puxa-se apenas a primeira página da direita, executando uma ação similar à virada de uma página do livro, permitindo reativar o ciclo. Há um suporte onde o livro é colocado com uma abertura de 90º, de modo a diminuir a pressão sobre a costura do livro; devido à angulação do suporte, as câmeras estão dispostas de maneira diagonal e cruzadas entre si, de modo a capturar cada página frontalmente. É possível configurar a taxa de captura, com um limite de 2400 páginas por hora, através de um software de gerenciamento da digitalização.

    2. Como funciona o processamento das imagens?

    Após a captura das imagens digitais do livro, estas são armazenadas em um servidor, onde se encontram as ferramentas para o processamento das imagens. Temos um software de tratamento de imagens, o BookScan Editor (BSE) e dois softwares para processamento em lote dessas imagens, SuperBatch e OCR Manager.
    O processo de tratamento de imagens é composto por três etapas. A primeira etapa é o pré-processamento, no software BSE, onde selecionamos duas imagens modelo, uma página esquerda e uma página direita do livro, e aplicamos as configurações gerais sobre as mesmas, como ajuste do tamanho (crop), brilho e contraste. Após salvar essas configurações, fazemos um processamento em lote na segunda etapa, usando o software SuperBatch, usando as configurações definidas em todas as imagens do livro. Por fim, voltamos ao software BSE para o pós-processamento, resolvendo ajustes finos sobre as imagens. Nesta etapa, são realizadas as retiradas de manchas, centralização do texto e ajustes nas curvaturas. As capas e contra-capas, bem como as Ilustrações do livro, são sempre preservadas no formato original, apenas ajustadas às dimensões originais do livro.

    3. Quais são atualmente os formatos de apresentação?

    Oferecemos, no site da Brasiliana Digital, as obras digitalizadas como um arquivo único no formato PDF, em 300 DPI de resolução e com as ferramentas de OCR (Reconhecimento Óptico de Caracteres) aplicadas, permitindo realizar buscas dentro do texto. Diversas obras apresentam ilustrações em cores e riqueza de detalhes, que apresentamos separadamente como imagens no formato JPEG, além de integrarem o arquivo PDF. Junto a cada obra digitalizada disponível no site são apresentadas todas as informações sobre os metadados descritivos, como título original, nome do(s) autor(es), assunto, ano de publicação, entre outros.

    4) Qual a “durabilidade” desses formatos? São discutidos novos formatos de saída como soluções futuras?

    Atualmente, estamos oferecendo o acesso a um livro digitalizado completo apenas como um arquivo único no formato PDF. Este formato de arquivo é bastante popular na internet, mas ainda exige que o usuário tenha instalado algum software para sua visualização, como o Adobe Reader.
    A Gallica (http://gallica.bnf.fr) oferece uma opção de visualização online dos livros digitais, de modo a permitir o acesso sem a necessidade de baixar nenhum arquivo no computador pessoal. Há instituições que oferecem seus livros como arquivos de texto, como o Projeto Gutenberg (http://www.gutenberg.org). Os aparelhos para leitura de e-books atuais estão utilizando o formato EPUB, padrão desenvolvido pela International Digital Publishing Forum (IDPF), que é livre e aberto.
    Cada formato apresenta suas vantagens e desvantagens, além da sua própria “durabilidade” na evolução da tecnologia no mundo digital. É interessante se estudar quais formas de representação do nosso acervo digital são adequadas para o público-alvo a ser atingido, levando em conta quesito como compatibilidade, qualidade na apresentação e fidedignidade ao conteúdo da obra original.
    A Brasiliana Digital está pesquisando diferentes formas de apresentação dos documentos digitais. Todas as imagens originais e as imagens tratadas são armazenadas, além dos arquivos de saída gerados, de modo que podem ser reaproveitados para a geração de alternativas de apresentação. Uma das linhas de pesquisa promissoras da Brasiliana Digital é a de acrescentar uma opção de visualização online dos documentos digitais.

    5) Como a Brasiliana Digital realiza a compressão dos arquivos?

    Um dos grandes desafios enfrentados na Brasiliana Digital dizia respeito às formas de representação dos objetos digitais para o usuário. Como as imagens digitais dos livros são capturadas em alta resolução, temos uma grande riqueza de detalhes, porém arquivos muito grandes para serem transmitidos e executados. Após a etapa de processamento das imagens, o arquivo PDF resultante geralmente apresenta um tamanho elevado de armazenamento.
    Inicialmente, oferecíamos duas opções de arquivos PDF do mesmo documento digital para o usuário: uma versão em alta resolução (300 DPI), com qualidade apropriada para impressão, e uma versão em baixa resolução (100 DPI), para visualização na tela de computador e de menor tamanho de armazenamento, permitindo um acesso mais rápido. Após alguns meses de pesquisa, adquirimos o software LuraPDF Compressor, da empresa Luratech, para alta compressão de arquivos e implementamos modificações sobre o fluxo de produção de objetos digitais da Brasiliana. Desde o dia 25 de janeiro de 2010, junto com a inauguração da versão 1.1 do site da Brasiliana Digital, foi estabelecido também um único arquivo PDF para cada documento digital, em alta resolução (300 DPI), próprio para impressão, mas de tamanho reduzido, graças às capacidades de compactação do software.

    6) Como funciona essa compressão do LuraPDF Compressor?

    O procedimento de compressão consiste inicialmente na análise e segmentação do documento: cada página do documento é segmentada em três regiões: uma máscara de imagem monocromática (ou binária, apresentando apenas pixels de valor branco ou preto) contendo o texto, uma imagem do fundo (background) e uma imagem frontal, com as cores e detalhes das imagens (foreground). Em seguida, são aplicadas técnicas eficientes de compressão para cada tipo de imagem: algoritmos de compressão do JPEG2000 para as imagens coloridas e algoritmos específicos para imagens monocromáticas, como JBIG2 e FaxG4. Por fim, encapsula-se novamente, obtendo página inicial comprimida. Este processo é aplicado para todas as imagens das páginas tratadas, resultando em um arquivo PDF altamente comprimido, mantendo ainda o resultado do reconhecimento óptico dos caracteres.

    Tags: , , , ,

  • Entrevista: Maria Clara Paixão – linguística, OCR e processamento digital de textos

    1 comentário

    por: Fernão Lopes, em Entrevistas, Software, Tecnologias no dia 23/04/2010

    Esta entrevista integra uma série de entrevistas com profissionais de diferentes áreas que atuam em projetos de digitalização. Buscamos nas conversas tentar explorar as especificidades de cada parte envolvida no processo de trabalho. São bibliotecários/as, programadores/as, linguistas, acadêmicos/as e gerentes de projeto.

    Conversaremos com Maria Clara Paixão, professora do Departamento de Letras Clássicas e Vernáculas da FFLCH-USP desde agosto de 2008 e colaboradora do programa de pós-graduação do Instituto de Estudos da Linguagem da Universidade Estadual de Campinas (IEL-Unicamp) desde 2005. Sua área de pesquisa central é a Teoria e Análise Lingüística, com ênfase em estudos da Mudança Gramatical. Estuda as alterações da língua portuguesa entre 1400 e 1600 com o objetivo de compreender a mudança linguística que origina o Português Brasileiro. Participa também de projetos voltados à digitalização de textos antigos e ao campo do processamento automático da linguagem, âmbitos relevantes para a vertente documental e metodológica das pequisas históricas. Ela coordena a equipe de pesquisa de OCR da Biblioteca Brasiliana Digital.

    Nessa entrevista, buscamos indagar sobre a importância da linguística na digitalização de textos, em especial no uso de tecnologias de digitalização de textos e OCR (Optical Character Recognition, ou Reconhecimento ótico de caracteres). Atualmente, as tecnologias de processamento digital de textos, ao contrário do que o nome poderia dar a entender, utilizam também em larga escala elementos linguísticos, como por exemplo os através de dicionários (listas de palavras). Tais elementos linguísticos, combinados com o reconhecimento de glifos produzem níveis muito elevados de acerto. Mas justamente devido ao fato de se basearem em nesses critérios linguísticos que alguns problemas criam novas barreiras: são baseadas em regras de uma ou outra língua, sem considerar as variações de cada idioma. Além disso, há a questão das variações a que uma mesma língua está sujeita ao longo do tempo, como no caso dos textos dos séculos XVI e XVII. Pedimos também que fossem relatadas questões relativas aos softwares de reconhecimento e suas tarefas de treinamento.

    Maria Clara Paixão

    Para compreendermos a relação entre a linguística e a digitalização de acervos é preciso antes pensarmos: o que é “digitalização”, afinal? Para nossa pequena discussão, podemos trabalhar com uma definição bem simplificada: “digitalizar” é transformar informação não-digital em informação digital. Vamos pegar então o exemplo da digitalização de informação sob forma de imagens: nesses casos, a “digitalização” envolve dois passos básicos: a captura da informação original (por exemplo, por meio de uma câmara digital ou scanner) e sua tradução em informação digital. O primeiro passo consiste na aplicação de uma programação matemática para reconhecer informações visuais (linhas, pontos, cores…) e o segundo passo consiste na aplicação de uma programação que “traduza” essas informações visuais em informações matemáticas (ou seja, códigos armazenáveis e legíveis por máquinas). No caso das imagens, esses dois passos são tão simples que parecem ser um só: uma mesma tecnologia está envolvida na captura e transformação da informação.

    No caso da informação em forma de texto, a transformação da informação envolve um passo adicional que é bastante complexo, e remete diretamente ao problema do processamento artificial da linguagem. Para entender isso vamos voltar à digitalização de imagens, procurando observar até que ponto a digitalização de um texto se assemelha à digitalização de uma imagem: na etapa da captura, o processo é o mesmo (ou seja, há uma programação que reconhece informações visuais – as “letras” de um texto, neste ponto tomadas como elementos gráficos desprovidos de sentido); e num primeiro momento da etapa de transformação da informação, o processo é também ainda o mesmo (ou seja, há uma outra programação, que traduz essas informações visuais em informações matemáticas). Pois bem: notemos que até este ponto a “digitalização” de um texto funciona exatamente como a digitalização de uma imagem. Na prática: todo texto “digitalizado”, em algum momento da sua vida, é uma imagem digital (um arquivo Jpeg, PNG, etc.).

    Entretanto – e aqui entra a singularidade da digitalização dos textos – um arquivo com a imagem de um texto não é, propriamente, um texto digital. Ou seja, um arquivo Jpeg (por exemplo) que resulta da primeira captura de um scanner sobre uma página escrita de um livro não é nada mais que uma fotografia digital de uma página de livro – e naturalmente, só pode ser reconhecida como um “texto” por um leitor humano. Do ponto de vista computacional – ou seja: para fins de processamento automático – este objeto “imagem de uma página” tem exatamente o mesmo estatuto do objeto “imagem de uma cesta de frutas”.

    Para podermos considerar um texto como “texto digital”, ele deve consistir em informações matematicamente codificadas como texto – basicamente, ele deve consistir em uma sequência de símbolos denominados caracteres. Os caracteres são unidades mínimas de significação em um texto: são os elementos que permitem, indiretamente, que a correspondência entre som e sentido seja estabelecida na leitura dos textos.

    Então vamos voltar àquele objeto do nosso exemplo, uma fotografia digital da página de um livro. Este objeto contém caracteres? Sim, do ponto de vista humano: a um leitor humano alfabetizado, basta olhar a página para reconhecer as sequências de caracteres, por exemplo, “l-e-t-r-a-s”. Como o leitor humano faz isso? Associando determinadas imagens com determinado sentido (por exemplo, no caso da escrita alfabética, as unidades de imagem se associam a unidades de sons). O leitor humano, portanto, consegue reconhecer os desenhos das letras como símbolos, bastando para isso que ele receba informações de natureza visual. O computador não sabe fazer isso. No processamento artificial, para que as unidades sejam reconhecidas como caracteres (i.e., como símbolos), elas precisam estar codificadas artificialmente como símbolos. Isso significa que num texto digital, as sequências de caracteres estão codificadas de acordo com padrões previamente estabelecidos, ou seja, de acordo com tabelas de correspondência entre glifos (i.e., o “desenho” dos caracteres) e grafemas (i.e., as unidades mínimas dos sistemas de escrita – no nosso caso, os símbolos alfabéticos). É isso que os padrões como ASCII (American Standard Code for Information Interchang) ou UTF (Unicode Transformation Format) fazem: estabelecem correspondências entre códigos numéricos e glifos. Por exemplo, a codificação da sequência “letras”, em UTF, seria algo como: 006C – 0065 – 0074 – 0061- 0073.

    Vimos, então, que para um objeto digital poder ser classificado efetivamente como um “texto digital”, ele precisa estar codificado como sequências de caracteres. Agora podemos entender aquele passo específico do processo de digitalização dos textos, que o distingue dos demais processos: em alguma etapa da transformação de um texto não-digital em um texto digital, será necessário que as informações visuais sejam codificadas como sequências numéricas que simbolizam caracteres. No nosso pequeno exemplo: em alguma etapa, a sequência “letras” vai precisar ser transformada em “006C – 0065 – 0074 – 0061- 0073.”

    Essa transformação pode se dar de duas maneiras básicas. A primeira é manual e natural: um leitor humano capacitado pode simplesmente ler o texto original e “digitá-lo”, ou seja, reescrevê-lo num processador de texto qualquer – obtendo assim como resultado um texto digital (i.e., matematicamente codificado e processável). Essa técnica manual de transformação da informação visual em informação digital é usada em muitos repositórios digitais (o maior exemplo disso seria o Projeto Guttemberg). Trata-se, entretanto, de uma técnica altamente dispendiosa em termos de tempo e recursos humanos. E, a rigor, não se trata de uma tecnologia de digitalização – o texto criado pela digitação é justamente isto, um texto criado por digitação, e não o resultado de um tratamento computacional.

    A segunda maneira de se transformar informações não-digitais em informações digitais é a utilização de programas de reconhecimento automático de caracteres – ou seja, programas capazes de reconhecer nos textos os símbolos de escrita e transformá-los em símbolos matematicamente codificados. É o que fazem os famosos programas de “OCR”, ou seja, de reconhecimento óptico de caracteres (Optical Character Recognition, em inglês).

    Como resultado do processamento via digitação manual ou via reconhecimento automático, um texto se transforma efetivamente em “texto digital” – ou seja, em informação artificialmente processável. Agora este “texto” pode sofrer os mais variados tratamentos automáticos, incluindo aquele que é a finalidade básica do processamento de textos em repositórios digitais: a extração automática de informações. O texto, agora, pode ser percorrido por programações de busca, que num plano básico, funcionam de maneira a encontrar equivalências entre os códigos de caracteres da entrada e os códigos da saída (assim, uma busca por “letras” é na realidade uma busca por “006C – 0065 – 0074 – 0061- 0073”.

    Bem, até este momento ainda não falamos da linguística. Vamos então atacar a questão original: Qual a importância da linguística na digitalização de acervos de textos? Agora podemos responder isso melhor, observando que a operação fundamental envolvida na “digitalização” de textos – ou seja, a transformação de informação naturais em informação artificial – é uma operação de processamento de linguagem. Qualquer programação que consiga reconhecer as “palavras” num texto e transformá-las em informações matematicamente codificadas envolve, em maior ou menor grau, o processamento artificial da linguagem. É interessante notar, neste ponto, que os programas mais antigos de reconhecimento de caracteres envolviam um grau muito baixo de inteligência linguística artificial – os programas originalmente desenvolvidos na década de 1950, de fato, procuravam apreender as informações dos textos muito mais como informações gráficas que propriamente linguísticas (daí herdamos o nome-padrão dos programas de reconhecimento, “OCR”, com o “O” de “Óptico” – embora hoje o elemento óptico propriamente dito seja já marginal nessas tecnologias). Naqueles primeiros programas, o fundamento do reconhecimento era efetivamente a natureza gráfica dos glifos. Nos programas mais modernos, a apreensão da informação visual é balizada pela aplicação de informações linguísticas. Por exemplo, os programas contemporâneos trabalham com dicionários (na realidade, listas de palavras) embutidos para cada língua, que permitem um reconhecimento muito mais eficiente do que os antigos, fundados isoladamente na aparência dos glifos. A pesquisa de ponta nesta área hoje contempla a inclusão de informações linguísticas ainda mais precisas, tais como regras de formação de palavras em cada língua, entre outros.

    Hoje, portanto, os bons programas de reconhecimento de caracteres são os que combinam boas programações de reconhecimento de imagens com boas programações de processamento automático da linguagem. Entre eles está o programa que usamos na Brasiliana Digital, da família Abbyy Finereader ©. Entretanto, aí entra a segunda parte do problema. Como os programas atuais são fundados em informações linguísticas específicas para cada língua a ser reconhecida (como mencionamos, por exemplo, listas de palavras, regras morfológicas), surge a questão da dependência dos programas a uma língua particular em que será aplicado. Os programas funcionam melhor, naturalmente, para as línguas diante das quais foram treinados e aperfeiçoados. Isso significa que um programa de reconhecimento pode ser excelente para o Inglês contemporâneo (por exemplo), mas bem menos eficiente para textos em outras línguas. Isso já é um problema para o trabalho com reconhecimento de caracteres em textos em língua portuguesa em geral – mas se torna um problema ainda maior para o trabalho com reconhecimento de caracteres em textos mais antigos da língua portuguesa, como é o caso de muitos dos itens do acervo na Brasiliana Digital.

    Atualmente, temos uma equipe de pesquisadores investigando caminhos para o aperfeiçoamento do programa Abbyy Finereader 10.0 ©, com vistas a torná-lo mais eficiente no reconhecimento de caracteres nestes textos portugueses mais antigos. Esse trabalho tem duas frentes principais: a primeira é o treinamento do programa para o reconhecimento dos caracteres mais antigos, hoje em desuso. Exemplo disso seria o chamado “s longo” ou “carolíngeo”, “ſ”, muito frequente nos impressos dos séculos XVI e XVII, ou o problema do uso de diacríticos, como o til, sobre caracteres que hoje já não o suportam, como “ũ”. Existem códigos para quase todos estes caracteres nas tabelas do UTF, mas os programas de OCR não conseguem associar esses glifos a seus códigos, pois não foram treinados para isso. Então, por exemplo, codificam o “ſ” como um “f”, que seria a forma mais próxima, no inventário a que o programa está acostumado (com isso, uma palavra como “aſim” – modernamente, “assim” – é reconhecida como “afim”).

    Uma segunda frente é a formação de um “banco de palavras” do português dos séculos XVI a XIX, a ser embutido na programação do OCR. Isso é particularmente importante, porque a língua portuguesa escrita nesta época apresenta a característica de uma variação extremamente ampla (e em boa medida idiossincrática) na grafia das palavras. Para os programas artificiais, é bastante difícil lidar com esse tipo de variação (de modo que, naturalmente, cada grafia diferente de uma palavra constitui uma nova palavra para o programa). No momento temos já uma lista de cerca de 140.000 itens, e a lista irá crescer bastante até o final do semestre.

    Com isso, estamos prevendo que a taxa de acertos irá subir consideravelmente. Até este ponto, com três meses de treinamento, o reconhecimento melhorou bastante, chegando a uma taxa aceitável em alguns textos (baixando de 23% de erros para 2% de erros), mas ainda está inadequado em outros textos (passando de 22% para 6% de erros).

    Este primeiro experimento com reconhecimento automático de caracteres na Brasiliana Digital pode apontar já alguns caminhos para o futuro das pesquisas nesta área dentro do projeto, que idealmente poderiam ser discutidos em âmbitos maiores de formação de acervos digitais. Vamos primeiro avaliar os aspectos negativos do experimento – podemos reconhecer dois problemas principais. O primeiro deles é a natureza do programa de reconhecimento que estamos usando, o Abby Finereader 10 ©, que é um software proprietário. Essa característica acarreta o problema fundamental da difusão futura dos progressos que venhamos a obter com os experimentos na Brasiliana: não poderemos, como seria ideal, transferir esta tecnologia a outros grupos de pesquisa, a não ser que eles viessem a adquirir o mesmo programa – ficando a transferência, assim, contingenciada às possibilidades orçamentárias de cada grupo. Uma das nossas vertentes futuras neste sentido deverá ser, portanto, a investigação sobre caminhos para a democratização e difusão desta experiência. A importância disso fica mais evidente quando consideramos o segundo aspecto problemático do experimento: ele é bastante dispendioso em termos de tempo e recursos humanos. Podemos avaliar que este investimento de recursos só tem sentido se a experiência puder ser multiplicada por outros grupos dedicados à digitalização de textos em português, antigos ou contemporâneos. Se essa difusão se tornar possível, creio que teremos cumprido melhor nossos objetivos de pesquisa no grupo.

    Agora lembramos os aspectos positivos da experiência: o mais imediato deles é que, caso o sucesso do treinamento continue a crescer como vem crescendo, em breve teremos condições de oferecer aos leitores da Brasiliana Digital textos efetivamente processáveis por buscas automáticas (das mais simples às mais estruturadas). Com o resultado “limpo” das digitalizações, combinado com o recurso do banco de palavras em variação, o universo de pesquisas possível em torno dos textos do acervo é imenso. Por exemplo, um historiador poderá consultar rapidamente todas as obras em que determinado personagem da história é citado (independente, por exemplo, de seu nome aparecer no texto como “D. João IV”, “Dom Ioam iv”, “dom ioaõ iiii”,… etc.). Se, além disso, implementarmos sistemas de anotação linguística minimamente sofisticados aos textos, será possível, por exemplo, criar automaticamente um índice onomástico de cada texto e do acervo inteiro – pois é possível codificarmos automaticamente todas as palavras e expressões que designam nomes próprios. A criação de um dicionário onomástico é apenas um exemplo – como dito, as possibilidades para pesquisa serão imensas num acervo desta natureza com textos efetivamente processáveis, limpos e linguisticamente anotados.

    Podemos vislumbrar, neste último aspecto, a importância desse tipo de tecnologias para a consolidação de políticas públicas para acervos digitais. A possibilidade de processamento automático efetivo pode elevar o a utilidade do acervo para a comunidade de leitores em geral, e para a pesquisa acadêmica em particular – pensemos, neste ponto, nas possibilidades de buscas automáticas simples e estruturadas, que já mencionamos acima. Mas a codificação linguística dos textos, da forma como está sendo realizada nos nossos primeiros experimentos na Brasiliana Digital, tem ainda um resultado paralelo interessante: ela possibilita que versões modernizadas de cada texto sejam colocadas à disposição dos leitores. Isso pode significar uma contribuição para o aumento do alcance do acervo – pois a leitura dos textos mais antigos pode ser adaptada de modo a ser acessível a um público não especializado, mas interessado na leitura dos textos mais antigos. Nesse sentido a pesquisa linguística e seu fruto mais palpável – os textos limpos e processáveis – pode ter impactos na própria democratização do Acervo, o que seria um resultado altamente desejável.

    Tags: , , ,

  • Fedora-Commons

    0 comentários

    por: Fernão Lopes, em Software, Tecnologias no dia 22/04/2010

    http://fez.library.uq.edu.au/wiki/Main_Page

    O Fedora Commons (Flexible Extensible Digital Object Repository Architecture) é um software para repositórios digitais. É licenciado sob a licença Apache 2.0 (compatível com BSD) e é desenvolvido por uma extensa comunidade. Foi iniciado em 1997 por Sandra Payette, Carl Lagoze e Naomi Dushay, na Universidade de Cornell. Atualmente é desenvolvido em parceira entre a Cornell e a Universidade de Virginia. É baseado em Java e possui uma camada de abstração entre o banco de dados, fazendo com que seja possível utilizar uma série de diferentes softwares (MySQL, Oracle, PostgreSQL, Microsoft SQL Server, entre outros).

    O software cria uma camada de objetos digitais de variados tipos. Os objetos contém ligações entre os dados, seus metadados, metadados do sistema – identificadores do sistema – e comportamentos constituídos como objetos de código, que fornecem ligações com os processos difusores. Fornece dois tipos de serviços de acesso: por meio de um serviço de gerenciamento de clientes para exportar e importar objetos (XML) ou via uma API (interface de código para comunicação com um programa) para serviços via HTTP ou SOAP.

    Embora forneça ferramentas básicas para exibição dos objetos, situa-se mais no backend, como aplicação de gerenciamento de diferentes objetos digitais. Entre as ferramentas e visualização, tem suporte a pacotes de software de FrontEnd (Fez, Islandora, Muradora e Vital), alguns dos quais são módulos de populares CMS (Content Management System).

    Tags: ,

  • World Digital Library

    2 comentários

    por: Fernão Lopes, em Experiências no dia 20/04/2010

    http://www.wdl.org/

    A WDL é uma biblioteca digital internacional operada pela UNESCO e pela Biblioteca do Congresso dos Estados Unidos, além de diversos parceiros ao redor do mundo – entre museus, centros culturais e bibliotecas com acervos
    entre os mais antigos do mundo. Entre os projetos de digitalização, está entre os mais recentes: foi lançado em abril de 2009.

    É um projeto amplo, que embora não disponha de uma quantidade enorme de conteúdo, disponibiliza verdadeiras preciosidades na rede, como o conto de Genji (obra feita no século XI no Japão, considerada por alguns como o romance mais antigo já escrito), textos utilizados na formação da álgebra arábica, pintura africana de mais de 8000 anos, entre muitos outros tesouros. São livros raros, manuscritos, mapas, partituras de músicas, filmes, impressos, contidos nos acervos das entidades participantes.

    Entre seus principais objetivos estão a formação de uma biblioteca mundial sobre o conhecimento humano, no sentido mais amplo possível, buscando a promoção do entendimento internacional e intercultural, a expansão da variedade de conteúdos culturais na Internet, o provimento de recursos para educadores, estudantes e público em geral e o desenvolvimento de capacidades nas instituições parceiras, como forma de reduzir o fosso digital existente dentro dos e entre os países.

    Devido ao tipo de conteúdo predominante – manuscritos e mapas – foi feito um grande esforço para produzir um visualizador de excelente qualidade, que não utiliza nenhum formato proprietário. Também como forma de ampliar o acesso, o site está disponível em árabe, inglês, espanhol, português, francês, russo e chinês.

    Tags: , ,

  • Domínio público

    0 comentários

    por: Fernão Lopes, em Experiências no dia 20/04/2010

    http://www.dominiopublico.gov.br/

    O sítio Domínio Público é uma biblioteca digital mantida pelo Ministério da Educação do Brasil. Foi criado em 2004 e disponibiliza conteúdos que já estejam em domínio público ou que tenham sua divulgação devidamente autorizada. A iniciativa surgiu no sentido de consolidar uma base de dados que permita ampliar o acesso às obras literárias, artísticas e científicas.

    É possível acessar diversos tipos de mídia: áudio, vídeo, textos e imagens. Um detalhe interessante é que entre o conteúdo disponibilizado há materiais de diversas fontes: material da gestão pública (planos de governo, despachos, normas etc) produzido por secretarias e ministérios; teses e dissertações oriundas do portal Capes; material de formação de professores, da secretaria de Educação; e também literatura, proveniente de jornais e publicações avulsas. O portal incentiva a colaboração voluntária, seja através da digitalização e  tradução avulsa de obras em domínio público, seja pela cessão de obras (autores e organizações detentoras).

    A missão do portal também consiste no incentivo ao aprendizado, inovação e cooperação entre geradores/as de conteúdo e usuários, junto com o estímulo à discussão sobre legislações relacionadas aos direitos autorais, de modo que a “preservação de certos direitos incentive outros usos” -, e haja uma adequação aos novos paradigmas de mudança tecnológica, da produção e do uso de conhecimentos.

    Tags: , ,

  • Entrevista: Daniela Pires – bibliotecária Brasiliana USP

    0 comentários

    por: Fernão Lopes, em Entrevistas no dia 20/04/2010

    Esta é a primeira de uma série de entrevistas com profissionais de diferentes áreas que atuam em projetos de digitalização. Buscamos nas conversas tentar explorar as especificidades de cada parte envolvida no processo de trabalho. São bibliotecários/as, programadores/as, linguistas, acadêmicos/as e gerentes de projeto.

    Conversaremos com Daniela Pires, bibliotecária do projeto Brasiliana USP. Entre os assuntos abordados, ela vê as bibliotecas digitais como uma extensão das bibliotecas físicas, que por isso não as substitue e sim complementa. Destaca ainda a necessidade da formulação de padrões de catalogação e de metadados, tanto para garantir o acesso à informação como tornar possível a interoperabilidade entre bases de dados e bibliotecas.

    1) Quais são as diferenças entre as bibliotecas convencionais e as bibliotecas digitais? Quais são as novas necessidades do ponto de vista de catalogação / organização da informação?

    Acredito que as bibliotecas digitais não vêm para substituir o conceito tradicional da biblioteca; elas ampliam e renovam este conceito, como também abrem novos horizontes para as suas atividades, uma vez que o acesso à informação não ocorrerá em determinado espaço físico, em um determinado horário. Esse acesso ocorre no momento em que o usuário sente a necessidade de obter a informação, e essa pessoa pode estar em qualquer lugar que possua uma conexão com a internet para utilizar a biblioteca. Vejo as bibliotecas digitais como um serviço de extensão e de disseminação de conteúdos que as bibliotecas prestam a seus usuários.

    Quanto à catalogação/organização da informação, esta é uma área já bem consolidada na biblioteconomia, com padrões e ferramentas bem definidas. Este trabalho é facilitado pelo uso das tecnologias, pois nos permite possibilidades de gerenciamento (como as bases de dados) mais eficientes. Vejo que as principais necessidades nesta área estão no aprendizado e uso destas tecnologias, e, como estas evoluem rapidamente, a necessidade do aprendizado contínuo mostra-se como única solução para acompanharmos os avanços para que possamos oferecer aos nossos usuários serviços e produtos adequados a realidade.

    2) Fale sobre a importância dos metadados / Dublin core

    As bibliotecas sempre produziram metadados, por meio de seus catálogos, índices entre outros instrumentos. São estes metadados que, devidamente organizados e estruturados, garantem que a informação possa ser descoberta, localizada e utilizada. Com o surgimento das bibliotecas digitais e a oferta de conteúdos na internet, há também a necessidade de se adequar a este novo espaço; portanto é necessário que não fiquemos presos a formatos muito rígidos e complicados para a descrição dos objetos na internet. É aí que surgiu em 1995 o formato Dublin Core, com o objetivo de definir um conjunto de elementos que poderiam ser utilizados pelos autores e não-catalogadores para descrever recursos na Web. Desde então, este tem sido o formato utilizado por grandes projetos de bibliotecas digitais para a descrição de seus recursos.

    3) Como é feito o seu preenchimento?

    O formato Dublin Core é composto por 15 elementos de descrição:
    – title
    – creator
    – subject
    – description
    – publisher
    – contributor
    – date
    – type
    – format
    – identifier
    – source
    – language
    – relation
    – coverage
    – rights.

    Contudo, com a evolução do formato, estes 15 elementos se tornaram mais completos com a utilização de qualificadores, que têm a função de especificar o recurso descrito. A opção do Projeto Brasiliana Digital foi utilizar o formato de descrição com qualificadores, tendo em vista a variedade de itens oferecidos (mapas, livros, artigos, periódicos, imagens etc.). Vejo também como uma grande vantagem do uso do Dublin Core as várias possibilidades de relacionar itens em um mesmo acervo ou entre outros acervos.

    A inserção das informações é realizada depois de feito todo o processamento do item digitalizado (escaneamento, tratamento, OCR, revisão, importação para o Dspace). Alguns dados sobre a obra são trazidos do banco de dados do acervo (físico) da Biblioteca Mindlin, enquanto outras informações são padronizadas e inseridas logo após o item estar no repositório digital (Dspace). Depois disso, o documento está pronto para ir pro ar.

    4) Fale sobre o uso de vocabulários controlados

    Precisamos atentar para que nossos bancos de dados não se transformem em grandes confusões. Por exemplo: diversas formas de escrever o nome do mesmo autor, diversas formas de entrar com mesmo assunto. Para padronizar as informações há algumas ferramentas de apoio, como os vocabulários controlados, tesauros e dicionários geográficos. A Biblioteca Brasiliana Digital utiliza algumas destas ferramentas no seu repositório, como o Vocabulário Controlado da USP, o catálogo de autoridades da BN, o Tesauro Geográfico da Getty (TGN – Thesaurus of Geographic Names), além de uma tabela de tipologia documental.

    5) Fale sobre a interoperabilidade e a conversa com outros acervos

    A interoperabilidade – ou seja, a capacidade de sistemas diferentes se comunicarem por meio da adoção de padrões e normas –  é um conceito muito importante e difundido, que está relacionado com a troca de conteúdos, podendo ser metadados ou arquivos. A interoperabilidade facilita a busca de informações na internet, uma vez que por um único sistema é possível consultar simultaneamente vários acervos e bancos de dados. Contudo ainda precisamos definir quais os padrões mínimos necessários que devem ser adotados dentre as diversas iniciativas de digitalização e disponibilização de conteúdos na rede, para que possamos avançar neste tipo de serviço. Assim podemos garantir que nossos projetos não passarão de iniciativas isoladas, pois o uso destes padrões de interoperabilidade é a chave para a visibilidade de cada um dos projetos de digitalização existentes.

    Daniela Pires é bibliotecária da Biblioteca Brasiliana Guita e José Mindlin e do Projeto Brasiliana Digital. Formou-se pela Universidade Federal de São Carlos, em 2005.

    Tags: , , ,

  • Google books

    0 comentários

    por: Fernão Lopes, em Experiências no dia 16/04/2010

    http://books.google.com

    O Google Books é um serviço que disponibiliza livros através de um portal de busca e está integrado à ferramenta de busca do google. Os livros são digitalizados e convertidos por meio de OCR em textos digitais, sendo exibidos em um visualizador próprio (com arquivos em PNG) ou arquivos PDF, para textos em domínio público. Em 2004, quando o projeto foi lançado, se anunciaram várias parcerias com grandes universidades, portadoras de bibiotecas enormes e notáveis – dentre as quais descatam-se as universidades de Harvard, Michigan, Oxford, Stanford e a New York Public Library. A parceria previa a digitalização desses acervos e sua colocação online. Os livros são exibidos junto a anúncios que permitem a compra do exemplar em lojas virtuais associadas ao serviço, como Amazon e outras livrarias online.

    São disponibilizados tanto livros que estão em domínio público quanto outros que ainda estão sob lei de direitos autorais, sendo aplicadas restrições de visualização (são exibidas apenas algumas páginas). Apesar de o OCR permitir a realização de buscas, a visualização, baseada em imagens, impede que sejam selecionados e copiados trechos de textos (mesmo nos arquivos em pdf, em que é fornecida somente a imagem).

    O serviço levantou uma série de críticas relativas aos direitos autorais. Ao digitalizar e publicar  qualquer item (ainda que somente trechos, com ou sem direitos autorais), editoras, autores/as e associações da indústria denunciaram o que seria uma violação de direitos autorais em massa; diversas ações judiciais foram movidas contra a companhia em todo o mundo. Apesar de o Google Books ter adotado a política de disponibilizar apenas os sumários das obras sob copyright, é alegado que a companhia não teria o direito de guardar cópias digitais em seu banco de dados.

    Tags: , , ,

  • Breve relato do seminário do dia 15/04

    2 comentários

    por: Fernão Lopes, em Experiências no dia 16/04/2010

    Aconteceu ontem o seminário do grupo de trabalho de Texto e Imagem. Pela parte da manhã, o foco esteve nas experiências de digitalização de acervos, enquanto à tarde predominou a temática do Open Access, ou Acesso Aberto. As apresentações alternaram-se com debates e perguntas da platéia, que compareceu em peso: quase 100 pessoas participaram do evento entre a manhã e a tarde.

    Digitalização de acervos

    De 15 anos para cá, diversas bibliotecas e acervos públicos iniciaram experiências de digitalização de seus acervos. A passagem do analógico ao digital suscita diversas discussões e problemas, que estão sendo encarados pelas instituições que iniciaram estes trabalhos. E cada tipo de material tem suas especificidades: livros, jornais, revistas, mapas, fotografias, desenhos, partituras, prontuários, processos judiciais etc. Muitas são as motivações para a digitalização: a ampliação do acesso aos acervos, a preservação dos originais e o desejo de ampliar o público alvo, tradicionalmente restrito a pesquisa acadêmica. Foram apresentadas as experiências do Arquivo do Estado de São Paulo e da Brasiliana USP.

    O primeiro conta com um acervo monumental da memória pública nas mãos do governo estadual. São dezenas de quilometros de documentos, que vão de todos os tipos de jornais a processos judiciais, registros de entrada e saída de imigrantes e fotografias. O processo de digitalização ocorre desde 2000 e em 2008 os arquivos já prontos foram disponibilizados num site na internet: http://www.arquivoestado.sp.gov.br/. O arquivo está se reestruturando e está sendo construído um novo prédio, para abrigar outros acervos que estão sendo incorporados, como o do Tribunal de Justiça.

    A Brasiliana USP surgiu de uma doação de José Mindlin à USP. Recheado de obras raras sobre assuntos relacionados ao Brasil, desde 2009 está sendo digitalizado e colocano na web no site http://www.brasiliana.usp.br. Para abrigar a coleção está sendo construído um prédio no campus da USP, com espaço para um centro de restauro.

    A apresentação de ambos projetos levantou um debate amplo, em que foram pontuadas questões referentes à autenticidade dos documentos digitais, limitações impostas pela atual lei de direitos autorais, softwares para repositórios digitais, criação de novos centros de digitalização, plugins e formatos de saída, uso das imagens produzidas, estratégias de financiamento etc. Um ponto que rendeu opiniões variadas referiu-se aos usos fora da internet: que é preciso desenvolver novas ferramentas que tirem a primazia da Internet. Mas reconheceu-se que a Internet ainda é, até hoje, o meio mais democrático em uso.

    Open Access

    À tarde, as discussões concentraram-se na produção que ja nasce digital: os repositórios para revistas digitais, periódicos, artigos e produção científica. O debate girou em torno das políticas de acesso aberto e suas vantagens comparativamente em relação ao paradigma anterior, dos periódicos convencionais.

    Um ponto foi consensual em todas as apresentações: que a divulgação na internet aumenta a rapidez da divulgação e permite um maior acesso à produção científica, representando vantagem do ponto de vista de quem publica e quem lê. Diminui também o tempo entre a revisão e submissão final, independentemente da metodologia utilizada para aprovação dos artigos. O acesso aberto representaria também grande vantagem do ponto de vista das instituições, tanto pelo caráter de divulgação como pelos ganhos qualitativos obtidos pelos/as pesquisadores/as em seus estudos.

    Um ponto mais polêmico foi o relacionado às tecnicas de mensuração da qualidade dos artigos. Diversos sistemas de repositórios de acesso aberto possuem em seus sistemas mecanismos de quantificação de acessos e citações; umas vez que as buscas integram a popularidade do artigo, cria-se uma nova clivagem, em que o número de citações de um artigo torna-se sinônimo de qualidade. No entanto, tal critério é questionável e suscita a pergunta: até que ponto é possível determinar a qualidade de um artigo acadêmico por meio de algorítmos matemáticos? E em que medida os buscadores baseados em ranqueamento (número de acessos) sofrem dessa distorção que privilegia em grande medida a popularidade?

    Outra questão apontada é a possibilidade de integração com os sistemas de currículos – como o Sistema Lattes. Na Universidade do Minho (http://repositorium.sdum.uminho.pt/), o sistema está integrado com os currículos, é possível, ao se preencher o currículo, enviar os artigos em questão para repositórios de sua escolha.

    Além da Universidade do Minho, foram apresentadas as experiências do SciELO (http://www.scielo.org), que é um repositório para divulgação científica, contando com centenas de milhares de artigos de diversos países da América Latina, além de Espanha e Africa do Sul; recentemente, em projeto piloto desde 2007/2008, permite que que autores/as publiquem seus artigos em suas versões originais, antes do “peer-review”, ou as alterações propostas pelas casas publicadoras (periódicos). Outro exemplo de divulgação científica é o do banco de dados de teses da USP (http://www.teses.usp.br): desde 2007, as teses defendidas são depositadas no repositório e ficam disponíveis para download. Foi demonstrado também o sistema administrativo Tycho (http://sistemas3.usp.br/tycho/apresentacao.jsp), desenvolvido e utilizado pela reitoria: a ferramenta serve às demandas institucionais e faz uma interface que consulta diversas bases de dados existentes conforme o tipo de informação, evitando a duplicação de dados.

    Tags: , , ,

  • SciELO

    0 comentários

    por: Fernão Lopes, em Experiências no dia 16/04/2010

    http://www.scielo.org

    O SciELO (Scientific Eletronic Library Online) é uma biblioteca eletrônica que abriga uma coleção selecionada de periódicos científicos de diversos países. Planejada para atender às especificidades da comunicação científica nos países em desenvolvimento, em particular na América Latina e Caribe, é uma parceria da Bireme com diversas entidades de pesquisa, dentre as quais a FAPESP e o CNPq no Brasil. Foi lançada em 1997 como projeto piloto e em 1998 entrou em operação regular, expandindo sua atuação para outros países. Atualmente, estão disponíveis artigos da Argentina, Chile, Colômbia, Cuba, Espanha, Portugal e Venezuela; está sendo implementado também para a África do Sul, Bolívia, Costa Rica, México, Paraguai, Peru, Uruguai e Jamaica. Atualmente estão disponíveis no portal SciELO mais de 250.000 artigos e 634 periódicos.

    O diferencial do SciELO é sua metodologia. Ela que permite a publicação eletrônica de edições completas de periódicos científicos, recuperação de textos por seu conteúdo, preservação de arquivos eletrônicos e a produção de indicadores estatísticos de uso e impacto da literatura científica. São disponilizidados em sites nacionais e temáticos, com implementações locais no Chile http://www.scielo.cl/ e Cuba http://www.scielo.sld.cu/. Periódicos de saúde pública da América Latina e Espanha possuem também um portal integrado – BVS – Bibloteca Virtual de Saúde – http://regional.bvsalud.org.

    O sistema utilizado é o iAHx, uma interface para bases ISIS; utiliza uma busca integrada (Isis, Google e Lucene) com sistema base em Java e interface em PHP; dá saídas no formato de serviços web. O software foi desenvolvido pela BVS e Bireme.

    Tags: , , ,