Artigo

ARTIGO#5

Como imagem vira Texto

por Prof. Paulo Soethe

Já teve curiosidade de saber como fotos de documentos antigos viram os jornais que você acessa no lemmbra? Aqui nós contamos tudo.

Introdução

Hoje, o principal “suporte midiático” para o registro e circulação de informações é o mundo digital. Mas durante alguns séculos foi o papel impresso.Os impressos tornaram-se o principal suporte de circulação desde que Johannes Gutenberg (1400[?] - 1468) inventou a prensa de tipos móveis (ou prensa móvel)

Letra Z pertencente a primeira prensa de Gutenberg

Link para imagem original

Os tipos eram pegos a mão e montados um a um em uma placa, a matriz.

Blocos de letras para prensa tipográfica

Link para imagem original

Foi a partir daí que começaram a circular diversos exemplares idênticos de material impresso. Eram livros, mas principalmente folhetos impressos, antepassados dos jornais.

As letras do alfabeto se tornaram os “bits” que transportaram e hoje guardam muitos e muitos “petabites” de dados textuais. Exemplares idênticos de livros e jornais circulando de mão em mão eram os “sites” em uma rede mundial de papel impresso. As bibliotecas eram os “servidores” ou as “nuvens” de dados. 

Até a época em que foram impressos os jornais da Olimpíada lemmbra (a segunda metade do século XIX, principalmente a década de 1880) ainda era comum utilizar impressoras tipográficas.

Percebe-se que às vezes o tipógrafo trocou a ordem de colocação dos tipos, quando estava compondo o jornal. Ou que colocou um “n” de ponta-cabeça e ele parece um “u”. Ou que até mesmo um tipo correu na placa matriz, ficando na linha de baixo.

Nesse exemplar do jornal o “l” de “lavoura” correu para a linha de baixo e o jornal foi impresso sem que o tipógrafo ou o revisor percebessem.

Fotografar o material produzido em papel é algo que começou a ser feito faz algumas poucas décadas. Mas – quem diria? – hoje não basta ter só a imagem do texto disponível, é preciso que cada letra, cada caractere, seja reconhecido como tal: aí é que o texto passa a estar digitalizado. Pois com isso até mesmo as máquinas podem processá-los, como dados textuais. Para o desenvolvimento de inteligência artificial que considere o passado e a história humana isso é muito importante.

Foi para transformar imagens de textos em documentos textuais que surgiu a técnica de OCR: optical caracter recognition, reconhecimento ótico (ou visual) de caracteres.

Não é simples identificar os caracteres, e nem sempre está tudo certo na página. (E aqui nem vamos falar de centenas e centenas de milhões de páginas manuscritas, escritas a mão, que há nas bibliotecas e arquivos...)

Um exemplo básico:

A ortografia do século XIX era menos rígida e em alguns casos bastante diferente da atual.

Por exemplo, escrevia-se a forma do passado dos verbos no plural com “-ão” no final: “erão” em vez de “eram”, ou mesmo “acharão” em vez de “acharam”, o que nos dias de hoje causa estranheza, pela confusão com a forma do futuro: “acharão”.

Por causa da origem das palavras, era comum usar-se consoantes duplas, como nas palavras “differença", “official”, “elles", “attenua” etc.

A acentuação era bastante distinta, sem o acento nas paroxítonas terminadas em ditongo crescente (“varios”, em vez de “vários”) ou sem acentuação nas proparoxítonas (“numero”, em vez de “número”), entre muitos outros detalhes. A crase era marcada frequentemente por um acento agudo (“á”, em vez de “à”). E assim por diante.

Em alemão, há ainda a dificuldade de que se costumavam utilizar tipos de letras bastante característicos e típicos daquele idioma. Durante a Olimpíada você pode acessar a qualquer momento uma ferramenta para conhecer os tipos “Fraktur”, “Textur”, “Kanzlei” da assim chamada escrita “gótica”.

Exemplos de caracteres em Fraktur difíceis de serem distinguidos (da esquerda para a direita): s (na forma de “long s”), f, u, n, u ou n, B, V, R e N. Fonte: Furrer e Volk (2011),
cf. a dissertação de Alessandra Belézia de Araújo, Análise de layout de página em jornais históricos germano-brasileiros, 2019, p. 30. Disponível em: https://acervodigital.ufpr.br/xmlui/handle/1884/63706

Por essas dificuldades todas e necessidade de aprimoramento dos softwares de OCR com o uso de Inteligência Artificial, ainda será necessário e desejável, por muitos anos, que pessoas, leitores humanos, corrijam os textos e assim também tomem contato com as imagens dos originais.

A atividade da Olimpíada é algo semelhante ao que, em breve, pode envolver grandes camadas da população, em um processo de construção de acervos digitais e da memória coletiva das sociedades humanas. 

Nessa atividade, é importante observar e manter a ortografia original, em um primeiro momento. Ao ler, percebemos que a compreensão do texto flui bem. A ortografia não é um impedimento, se estamos determinados a entender.

A forma, no entanto, é um detalhe documental importante para a preservação e registro digital do documento. Por isso, as tarefas da Olimpíada pedem total fidelidade ao texto na imagem.

Hoje a digitalização torna possível que na apresentação do documento o futuro leitor possa acionar na tela uma versão com ortografia atualizada. Isso sem falar que o texto, com o uso dos recursos necessários, poderá ser traduzido automaticamente para várias línguas...

Mas isso tudo depende de um primeiro registro bastante literal. Por isso, para realizar a tarefa da Olimpíada, seja literal e fiel à imagem original. Se na transcrição aparece “E’ impossível...” e você vê o mesmo na imagem (Um E seguido de ’), não altere! Deixe a solução gráfica que o tipógrafo conseguiu dar naquele momento.

Uma exceção importante em que você não deve alterar é a troca de “u” e “n”, que aparece muito frequentemente.

Nesses casos, não altere a grafia correta que dá sentido à palavra, se você percebe que houve o uso indistinto de uma letra pela outra. Na hora de colocar o tipo com a letra “n”, como dissemos, a peça pode ter ficado de ponta-cabeça, e daí o “n” parecer um “u”. Ou faltaram tipos do “n” e o tipógrafo usou “u” no lugar...

Errar é hnmauo. :) 

Eu ja li tudo, estou pronto!

É necessário criar uma conta para poder acessar as perguntas da Olimpíada

O laboratório de estudos da
memória multilingue brasileira

Somos um grupo de pesquisa e estudo de documentos e periódicos criados pelos imigrantes alemães no brasil que estavam perdidos no tempo. Até agora.

No site do projeto você pode acessar coleções de documentos e jornais indexados por nós de vários orgãos como Arquivo Nacional, Biblioteca Nacional, UFPR e outros.