Introdução

Hoje, o principal “suporte midiático” para o registro e circulação de informações é o mundo digital. Mas durante alguns séculos foi o papel impresso.Os impressos tornaram-se o principal suporte de circulação desde que Johannes Gutenberg (1400[?] - 1468) inventou a prensa de tipos móveis (ou prensa móvel)

Letra Z pertencente a primeira prensa de Gutenberg

Link para imagem original

Os tipos eram pegos a mão e montados um a um em uma placa, a matriz.

Blocos de letras para prensa tipográfica

Link para imagem original

Foi a partir daí que começaram a circular diversos exemplares idênticos de material impresso. Eram livros, mas principalmente folhetos impressos, antepassados dos jornais.

As letras do alfabeto se tornaram os “bits” que transportaram e hoje guardam muitos e muitos “petabites” de dados textuais. Exemplares idênticos de livros e jornais circulando de mão em mão eram os “sites” em uma rede mundial de papel impresso. As bibliotecas eram os “servidores” ou as “nuvens” de dados.

Até a época em que foram impressos os jornais da Olimpíada lemmbra (a segunda metade do século XIX, principalmente a década de 1880) ainda era comum utilizar impressoras tipográficas.

Percebe-se que às vezes o tipógrafo trocou a ordem de colocação dos tipos, quando estava compondo o jornal. Ou que colocou um “n” de ponta-cabeça e ele parece um “u”. Ou que até mesmo um tipo correu na placa matriz, ficando na linha de baixo.

Nesse exemplar do jornal o “l” de “lavoura” correu para a linha de baixo e o jornal foi impresso sem que o tipógrafo ou o revisor percebessem.

Fotografar o material produzido em papel é algo que começou a ser feito faz algumas poucas décadas. Mas – quem diria? – hoje não basta ter só a imagem do texto disponível, é preciso que cada letra, cada caractere, seja reconhecido como tal: aí é que o texto passa a estar digitalizado. Pois com isso até mesmo as máquinas podem processá-los, como dados textuais. Para o desenvolvimento de inteligência artificial que considere o passado e a história humana isso é muito importante.

Foi para transformar imagens de textos em documentos textuais que surgiu a técnica de OCR: optical caracter recognition, reconhecimento ótico (ou visual) de caracteres.

Não é simples identificar os caracteres, e nem sempre está tudo certo na página. (E aqui nem vamos falar de centenas e centenas de milhões de páginas manuscritas, escritas a mão, que há nas bibliotecas e arquivos...)

Um exemplo básico:

A ortografia do século XIX era menos rígida e em alguns casos bastante diferente da atual.

Por exemplo, escrevia-se a forma do passado dos verbos no plural com “-ão” no final: “erão” em vez de “eram”, ou mesmo “acharão” em vez de “acharam”, o que nos dias de hoje causa estranheza, pela confusão com a forma do futuro: “acharão”.

Por causa da origem das palavras, era comum usar-se consoantes duplas, como nas palavras “differença", “official”, “elles", “attenua” etc.

A acentuação era bastante distinta, sem o acento nas paroxítonas terminadas em ditongo crescente (“varios”, em vez de “vários”) ou sem acentuação nas proparoxítonas (“numero”, em vez de “número”), entre muitos outros detalhes. A crase era marcada frequentemente por um acento agudo (“á”, em vez de “à”). E assim por diante.

Em alemão, há ainda a dificuldade de que se costumavam utilizar tipos de letras bastante característicos e típicos daquele idioma. Durante a Olimpíada você pode acessar a qualquer momento uma ferramenta para conhecer os tipos “Fraktur”, “Textur”, “Kanzlei” da assim chamada escrita “gótica”.

Exemplos de caracteres em Fraktur difíceis de serem distinguidos (da esquerda para a direita): s (na forma de “long s”), f, u, n, u ou n, B, V, R e N. Fonte: Furrer e Volk (2011),
cf. a dissertação de Alessandra Belézia de Araújo, Análise de layout de página em jornais históricos germano-brasileiros, 2019, p. 30. Disponível em: https://acervodigital.ufpr.br/xmlui/handle/1884/63706

Por essas dificuldades todas e necessidade de aprimoramento dos softwares de OCR com o uso de Inteligência Artificial, ainda será necessário e desejável, por muitos anos, que pessoas, leitores humanos, corrijam os textos e assim também tomem contato com as imagens dos originais.

A atividade da Olimpíada é algo semelhante ao que, em breve, pode envolver grandes camadas da população, em um processo de construção de acervos digitais e da memória coletiva das sociedades humanas.

Nessa atividade, é importante observar e manter a ortografia original, em um primeiro momento. Ao ler, percebemos que a compreensão do texto flui bem. A ortografia não é um impedimento, se estamos determinados a entender.

A forma, no entanto, é um detalhe documental importante para a preservação e registro digital do documento. Por isso, as tarefas da Olimpíada pedem total fidelidade ao texto na imagem.

Hoje a digitalização torna possível que na apresentação do documento o futuro leitor possa acionar na tela uma versão com ortografia atualizada. Isso sem falar que o texto, com o uso dos recursos necessários, poderá ser traduzido automaticamente para várias línguas...

Mas isso tudo depende de um primeiro registro bastante literal. Por isso, para realizar a tarefa da Olimpíada, seja literal e fiel à imagem original. Se na transcrição aparece “E’ impossível...” e você vê o mesmo na imagem (Um E seguido de ’), não altere! Deixe a solução gráfica que o tipógrafo conseguiu dar naquele momento.

Uma exceção importante em que você não deve alterar é a troca de “u” e “n”, que aparece muito frequentemente.

Nesses casos, não altere a grafia correta que dá sentido à palavra, se você percebe que houve o uso indistinto de uma letra pela outra. Na hora de colocar o tipo com a letra “n”, como dissemos, a peça pode ter ficado de ponta-cabeça, e daí o “n” parecer um “u”. Ou faltaram tipos do “n” e o tipógrafo usou “u” no lugar...

Errar é hnmauo. :)

Artigo

ARTIGO#5

Como imagem vira Texto

Introdução

Um exemplo básico:

Eu ja li tudo, estou pronto!

É necessário criar uma conta para poder acessar as perguntas da Olimpíada

1 - As instituições da memória do brasil

2 - Documentos Inexplorados da nossa história

3 - A Percepção da escravidão

4 - Desvendando os textos escravistas e abolicionistas

5 - Como imagem vira texto?

O laboratório de estudos da
memória multilingue brasileira

Parceiros

Sobre nós

Hi, i`m Pedro and i made this website and branding

Artigo

ARTIGO#5

Como imagem vira Texto

Introdução

Um exemplo básico:

Eu ja li tudo, estou pronto!

É necessário criar uma conta para poder acessar as perguntas da Olimpíada

1 - As instituições da memória do brasil

2 - Documentos Inexplorados da nossa história

3 - A Percepção da escravidão

4 - Desvendando os textos escravistas e abolicionistas

5 - Como imagem vira texto?

O laboratório de estudos da memória multilingue brasileira

Parceiros

Sobre nós

Hi, i`m Pedro and i made this website and branding

O laboratório de estudos da
memória multilingue brasileira