Já teve curiosidade de saber como fotos de documentos antigos viram os jornais que você acessa no lemmbra? Aqui nós contamos tudo.
Hoje, o principal “suporte midiático” para o registro e circulação de informações é o mundo digital. Mas durante alguns séculos foi o papel impresso.Os impressos tornaram-se o principal suporte de circulação desde que Johannes Gutenberg (1400[?] - 1468) inventou a prensa de tipos móveis (ou prensa móvel)
Letra Z pertencente a primeira prensa de Gutenberg
Link para imagem originalOs tipos eram pegos a mão e montados um a um em uma placa, a matriz.
Blocos de letras para prensa tipográfica
Link para imagem originalFoi a partir daí que começaram a circular diversos exemplares idênticos de material impresso. Eram livros, mas principalmente folhetos impressos, antepassados dos jornais.
As letras do alfabeto se tornaram os “bits” que transportaram e hoje guardam muitos e muitos “petabites” de dados textuais. Exemplares idênticos de livros e jornais circulando de mão em mão eram os “sites” em uma rede mundial de papel impresso. As bibliotecas eram os “servidores” ou as “nuvens” de dados.
Até a época em que foram impressos os jornais da Olimpíada lemmbra (a segunda metade do século XIX, principalmente a década de 1880) ainda era comum utilizar impressoras tipográficas.
Percebe-se que às vezes o tipógrafo trocou a ordem de colocação dos tipos, quando estava compondo o jornal. Ou que colocou um “n” de ponta-cabeça e ele parece um “u”. Ou que até mesmo um tipo correu na placa matriz, ficando na linha de baixo.
Nesse exemplar do jornal o “l” de “lavoura” correu para a linha de baixo e o jornal foi impresso sem que o tipógrafo ou o revisor percebessem.
Fotografar o material produzido em papel é algo que começou a ser feito faz algumas poucas décadas. Mas – quem diria? – hoje não basta ter só a imagem do texto disponível, é preciso que cada letra, cada caractere, seja reconhecido como tal: aí é que o texto passa a estar digitalizado. Pois com isso até mesmo as máquinas podem processá-los, como dados textuais. Para o desenvolvimento de inteligência artificial que considere o passado e a história humana isso é muito importante.
Foi para transformar imagens de textos em documentos textuais que surgiu a técnica de OCR: optical caracter recognition, reconhecimento ótico (ou visual) de caracteres.
Não é simples identificar os caracteres, e nem sempre está tudo certo na página. (E aqui nem vamos falar de centenas e centenas de milhões de páginas manuscritas, escritas a mão, que há nas bibliotecas e arquivos...)
A ortografia do século XIX era menos rígida e em alguns casos bastante diferente da atual.
Por exemplo, escrevia-se a forma do passado dos verbos no plural com “-ão” no final: “erão” em vez de “eram”, ou mesmo “acharão” em vez de “acharam”, o que nos dias de hoje causa estranheza, pela confusão com a forma do futuro: “acharão”.
Por causa da origem das palavras, era comum usar-se consoantes duplas, como nas palavras “differença", “official”, “elles", “attenua” etc.
A acentuação era bastante distinta, sem o acento nas paroxítonas terminadas em ditongo crescente (“varios”, em vez de “vários”) ou sem acentuação nas proparoxítonas (“numero”, em vez de “número”), entre muitos outros detalhes. A crase era marcada frequentemente por um acento agudo (“á”, em vez de “à”). E assim por diante.
Em alemão, há ainda a dificuldade de que se costumavam utilizar tipos de letras bastante característicos e típicos daquele idioma. Durante a Olimpíada você pode acessar a qualquer momento uma ferramenta para conhecer os tipos “Fraktur”, “Textur”, “Kanzlei” da assim chamada escrita “gótica”.
Exemplos de caracteres em Fraktur difíceis de serem distinguidos (da esquerda para a direita): s (na forma de “long s”), f, u, n, u ou n, B, V, R e N. Fonte: Furrer e Volk (2011),
cf. a dissertação de Alessandra Belézia de Araújo, Análise de layout de página em jornais históricos germano-brasileiros, 2019, p. 30. Disponível em: https://acervodigital.ufpr.br/xmlui/handle/1884/63706
Por essas dificuldades todas e necessidade de aprimoramento dos softwares de OCR com o uso de Inteligência Artificial, ainda será necessário e desejável, por muitos anos, que pessoas, leitores humanos, corrijam os textos e assim também tomem contato com as imagens dos originais.
A atividade da Olimpíada é algo semelhante ao que, em breve, pode envolver grandes camadas da população, em um processo de construção de acervos digitais e da memória coletiva das sociedades humanas.
Nessa atividade, é importante observar e manter a ortografia original, em um primeiro momento. Ao ler, percebemos que a compreensão do texto flui bem. A ortografia não é um impedimento, se estamos determinados a entender.
A forma, no entanto, é um detalhe documental importante para a preservação e registro digital do documento. Por isso, as tarefas da Olimpíada pedem total fidelidade ao texto na imagem.
Hoje a digitalização torna possível que na apresentação do documento o futuro leitor possa acionar na tela uma versão com ortografia atualizada. Isso sem falar que o texto, com o uso dos recursos necessários, poderá ser traduzido automaticamente para várias línguas...
Mas isso tudo depende de um primeiro registro bastante literal. Por isso, para realizar a tarefa da Olimpíada, seja literal e fiel à imagem original. Se na transcrição aparece “E’ impossível...” e você vê o mesmo na imagem (Um E seguido de ’), não altere! Deixe a solução gráfica que o tipógrafo conseguiu dar naquele momento.
Uma exceção importante em que você não deve alterar é a troca de “u” e “n”, que aparece muito frequentemente.
Nesses casos, não altere a grafia correta que dá sentido à palavra, se você percebe que houve o uso indistinto de uma letra pela outra. Na hora de colocar o tipo com a letra “n”, como dissemos, a peça pode ter ficado de ponta-cabeça, e daí o “n” parecer um “u”. Ou faltaram tipos do “n” e o tipógrafo usou “u” no lugar...
Errar é hnmauo. :)
Somos um grupo de pesquisa e estudo de documentos e periódicos criados pelos imigrantes alemães no brasil que estavam perdidos no tempo. Até agora.
No site do projeto você pode acessar coleções de documentos e jornais indexados por nós de vários orgãos como Arquivo Nacional, Biblioteca Nacional, UFPR e outros.