Quem pretende realizar pesquisas aprofundadas nos arquivos da Alemanha pré-Segunda Guerra Mundial tem que dominar uma aptidão especial: ler formas de caligrafia que, neste ínterim, desapareceram inteiramente do quotidiano do idioma.
Há o Kurrent, uma grafia cursiva desenvolvida no fim da Idade Média, assim como diversas variantes, sobretudo o Sütterlin, criado em 1911 e adotado nas escolas entre 1915 e 1941, até ser proibido pelo regime nazista. A partir daí, passou-se a ensinar uma grafia semelhante à cursiva moderna.
Embora quem cresceu com o Sütterlin tenha continuado a empregá-lo pelo pós-guerra adentro, a maioria dos alemães não consegue ler as cartas escritas por seus avós. Esse pareceu a situação ideal para se recorrer à inteligência artificial.
O Arquivo Federal Alemão (Bundesarchiv) – que possui cerca de 10 mil escritos oficiais do Escritório Colonial do Reich, a autoridade central para as políticas colonialistas do Império Alemão – desenvolveu uma ferramenta capaz de decodificar os diferentes tipos de escrita encontrados nos documentos do colonialismo.
O porta-voz do órgão, Elmar Kramer, explica que "eles foram escolhidos porque a maior parte era manuscrita". Além disso, essa coleção já foi inteiramente digitalizada e não está sujeita a restrições de uso, complementa a diretora do projeto, Inger Banse. Acima de tudo, porém, "dar conta da era colonialista é o foco de toda a nossa sociedade, e podemos fazer uma boa contribuição com essa coleção".
Saudando o projeto do Bundesarchiv de usar tecnologia de IA específica, a comissária federal para Cultura e Mídias, Claudia Roth, comenta: "Por tempo demais, os crimes da era colonial têm sido um ponto cego em nossa cultura da memória." A atual iniciativa "ajudará a fortalecer o conhecimento sobre esse capítulo obscuro da história alemã", e assim "dar uma contribuição importante ao processamento do passado".
"IA encontra colonialismo"
O Império Alemão iniciou suas atividades colonizadoras no fim do século 20, concentrando-se sobretudo em apoderar-se de territórios e estabelecer colônias na África, Oceano Pacífico e China. Apesar de esse domínio ter durado pouco mais de 30 anos – de 1884 até o fim da Primeira Guerra Mundial –, a Alemanha se tornou rapidamente a terceira principal potência colonial da Europa, atrás do Reino Unido e da França. E seu regime foi especialmente brutal.
Entre os capítulos lamentáveis registrados no Arquivo Federal está a rebelião de Sokehs, de 1910 a 1911, ao largo de Pohnpei, a principal das Ilhas Carolinas Orientais, hoje Estados Federados da Micronésia. Para abafar a revolta, os ocupadores alemães aplicaram política de terra queimada, caçando os rebeldes e deportando a tribo.
Outro episódio notório de injustiça colonial foi a execução do rei Rudolf Douala Manga Bell e Adolf Ngoso Din, em 1914, por sua campanha pacífica contra a decisão dos alemães de remover o povo douala de seus lares no Kamerun (atual República dos Camarões) e realoca-lo.
O caso mais trágico, porém, foi o primeiro genocídio do século 20, das etnias herero e nama no Sudoeste Africano Alemão (hoje Namíbia), entre 1904 e 1908, por se erguerem contra os invasores. Só em 2021 o governo da Alemanha admitiu oficialmente o crime.
No mesmo ano, o Arquivo Federal começou a desenvolver uma ferramenta de IA a fim de tornar mais acessíveis seus registros colonialistas. Isso foi antes da "nova era da inteligência artificial", quando o lançamento público do ChatGPT e outros modelos de linguagem grandes (LLM), colocaram a tecnologia no centro das atenções.
"Achamos importante sempre participar dos avanços mais recentes", afirma Kramer. "Por isso, já há alguns anos a IA vem sendo um tópico de interesse para nós. Neste caso, podemos dizer que estamos combinando uma de nossas coleções mais antigas e uma das mais novas tecnologias. Se assim quiser: IA encontra colonialismo."
Entre o ideal e o praticável e a "regra 80/20"
É preciso ter em mente que, no caso atual, a IA não só precisa decifrar o Sütterlin, como às vezes "uma caligrafia bem descuidada, garranchada", afirma Kramer. E além "da escrita diferente, em geral, também temos material impresso e datilografado".
"Há muitas rasuras, mas também há páginas bem limpas", acrescenta Banse. Por isso separam-se os documentos em três grupos, de acordo com a complexidade do material a ser transcrito, e "observamos como o modelo se comporta nessas três categorias".
Ela e seus colaboradores treinaram o modelo de linguagem, conferindo e corrigindo-o manualmente, linha a linha. A transcrição por IA resultou em 170 páginas de material variado, e agora o modelo de IA proporciona um grau aceitável de precisão, mesmo diante do material mais complexo.
Atingir a perfeição nas transcrições teria exigido um investimento de tempo desproporcional, justifica Banse, citando o Princípio de Pareto – ou "regra do 80/20", denominado em homenagem ao filósofo Vilfredo Pareto (1848-1923) – segundo o qual os 20% mais difíceis do processo de otimização exigem 80% dos esforços.
"Então, em algum momento tivemos que traçar o limite", desenvolvendo uma máquina de busca mais tolerante e permitindo a obtenção de uma gama mais ampla de resultados, relata a diretora do projeto.
Agora que o modelo de IA do Bundesarchiv foi treinado para decodificar a escrita Kurrent, abre-se todo um novo campo de possibilidades para outros arquivos germanófonos. No momento, contudo, ele se restringe a esse projeto-piloto específico, que pode ser consultado in loco na sala de pesquisa do órgão, em Berlin-Lichterfelde, e em breve estará acessível online.
Autor: Elizabeth Grenier