Jornal Estado de Minas

Linguística forense é capaz de revelar autores misteriosos e fraudes

O método é usado para comparar trechos de livros e determinar a autoria de uma obra

Jorge Macedo - especial para o EM

Roberta Machado


J. K. Rowling, autorada série Harry Potter, assinou como Robert Galbraith - Foto: DAVID CHESKIN/AFP %u2013 26/9/11 Brasília – Quando a crítica literária classificou o livro policial The Cuckoo’s Calling como “uma estreia auspiciosa” e uma “fascinação obscura”, dirigia os elogios a Robert Galbraith, um militar aposentado que tinha acabado de ingressar no mundo literário. No entanto, uma matéria publicada recentemente pelo jornal britânico Sunday Times revelou que o escritor talentoso era, na verdade, um pseudônimo adotado secretamente por J. K. Rowling, a mesma autora dos livros da série Harry Potter. Em seu livro anterior, Morte súbita, Rowling havia recebido análises divididas, que duvidavam dos méritos do primeiro título voltado a adultos de autoria da escritora, consagrada pelo trabalho infantojuvenil.
A suspeita sobre a identidade de Galbraith começou quando parte da imprensa notou que alguns talentos do escritor iam além do diálogo brilhante. Alguns críticos ressaltaram a habilidade do policial veterano em falar sobre a cultura moderna e em descrever roupas femininas. Depois de receber uma dica no microblog Twitter, a repórter Cal Flyn procurou especialistas que pudessem confirmar a identidade do autor. Sem impressões digitais ou imagens de câmeras de segurança, essa missão tinha como pistas somente as letras e pontuações que compunham as 450 páginas do livro de autoria desconhecida. O texto foi submetido a programas de computador, que fizeram o criterioso trabalho de apontar, entre os suspeitos, quem seria o “culpado” de escrever a obra de ficção.
Os programas compararam The Cuckoo’s Calling à obra Morte súbita, de Rowling, e a outros livros de três das mais conhecidas escritoras britânicas de histórias de detetive (veja a arte abaixo). “A forma comum de fazer uma análise é pegar um conjunto de possíveis autores e um conjunto de obras representativas desses autores para determinar qual entre eles é o ‘mais próximo’ em estilo do documento questionado”, explica o norte-americano Patrick Juola, professor de ciência da computação na Faculdade de Artes Liberais McAnulty, da Universidade Duquesne (em Pittsburgh, Pensilvânia), e um dos pesquisadores convocados para a investigação. A versão digital do livro foi analisada com o Programa de Atribuição de Autoria Gráfica para Java (JGAAP, pela sigla em inglês), um software que Patrick criou especialmente para trabalhos desse tipo.
O trabalho de linguística forense consiste no desmembramento de um texto em vários elementos de naturezas diferentes, contados e comparados para a formação do perfil literário do escritor responsável. Softwares especiais contabilizam as palavras mais usadas, os números e os tamanhos de frases, as pontuações e as combinações de letras aparentemente aleatórias, que pouco sentido fazem para o leitor. O software leva em conta, por exemplo, pares de palavras, e grupos definidos de caracteres que são registrados independentemente das palavras (como as letras “etet” na palavra detetive, por exemplo).

Símbolos

A separação de símbolos gráficos é uma das tarefas que somente podem ser realizadas e interpretadas por computadores – além de ser o tipo de análise com resultados mais confiáveis, na opinião de Juola. “Comprimentos de palavras, em particular, geralmente não são muito úteis, porque as pessoas tendem a ser muito parecidas (nesse aspecto), e, em parte, porque é fácil para o mesmo autor escrever usando tamanhos de palavras diferentes, dependendo do seu público”, aponta o especialista.
O programa de análise textual usa algoritmos para criar perfis das características de escrita de cada obra, inclusive qualidades que dificilmente poderiam ser modificadas por escritores desejosos de passarem despercebidos. Nesse caso, os livros da série Harry Potter foram deixados de fora, por pertencer a outro gênero e por ter um vocabulário diferente do livro investigado.
Alguns dos resultados sugeriram que Val McDermid pudesse ser a autora do livro. Outros apontaram P. D. James como a escritora responsável pela obra. O computador detetive não pôde afirmar com certeza absoluta o autor do texto, mas o padrão traçado pelo software permitiu uma análise suficiente para que J. Rowling pudesse ser confrontada. Mesmo que a criadora de Harry Potter não fosse a escolha mais provável em todas as características examinadas, ela foi a única opção não descartada em nenhuma das condições consideradas. O segredo da escritora tinha sido descoberto, e ela admitiu a autoria para a imprensa.

Entenda como funcionam os programas de linguística forense - Foto: Arte D.A Press
Usada há décadas, a técnica de linguística forense já foi decisiva para a descoberta de outros autores misteriosos, até mesmo na solução de crimes e de fraudes. Alguns casos solucionados, ironicamente, parecem ter origem na ficção literária, como investigações sobre testamentos contestados por herdeiros ou cartas anônimas envolvidas em disputas judiciais. Serviços de inteligência e empresas de segurança também adotaram a técnica.
Benjamin Fung, por exemplo, recebe com frequência solicitações de interessados em descobrir a autoria de e-mails anônimos com a ajuda do programa de análise literária criado por ele. “A demanda é muito alta. Recebi muitos pedidos de pessoas e de organizações diferentes, e não posso dar conta de todos”, revela o professor da Universidade de Concordia, no Canadá. No entanto, o modelo só é capaz de apontar o escritor entre um grupo de pessoas, que também precisam ter exemplos de documentos analisados. “Geralmente, necessitamos de pelo menos 20 ou 30 e-mails de cada autor.”
Os softwares não conseguiriam classificar a confiança narrativa de Galbraith, mas podem fazer, em minutos, a contagem de letras e de símbolos em livros de centenas de páginas. As frases são desconstruídas e recombinadas à exaustão, até que o computador encontre padrões imperceptíveis para um profissional de carne e osso.
Alguns programas, como o criado pela especialista Carole E. Chaski, prometem 95% de precisão no veredicto da autoria. O método, usado no Instituto de Evidência Linguística – uma organização dedicada a desenvolver e aplicar métodos de linguística forense –, analisa 26 características diferentes dos documentos investigados. “O procedimento de checagem é otimizado, de forma que um linguista possa conferir o resultado com muita rapidez”, ressalta Chaski. “Alguns módulos (do programa) são totalmente automatizados, e o usuário não precisa de nenhum treinamento linguístico”, aponta. A ferramenta não é enganada nem mesmo por corretores automáticos de texto, que apagam algumas das impressões pessoais do documento final.
Em testes com documentos conhecidos, o software SynAID apontou os autores com precisão usando apenas uma centena de frases como base de pesquisa. “Na vasta maioria dos casos, os documentos são bastante breves, algo muito diferente do tamanho de romances. Na área forense, a autoria do tuíte (de denúncia) do incidente Rowling seria muito mais interessante que a do livro”, ressalta Chaski, que já colaborou com mais de 50 casos de investigação literária. Depois da averiguação sobre a autoria do livro, soube-se que a mensagem que ligou J. Rowling ao livro tinha sido revelada pela melhor amiga da mulher de um colaborador da editora.