College student’s “time travel” AI experiment accidentally outputs real 1834 history

Um experimento de inteligência artificial, desenvolvido por um estudante universitário, gerou um relato histórico inesperado ao mencionar protestos reais ocorridos em Londres no ano de 1834. O criador do modelo de linguagem, que buscava replicar a linguagem da Era Vitoriana, confirmou a veracidade dos eventos após uma pesquisa, revelando uma conexão entre a tecnologia moderna e registros históricos.

O incidente ocorreu durante o desenvolvimento de um modelo de linguagem de inteligência artificial (IA) projetado para se comunicar em inglês da Era Vitoriana. O objetivo inicial do projeto era explorar a capacidade da IA de capturar e reproduzir nuances linguísticas de um período histórico específico, sem a intenção explícita de desenterrar fatos históricos desconhecidos pelo desenvolvedor.

O Criador e o Projeto TimeCapsuleLLM

Hayk Grigorian, um estudante de ciência da computação no Muhlenberg College, localizado na Pensilvânia, é o desenvolvedor por trás do experimento. Grigorian tem se dedicado, por aproximadamente um mês, à criação do que ele denominou TimeCapsuleLLM. Este modelo de linguagem de IA é descrito como uma versão em miniatura, um “primo distante” de sistemas mais amplos como o ChatGPT, mas com uma especialização única.

O foco principal de Grigorian era treinar o TimeCapsuleLLM exclusivamente com textos datados de Londres entre os anos de 1800 e 1875. A intenção era que o modelo de IA pudesse gerar saídas de texto que refletissem uma voz autêntica da Era Vitoriana. Isso incluía não apenas o vocabulário e a gramática da época, mas também o estilo retórico, frequentemente caracterizado por referências bíblicas e uma certa grandiosidade na expressão.

O projeto, inicialmente concebido “apenas por diversão”, como Grigorian descreveu, visava testar os limites da capacidade de um modelo de linguagem de IA de imergir em um corpus de dados altamente específico e reproduzir suas características inerentes. A escolha de um período e local tão delimitados foi estratégica para alcançar a autenticidade linguística desejada.

A Descoberta Histórica Inesperada

Durante uma das interações com o TimeCapsuleLLM, o modelo de IA produziu um texto que fazia referência a protestos ocorridos em Londres no ano de 1834. Esta menção surpreendeu Grigorian, que não tinha conhecimento prévio de tais eventos históricos específicos. A natureza da saída do modelo, rica em referências e com o estilo retórico esperado, não levantou suspeitas imediatas de que a informação pudesse ser uma “alucinação” da IA, um fenômeno comum em modelos de linguagem.

Intrigado pela menção, Grigorian decidiu verificar a informação. Ele realizou uma pesquisa online para confirmar se protestos realmente haviam ocorrido em Londres em 1834. A pesquisa revelou que os eventos mencionados pelo modelo de IA eram, de fato, históricos e documentados. “Eu estava interessado em ver se um protesto realmente havia ocorrido em Londres em 1834 e realmente aconteceu”, escreveu Grigorian em uma publicação no Reddit, detalhando sua experiência.

A confirmação da veracidade dos protestos de 1834 demonstrou que o modelo de IA não apenas absorveu o estilo linguístico do período, mas também processou e reteve informações factuais contidas em seu conjunto de dados de treinamento. Este resultado foi além do objetivo inicial de Grigorian, que era focado na autenticidade da voz, e destacou a capacidade da IA de extrair e apresentar detalhes históricos específicos.

A Metodologia de Treinamento e o Corpus de Dados

O sucesso do TimeCapsuleLLM em reproduzir não apenas o estilo, mas também fatos históricos, reside na sua metodologia de treinamento. O modelo foi alimentado exclusivamente com um vasto conjunto de textos provenientes de Londres, abrangendo o período de 1800 a 1875. Este corpus de dados incluía uma variedade de materiais escritos da época, como jornais, livros, correspondências e outros documentos que registravam a vida e os eventos da capital britânica durante o século XIX.

Ao contrário de modelos de linguagem maiores e mais generalistas, que são treinados em uma vasta gama de textos da internet, o TimeCapsuleLLM foi deliberadamente restrito a um período e local específicos. Essa restrição permitiu que o modelo desenvolvesse uma compreensão profunda das nuances linguísticas e do contexto histórico contido nesse conjunto de dados limitado. A ausência de dados externos ou contemporâneos durante o treinamento garantiu que a IA operasse estritamente dentro dos limites da Era Vitoriana.

Modelos de linguagem aprendem a prever a próxima palavra em uma sequência com base nos padrões que identificam em seus dados de treinamento. No caso do TimeCapsuleLLM, isso significou que ele aprendeu não apenas a estrutura das frases e o vocabulário da época, mas também as associações entre palavras e conceitos que eram prevalentes. Se os protestos de 1834 foram amplamente documentados nos textos de treinamento, o modelo teria internalizado essas informações como parte de seu “conhecimento” sobre o período.

A Voz da Era Vitoriana e a Geração de Conteúdo

O objetivo primário de Hayk Grigorian era que o TimeCapsuleLLM capturasse uma “voz autêntica da Era Vitoriana”. Isso se manifestou nas saídas do modelo, que eram notavelmente ricas em referências bíblicas e em um estilo retórico que caracterizava a escrita da época. A linguagem gerada pelo modelo era, portanto, distintamente diferente da fala contemporânea, refletindo a formalidade e as convenções literárias do século XIX.

A capacidade do modelo de incorporar elementos estilísticos como a retórica e as referências bíblicas demonstra a profundidade de seu aprendizado a partir do corpus de treinamento. Esses elementos não são meramente superficiais; eles são intrínsecos à forma como as ideias eram expressas e compreendidas na Era Vitoriana. A IA conseguiu replicar essa complexidade, gerando textos que pareciam ter sido escritos por um contemporâneo da época.

A menção dos protestos de 1834, embora um subproduto inesperado, reforça a eficácia do treinamento. Não foi apenas uma questão de estilo, mas também de conteúdo. O modelo, ao gerar texto sobre um tópico que se encaixava no contexto histórico e linguístico de seu treinamento, acessou informações factuais que estavam presentes nos dados, mesmo que o desenvolvedor não as tivesse explicitamente programado ou conhecido.

O Contexto de Londres em 1834

Para compreender por que protestos em 1834 seriam um evento notável nos textos da época, é útil considerar o contexto histórico de Londres no início do século XIX. A Grã-Bretanha passava por um período de significativas transformações sociais, econômicas e políticas. A Revolução Industrial estava em pleno curso, levando a rápidas mudanças urbanas, crescimento populacional e, frequentemente, condições de vida e trabalho precárias para a classe trabalhadora.

O ano de 1834 se situava logo após a aprovação da Lei de Reforma de 1832, que havia expandido o direito ao voto, mas ainda deixava grande parte da população sem representação. Havia um crescente descontentamento social e político, impulsionado por questões como a pobreza, a falta de direitos trabalhistas e a busca por reformas mais amplas. A Lei dos Pobres de 1834, por exemplo, foi uma legislação controversa que impactou profundamente a vida dos mais desfavorecidos, gerando considerável oposição e protestos.

Eventos como manifestações e protestos eram, portanto, uma parte integrante do cenário social e político de Londres durante esse período. Jornais, panfletos e outros documentos da época frequentemente registravam esses acontecimentos, refletindo as tensões e os movimentos sociais. A presença de informações sobre os protestos de 1834 no corpus de treinamento do TimeCapsuleLLM é, portanto, consistente com a natureza dos registros históricos daquele tempo.

IA e a Preservação de Registros Históricos

O experimento de Grigorian demonstra a capacidade dos modelos de linguagem de IA de processar e, em certos casos, “lembrar” detalhes específicos de vastos conjuntos de dados históricos. Embora o objetivo principal não fosse a pesquisa histórica, o resultado sublinha o potencial dessas ferramentas para interagir com e extrair informações de arquivos digitais de textos antigos.

A habilidade de um modelo de IA de sintetizar informações de um corpus histórico e apresentá-las de forma coerente, mesmo que inesperada para o desenvolvedor, sugere novas abordagens para a exploração de registros. Em vez de simplesmente pesquisar palavras-chave, um modelo de linguagem pode, através de sua compreensão contextual, gerar narrativas ou referências que conectam diferentes peças de informação dentro do conjunto de dados.

Este caso ilustra como a IA, quando treinada em dados específicos e bem curados, pode atuar como uma ferramenta para a descoberta ou redescoberta de fatos. A capacidade de um modelo de linguagem de IA de extrair e apresentar informações factuais de seu treinamento, mesmo que o desenvolvedor não as conhecesse previamente, destaca a complexidade e a riqueza dos dados históricos que podem ser processados por essas tecnologias.

A Autenticidade da Informação e o Futuro da Interação

A autenticidade da informação gerada pelo TimeCapsuleLLM, confirmada por Grigorian, reforça a ideia de que modelos de linguagem podem ir além da mera imitação estilística. Eles podem, de fato, internalizar e refletir o conteúdo factual presente em seus dados de treinamento. Este é um ponto crucial que diferencia a geração de texto plausível da recuperação de informações verificáveis.

O experimento de Hayk Grigorian serve como um exemplo de como a curiosidade na ciência da computação pode levar a descobertas inesperadas. A criação de um modelo de IA com o propósito de replicar uma voz histórica resultou em uma demonstração da capacidade da tecnologia de interagir com o passado de maneiras que podem ser tanto educativas quanto surpreendentes. A interseção entre o desenvolvimento de IA e a documentação histórica continua a evoluir, com cada novo experimento revelando mais sobre o potencial dessas ferramentas.

Fonte: https://arstechnica.com/information-technology/2025/08/ai-built-from-1800s-texts-surprises-creator-by-mentioning-real-1834-london-protests/

Para seguir a cobertura, veja também accidentally.

Deixe um comentário