Um experimento de inteligência artificial, desenvolvido por um estudante universitário, gerou um relato histórico inesperado ao mencionar protestos reais ocorridos em Londres no ano de 1834. O criador do modelo de linguagem, que buscava replicar a linguagem da Era Vitoriana, confirmou a veracidade dos eventos após uma pesquisa, revelando uma conexão entre a tecnologia moderna e registros históricos.
O incidente ocorreu durante o desenvolvimento de um modelo de linguagem de inteligência artificial (IA) projetado para se comunicar em inglês da Era Vitoriana. O objetivo inicial do projeto era explorar a capacidade da IA de capturar e reproduzir nuances linguísticas de um período histórico específico, sem a intenção explícita de desenterrar fatos históricos desconhecidos pelo desenvolvedor.
O Criador e o Projeto TimeCapsuleLLM
Hayk Grigorian, um estudante de ciência da computação no Muhlenberg College, localizado na Pensilvânia, é o desenvolvedor por trás do experimento. Grigorian tem se dedicado, por aproximadamente um mês, à criação do que ele denominou TimeCapsuleLLM. Este modelo de linguagem de IA é descrito como uma versão em miniatura, um “primo distante” de sistemas mais amplos como o ChatGPT, mas com uma especialização única.
O foco principal de Grigorian era treinar o TimeCapsuleLLM exclusivamente com textos datados de Londres entre os anos de 1800 e 1875. A intenção era que o modelo de IA pudesse gerar saídas de texto que refletissem uma voz autêntica da Era Vitoriana. Isso incluía não apenas o vocabulário e a gramática da época, mas também o estilo retórico, frequentemente caracterizado por referências bíblicas e uma certa grandiosidade na expressão.
O projeto, inicialmente concebido “apenas por diversão”, como Grigorian descreveu, visava testar os limites da capacidade de um modelo de linguagem de IA de imergir em um corpus de dados altamente específico e reproduzir suas características inerentes. A escolha de um período e local tão delimitados foi estratégica para alcançar a autenticidade linguística desejada.
A Descoberta Histórica Inesperada
Durante uma das interações com o TimeCapsuleLLM, o modelo de IA produziu um texto que fazia referência a protestos ocorridos em Londres no ano de 1834. Esta menção surpreendeu Grigorian, que não tinha conhecimento prévio de tais eventos históricos específicos. A natureza da saída do modelo, rica em referências e com o estilo retórico esperado, não levantou suspeitas imediatas de que a informação pudesse ser uma “alucinação” da IA, um fenômeno comum em modelos de linguagem.
Intrigado pela menção, Grigorian decidiu verificar a informação. Ele realizou uma pesquisa online para confirmar se protestos realmente haviam ocorrido em Londres em 1834. A pesquisa revelou que os eventos mencionados pelo modelo de IA eram, de fato, históricos e documentados. “Eu estava interessado em ver se um protesto realmente havia ocorrido em Londres em 1834 e realmente aconteceu”, escreveu Grigorian em uma publicação no Reddit, detalhando sua experiência.
A confirmação da veracidade dos protestos de 1834 demonstrou que o modelo de IA não apenas absorveu o estilo linguístico do período, mas também processou e reteve informações factuais contidas em seu conjunto de dados de treinamento. Este resultado foi além do objetivo inicial de Grigorian, que era focado na autenticidade da voz, e destacou a capacidade da IA de extrair e apresentar detalhes históricos específicos.
A Metodologia de Treinamento e o Corpus de Dados
O sucesso do TimeCapsuleLLM em reproduzir não apenas o estilo, mas também fatos históricos, reside na sua metodologia de treinamento. O modelo foi alimentado exclusivamente com um vasto conjunto de textos provenientes de Londres, abrangendo o período de 1800 a 1875. Este corpus de dados incluía uma variedade de materiais escritos da época, como jornais, livros, correspondências e outros documentos que registravam a vida e os eventos da capital britânica durante o século XIX.
Ao contrário de modelos de linguagem maiores e mais generalistas, que são treinados em uma vasta gama de textos da internet, o TimeCapsuleLLM foi deliberadamente restrito a um período e local específicos. Essa restrição permitiu que o modelo desenvolvesse uma compreensão profunda das nuances linguísticas e do contexto histórico contido nesse conjunto de dados limitado. A ausência de dados externos ou contemporâneos durante o treinamento garantiu que a IA operasse estritamente dentro dos limites da Era Vitoriana.
Modelos de linguagem aprendem a prever a próxima palavra em uma sequência com base nos padrões que identificam em seus dados de treinamento. No caso do TimeCapsuleLLM, isso significou que ele aprendeu não apenas a estrutura das frases e o vocabulário da época, mas também as associações entre palavras e conceitos que eram prevalentes. Se os protestos de 1834 foram amplamente documentados nos textos de treinamento, o modelo teria internalizado essas informações como parte de seu “conhecimento” sobre o período.
A Voz da Era Vitoriana e a Geração de Conteúdo
O objetivo primário de Hayk Grigorian era que o TimeCapsuleLLM capturasse uma “voz autêntica da Era Vitoriana”. Isso se manifestou nas saídas do modelo, que eram notavelmente ricas em referências bíblicas e em um estilo retórico que caracterizava a escrita da época. A linguagem gerada pelo modelo era, portanto, distintamente diferente da fala contemporânea, refletindo a formalidade e as convenções literárias do século XIX.
A capacidade do modelo de incorporar elementos estilísticos como a retórica e as referências bíblicas demonstra a profundidade de seu aprendizado a partir do corpus de treinamento. Esses elementos não são meramente superficiais; eles são intrínsecos à forma como as ideias eram expressas e compreendidas na Era Vitoriana. A IA conseguiu replicar essa complexidade, gerando textos que pareciam ter sido escritos por um contemporâneo da época.
A menção dos protestos de 1834, embora um subproduto inesperado, reforça a eficácia do treinamento. Não foi apenas uma questão de estilo, mas também de conteúdo. O modelo, ao gerar texto sobre um tópico que se encaixava no contexto histórico e linguístico de seu treinamento, acessou informações factuais que estavam presentes nos dados, mesmo que o desenvolvedor não as tivesse explicitamente programado ou conhecido.
O Contexto de Londres em 1834
Para compreender por que protestos em 1834 seriam um evento notável nos textos da época, é útil considerar o contexto histórico de Londres no início do século XIX. A Grã-Bretanha passava por um período de significativas transformações sociais, econômicas e políticas. A Revolução Industrial estava em pleno curso, levando a rápidas mudanças urbanas, crescimento populacional e, frequentemente, condições de vida e trabalho precárias para a classe trabalhadora.
O ano de 1834 se situava logo após a aprovação da Lei de Reforma de 1832, que havia expandido o direito ao voto, mas ainda deixava grande parte da população sem representação. Havia um crescente descontentamento social e político, impulsionado por questões como a pobreza, a falta de direitos trabalhistas e a busca por reformas mais amplas. A Lei dos Pobres de 1834, por exemplo, foi uma legislação controversa que impactou profundamente a vida dos mais desfavorecidos, gerando considerável oposição e protestos.
Eventos como manifestações e protestos eram, portanto, uma parte integrante do cenário social e político de Londres durante esse período. Jornais, panfletos e outros documentos da época frequentemente registravam esses acontecimentos, refletindo as tensões e os movimentos sociais. A presença de informações sobre os protestos de 1834 no corpus de treinamento do TimeCapsuleLLM é, portanto, consistente com a natureza dos registros históricos daquele tempo.
IA e a Preservação de Registros Históricos
O experimento de Grigorian demonstra a capacidade dos modelos de linguagem de IA de processar e, em certos casos, “lembrar” detalhes específicos de vastos conjuntos de dados históricos. Embora o objetivo principal não fosse a pesquisa histórica, o resultado sublinha o potencial dessas ferramentas para interagir com e extrair informações de arquivos digitais de textos antigos.
A habilidade de um modelo de IA de sintetizar informações de um corpus histórico e apresentá-las de forma coerente, mesmo que inesperada para o desenvolvedor, sugere novas abordagens para a exploração de registros. Em vez de simplesmente pesquisar palavras-chave, um modelo de linguagem pode, através de sua compreensão contextual, gerar narrativas ou referências que conectam diferentes peças de informação dentro do conjunto de dados.
Este caso ilustra como a IA, quando treinada em dados específicos e bem curados, pode atuar como uma ferramenta para a descoberta ou redescoberta de fatos. A capacidade de um modelo de linguagem de IA de extrair e apresentar informações factuais de seu treinamento, mesmo que o desenvolvedor não as conhecesse previamente, destaca a complexidade e a riqueza dos dados históricos que podem ser processados por essas tecnologias.
A Autenticidade da Informação e o Futuro da Interação
A autenticidade da informação gerada pelo TimeCapsuleLLM, confirmada por Grigorian, reforça a ideia de que modelos de linguagem podem ir além da mera imitação estilística. Eles podem, de fato, internalizar e refletir o conteúdo factual presente em seus dados de treinamento. Este é um ponto crucial que diferencia a geração de texto plausível da recuperação de informações verificáveis.
O experimento de Hayk Grigorian serve como um exemplo de como a curiosidade na ciência da computação pode levar a descobertas inesperadas. A criação de um modelo de IA com o propósito de replicar uma voz histórica resultou em uma demonstração da capacidade da tecnologia de interagir com o passado de maneiras que podem ser tanto educativas quanto surpreendentes. A interseção entre o desenvolvimento de IA e a documentação histórica continua a evoluir, com cada novo experimento revelando mais sobre o potencial dessas ferramentas.
Para seguir a cobertura, veja também accidentally.