A metodologia por trás do projeto de pesquisa Breakthrough
Cada semana, 1,000 americanos são perguntados sobre o que eles viram, leram ou ouviram sobre os principais candidatos presidenciais em suas próprias palavras. Os resultados se baseiam em trabalho semelhante nas eleições presidenciais de 2016 e 2020 e proporcionam uma janela única sobre como as pessoas em todo o país estão vivenciando esta campanha histórica deste ano.
As entrevistas para este projeto começaram em 21 de junho, pouco antes do debate presidencial da CNN entre o presidente Joe Biden e o ex-presidente Donald Trump, e irão até a segunda-feira após o dia da eleição.
Os resultados da pesquisa são coletados online de sexta-feira a segunda-feira de cada semana, em inglês, entre uma amostra nacional de aproximadamente 1.000 adultos por semana por meio do painel omnibus SSRS Opinion Panel e do painel verificado da Verasight. Os resultados dos dois painéis são combinados usando a metodologia Encipher Hybrid da SSRS para misturar amostras de probabilidade e não probabilidade.
Os participantes da pesquisa são perguntados sobre os candidatos dos principais partidos: "O que, se houver, você ouviu, leu ou viu nos últimos poucos dias sobre Donald Trump?" e "O que, se houver, você ouviu, leu ou viu nos últimos poucos dias sobre Kamala Harris?" Os respondentes também são perguntados sobre o candidato independente Robert F. Kennedy, Jr. A pergunta sobre Harris foi adicionada à pesquisa em 19 de julho, pouco antes de Biden anunciar sua decisão de encerrar sua campanha de reeleição. Os respondentes também foram perguntados sobre Biden desde o início do projeto.
A ordem em que as perguntas são feitas é aleatória, para que não todos os respondentes sejam perguntados sobre os candidatos na mesma ordem. As respostas exatas a essas perguntas são codificadas com base na pré-processamento tradicional de texto para análise de frequência de palavras, modelagem de tópicos para análise de tópicos e aprendizado profundo para análise de sentimentos. A base de código é desenvolvida em conjunto por Lisa Singh da Universidade de Georgetown com entrada de sua equipe de pesquisa e da equipe técnica do Instituto de Dados Massivos e Josh Pasek, Michael Traugott e Ceren Budak da Universidade do Michigan.
À medida que a campanha avança, as palavras associadas a tópicos individuais podem mudar, o que pode resultar em mudanças na posição relativa desses tópicos em resultados mais antigos. Essas mudanças são necessárias para que as comparações atuais sejam válidas. Para desenvolver tópicos, palavras-chave são identificadas manualmente e acrescidas de palavras e tópicos identificados por meio de uma combinação de Noiseless Latent Dirichlet Allocation (NLDA) e Guided Topic-Noise Model (GTM). A sentiment é codificada usando RoBERTa pré-treinado em tweets em inglês e afinado com SemEva.
A equipe de pesquisa que realiza a análise dos resultados do The Breakthrough e gerencia a realização da pesquisa é composta por: Jennifer Agiesta, Ariel Edwards-Levy, Edward Wu e Dana Elobaid da CNN; Lisa Singh, Le Bao, Yanchen Wang e Mohamed Ahmed da Universidade de Georgetown; Josh Pasek, Michael Traugott e Ceren Budak da Universidade do Michigan; Akilah Evans-Pigford, Hope Wilson, Cameron McPhee e vários membros da equipe de Métodos Avançados e Ciência de Dados da SSRS; e Peter K. Enns, Gretchen Streett, Amelia Goranson e Jake Rothschild da Verasight.
A análise dos resultados da pesquisa fornece insights sobre a percepção do público sobre várias figuras políticas, incluindo candidatos dos principais partidos como Donald Trump e Kamala Harris. A metodologia do projeto, envolvendo análise de frequência de palavras, modelagem de tópicos e análise de sentimentos, permite uma compreensão profunda das discussões sobre política entre os americanos.