Методология опроса проекта "Прорыв"
Каждую неделю 1000 американцев просят поделиться тем, что они видели, читали или слышали о главных кандидатах в президенты своими словами. Результаты основаны на аналогичной работе на президентских выборах 2016 и 2020 годов и дают уникальное представление о том, как люди по всей стране воспринимают эту историческую кампанию этого года.
Интервью по этому проекту начались 21 июня, всего за несколько дней до дебатов CNN между президентом Джо Байденом и бывшим президентом Дональдом Трампом, и будут продолжены до следующего воскресенья после дня выборов.
Результаты опроса собираются онлайн с пятницы по понедельник каждую неделю на английском языке среди общенациональной выборки примерно 1000 взрослых в неделю с помощью опроса SSRS Opinion Panel Omnibus и верифицированной панели Verasight. Результаты двух опросов комбинируются с использованием методологии Encipher Hybrid SSRS для смешивания вероятностных и невероятностных выборок.
Участников опроса спрашивают о кандидатах от основных партий: "Что, если что, вы слышали, читали или видели в последние несколько дней о Дональде Трампе?" и "Что, если что, вы слышали, читали или видели в последние несколько дней о Камале Харрис?". Ответчиков также спрашивают тот же вопрос об независимом кандидате Роберте Ф. Кеннеди-младшем. Вопрос о Харрис был добавлен в опрос 19 июля, вскоре после того, как Байден объявил о прекращении своей переизбирательной кампании. Ответчиков также спрашивали об этом же вопросе о Байдене с самого начала проекта.
Порядок вопросов случайным образом меняется, чтобы не все участники опроса задавались в одном и том же порядке. Точные ответы на эти вопросы кодируются на основе традиционной предварительной обработки текста для анализа частоты слов, моделирования тем для анализа тем и глубокого обучения для анализа настроений. База данных совместно разработана Литой Сингх из Джорджтаунского университета с участием ее исследовательской команды и технической команды Института больших данных и Джошуа Пасеком, Майклом Трауготтом и Серен Будак из Университета Мичигана.
По мере продвижения кампании слова, связанные с отдельными темами, могут меняться, что может привести к изменениям относительного положения этих тем в более старых результатах. Такие изменения необходимы для того, чтобы текущие сравнения были валидными. Для разработки тем слова-ключи идентифицируются вручную и дополняются словами и темами, идентифицированными с помощью комбинации Noiseless Latent Dirichlet Allocation (NLDA) и Guided Topic-Noise Model (GTM). Настроение кодируется с помощью RoBERTa, предварительно обученного на английских твитах и доводящегося с помощью SemEva.
Команда исследователей, проводящая анализ результатов The Breakthrough и управляющая проведением опроса, включает: Дженнифер Агиесту, Эйриел Эдвардс-Леви, Эдварда У и Дану Элобаида из CNN; Литу Сингх, Ле Бао, Яньчэнь Ван и Мохаммеда Ахмеда из Джорджтаунского университета; Джошуа Пасека, Майкла Трауготта и Серен Будак из Университета Мичигана; Акилу Эванс-Пигфорд, Хоуп Уилсон, Кэмерона Макфи и нескольких членов команды продвинутых методов и данных SSRS; и Питера К. Эннса, Гретхен Стрит, Амелию Горансон и Джейка Ротшильда из Verasight.
Анализ результатов опроса дает представление о восприятии различных политических фигур общественностью, включая кандидатов от основных партий, таких как Дональд Трамп и Камала Харрис. Методология проекта, включающая анализ частоты слов, моделирование тем и анализ настроений, позволяет глубоко понять политические обсуждения среди американцев.