Gdzie mogę znaleźć szczegółowe informacje na temat głosów, które zostały podliczone w wyborach w 2020 roku?

Nov 20 2020

Potrzebuję obszernego zbioru danych pokazującego, kiedy oddano poszczególne głosy i na kogo w USA w wyborach powszechnych w 2020 roku. Mogę znaleźć sumy na stronach internetowych hrabstw i sumy kandydatów na prezydenta według hrabstw, ale potrzebuję przynajmniej zbioru danych zawierającego osie czasuwszystkich aktualizacji z każdego okręgu podczas procesu liczenia głosów. To znaczy, jaka była rzeczywista liczba głosów na każdego kandydata zgłoszona przez każdy okręg i kiedy zostały zgłoszone? Myślę, że jest prawdopodobne, że wiele serwisów dziennikarskich miało dostęp do tych informacji, ale nie znalazłem ich nigdzie publicznie dostępnych. (Powinien być upubliczniony.) Jeśli to możliwe, potrzebuję zbioru danych, który zawiera anonimowe identyfikatory wyborców i pełną treść karty do głosowania (w tym odrzucone karty do głosowania i dlaczego zostały odrzucone, np. Czy dopasowanie podpisu się powiodło, czy nie) i bardzo ważne, ich źródło (poczta, odbiór lub głosowanie osobiście). Zdecydowanie preferowane byłyby dane opatrzone datownikiem, w tym, jeśli to możliwe, oznaczony czas odbioru i czas zestawienia każdej karty do głosowania.

Wisienką na torcie byłoby znalezienie historycznych liczb wyborców i szczegółów kart do głosowania (i jeśli to możliwe, skorelowanych identyfikatorów) do porównania z poprzednimi wyborami.

Czy ktoś zna publiczny zbiór danych, który mogę uzyskać, pasujący do jakiejkolwiek istotnej części tego opisu?

Odpowiedzi

3 Fizz Nov 21 2020 at 10:42

Prawdopodobnie nie ma takiej ogólnodostępnej bazy danych, chociaż, jak zauważyłeś, niektóre organizacje medialne zebrały aktualizacje ... i np. 538 stworzyło wykresy osi czasu, takie jak te oparte na tych zestawach danych.

Nie wiem, czy np. ABC i / lub Edison Research pobierają opłaty za dostęp do takich danych. Najlepszym rozwiązaniem jest prawdopodobnie skontaktowanie się z nimi i zapytanie o warunki, na jakich udostępnią Ci surowe dane.

W zasadzie każdy zainteresowany i wystarczająco zdeterminowany mógł stworzyć taki zestaw danych, ponieważ same aktualizacje były informacjami publicznymi; po prostu były nadpisywane na stronach internetowych zarządów stanowych / powiatowych itp. za każdym razem, gdy pojawiały się nowe dane. (Sprawdziłem kilka takich witryn i mają teraz tylko ostateczne zestawienia).


Inny q tutaj faktycznie dostarczył surowych danych, które NYT wyciągnął z Edisona; wygląda na to, że surowe pliki są nadal dostępne według stanu, np

  • https://static01.nyt.com/elections-assets/2020/data/api/2020-11-03/race-page/pennsylvania/president.json

  • https://static01.nyt.com/elections-assets/2020/data/api/2020-11-03/race-page/michigan/president.json

Uważaj jednak, aby nie uzyskać bezwzględnej liczby głosów poza łączną liczbą głosów; dla każdego kandydata otrzymasz jedynie (trzycyfrowe) przybliżenie jego udziału w głosach:

{"vote_shares":{"trumpd":0.593,"bidenj":0.384},"votes":958809,"eevp":17,"eevp_source":"edison","timestamp":"2020-11-04T02:11:23Z"},
{"vote_shares":{"trumpd":0.593,"bidenj":0.383},"votes":959682,"eevp":17,"eevp_source":"edison","timestamp":"2020-11-04T02:13:39Z"}

(Co zabawne, to trzycyfrowe przybliżenie jest najwyraźniej dobrą częścią teorii spiskowej ).

Dodatkowe wyszukiwanie znajduje stronę github, która ściągnęła wszystkie te NYT do jednego gigantycznego results.jsonpliku dla wszystkich stanów!

W przeciwnym kierunku, dane stanu NYT są faktycznie uzyskiwane przez nich przez „konkatenację” danych okręgowych (pliki json stanu odwołują się do nich)… i te pliki json na poziomie okręgu są również nadal dostępne, np

  • https://static01.nyt.com/elections-assets/2020/data/api/2020-11-03/precincts/PAGeneralConcatenator-latest.json

Zawierają rzeczywiste liczby głosów dla kandydatów (nie przybliżone), ale wydają się być sumami i nie wydają się mieć żadnych sygnatur czasowych, np.

{"precinct_id":"Bethlehem 11th Ward 1st District","locality_name":"Lehigh","results":{"bidenj":410,"trumpd":218,"jorgensenj":10},"vote_type":"total","is_complete":null,"geo_id":"42077-BETHLEHEM 11","precinct_name":"","locality_fips":"42077","is_geographic":true,"votes":638,"is_reporting":true},
{"precinct_id":"Bethlehem 12th Ward 1st District","locality_name":"Lehigh","results":{"bidenj":439,"trumpd":169,"jorgensenj":12},"vote_type":"total","is_complete":null,"geo_id":"42077-BETHLEHEM 12-1","precinct_name":"","locality_fips":"42077","is_geographic":true,"votes":620,"is_reporting":true},

Dalsze badanie wskazuje, że prawdopodobnie istnieją oddzielne pliki dla każdej takiej aktualizacji, nazwane z dokładną sygnaturą czasową aktualizacji, np

  • https://static01.nyt.com/elections-assets/2020/data/api/2020-11-03/precincts/PAGeneralConcatenator-2020-11-22T03:09:17.348Z.json

Ale haczyk polega na tym, że plik stanu nie zawiera ostatniej części znacznika czasu (kropek dziesiętnych po sekundach) na liście aktualizacji, którą zawiera, więc nie wiem, jak uzyskać wszystkie pliki aktualizacji na poziomie obszaru.