Jak zdjęcia Google Street View ujawniają demograficzną strukturę USA

Każdego roku US Census Bureau wydaje miliard dolarów na badanie populacji. Ankiety te mają na celu odróżnienie demograficznego składu kraju, pytając reprezentatywną grupę ludzi o ich rasę, płeć, wykształcenie, zawód i tak dalej. Jest to ważne ćwiczenie, ponieważ daje kluczowy obraz populacji z lotu ptaka i jej zmian.





Ale to nie jest łatwe. Po pierwsze, dane mają stosunkowo dużą skalę – główne badanie przeprowadzone przez Census Bureau, American Community Survey, daje wyniki dla wszystkich miast i hrabstw o ​​populacji powyżej 65 000. Mniejsze obszary nie mają znaczenia.

Co więcej, badanie populacji to ćwiczenie czasochłonne; tak bardzo, że niektóre dane mogą mieć pięć lat w momencie ich opublikowania. A ponieważ inne dane są znacznie nowsze, porównania mogą być problematyczne.

Dlatego demografowie bardzo chcieliby mieć szybszy, wydajniejszy i bardziej precyzyjny sposób badania populacji.



Dołącz do Timnit Gebru z Uniwersytetu Stanforda i kilku kumpli, którzy wykorzystali zdjęcia Google Street View do niezwykle dokładnej oceny rozkładu demograficznego w wielu amerykańskich miastach. Ich technika pokazuje, w jaki sposób demografowie mogą zbierać wiarygodne dane w zupełnie nowy sposób, który uzupełnia i ulepsza obecne metody.

Gebru i spółka zaczynają od 50 milionów zdjęć Street View zebranych przez samochody Google w 200 amerykańskich miastach. Zespół jest przekonany, że rodzaj posiadanego samochodu jest silnym wskaźnikiem ich rasy, dochodów, poziomu wykształcenia, zawodu i tak dalej.

Gebru wyszkolił więc zestaw algorytmów widzenia maszynowego, aby rozpoznawać samochody na tych obrazach, a następnie klasyfikować każdy z nich do jednej z 2657 różnych kategorii, które zależą nie tylko od marki i modelu samochodu, ale także od jego wieku. Daje to dokładne wyobrażenie o wartości samochodu.



W sumie sklasyfikowali około 22 miliony pojazdów, około jednej trzeciej wszystkich pojazdów poruszających się po drogach w tych miastach. A ich maszyna potrzebowała około dwóch tygodni na wykonanie zadania w tempie około 0,2 sekundy na pojazd. Ekspert od ludzi, zakładając 10 sekund na zdjęcie, zajęłoby ponad 15 lat, aby wykonać to samo zadanie, mówią Gebru i spółka.

Ale jak populacja pojazdów na danym obszarze ma się do lokalnej demografii? Aby się tego dowiedzieć, zespół przeszkolił inny algorytm głębokiego uczenia się, aby poznać korelację między typami pojazdów a danymi z amerykańskiego spisu ludności i wzorcami głosowania w wyborach prezydenckich w każdym okręgu (obszar około 1000 osób). Ten zestaw danych treningowych składał się z danych z 35 miast.

Następnie wykorzystali resztę danych do przetestowania algorytmu uczenia głębokiego. Pytanie, na które chcieli odpowiedzieć, brzmiało: biorąc pod uwagę wzór pojazdów na danym obszarze, czy algorytm może dokładnie przewidzieć dane demograficzne zapisane w amerykańskim spisie ludności i danych z głosowań prezydenckich?



Okazuje się, że algorytm głębokiego uczenia potrafi to robić wyjątkowo dobrze. Używając sklasyfikowanych pojazdów silnikowych w każdej dzielnicy, wnioskujemy o szerokim zakresie statystyk demograficznych, atrybutów społeczno-ekonomicznych i preferencji politycznych jej mieszkańców, mówią.

Na przykład sedany są najbardziej kojarzone z Demokratami, podczas gdy pickupy z wydłużonymi taksówkami są ściślej związane z dzielnicami, które głosowały na Republikanów. Odkryliśmy, że jadąc przez miasto przez 15 minut, licząc sedany i pickupy, można wiarygodnie określić, czy miasto głosowało na Demokratów czy Republikanów, powiedzmy Gebru i spółka.

Ważnym pytaniem jest, jak dobrze te wnioski pasują do tych zebranych w ankietach w konwencjonalny sposób. Aby się tego dowiedzieć, Gebru i spółka porównali swoje wyniki z danymi z amerykańskiego Biura Spisu Ludności z badania American Community Survey. Odkryli silną korelację z czynnikami demograficznymi, takimi jak dochód, wykształcenie, zawód i tak dalej. Udało im się nawet precyzyjnie prognozować preferencje wyborców na poziomie obwodów, które obejmują około 1000 osób.



American Community Survey prawdopodobnie pozostanie złotym standardem w gromadzeniu danych, przynajmniej na razie. Jednak możliwość szybkiego gromadzenia wysokiej jakości danych za pomocą Google Street View ma ogromny potencjał, aby zapewnić monitorowanie zmian w populacji niemal w czasie rzeczywistym.

I oczywiście Google nie jest jedyną organizacją zbierającą zdjęcia ulic — nietrudno sobie wyobrazić, że ten sam proces stosuje się do zdjęć z Facebooka, Twittera lub innych sieci społecznościowych, które są oznaczone geotagami i oznaczone datą.

Nr ref.: arxiv.org/abs/1702.06683 : Korzystanie z Deep Learning i Google Street View do oszacowania demograficznego charakteru USA

ukryć