Dogłębna analiza porównawcza iPhone'a 4S i Galaxy Nexus przy użyciu API Twittera

Analizując debatę między iPhone'em 4S a Galaxy Nexus za pomocą API wyszukiwarki Twittera, odkryliśmy pewne interesujące dane. W dzisiejszym świecie dostępna jest ogromna ilość danych online, które można wykorzystać do badań, analizy rynku i zdobywania informacji o konkurencjiDuże zbiory danych„Może to stanowić problem dla tych, którzy ją tworzą, przechowują i przetwarzają, ale jest bardzo korzystne dla nas, którzy szukają odpowiedzi. Na szczęście część tych danych jest dostępna do wyszukiwania online, a w szczególności istnieje ogromna ilość danych dotyczących interakcji w mediach społecznościowych.”

W tym artykule pokażemy, jak wykorzystać interfejs API wyszukiwania Twitter z narzędzia MapForce, produktu firmy Altova służącego do mapowania, konwersji i integracji danych, aby zebrać informacje o ostatnich wpisach użytkowników ("tweetach") na dwa bardzo popularne tematy: porównanie "iPhone 4S" firmy Apple z "Galaxy Nexus" jako najnowszym, popularnym telefonem z systemem Android, oraz aby wyodrębnić pewne dane statystyczne dotyczące użytkowników biorących udział w tych dyskusjach. Jedną z zalet dostępności tak dużej ilości danych jest możliwość zadawania im interesujących pytań i wyciągania z nich nowych wniosków.

Chociaż istnieje wiele istniejących usług, które już teraz dostarczają informacje o popularnych tematach na Twitterze (np. Trendistic), te usługi oferują jedynie bardzo podstawowe trendy i nie pozwalają na bardziej szczegółowe analizy. Jednak wszystkie dane źródłowe są dostępne, jeśli tylko jesteśmy gotowi nauczyć się podstawowych zagadnień związanych z interfejsami API usług internetowych i jak wykorzystać je do pobierania danych XML do dalszej obróbki. Jako punkt wyjścia, wykorzystajmy interfejs API wyszukiwania Twittera (Twitter Search API), aby przeszukać strumień ostatnich wpisów i pobrać 100 najnowszych wpisów, które dotyczą "Galaxy Nexus". Dokument zatytułowany "Wytyczne dotyczące korzystania z wyszukiwarki Twittera" informuje, że użycie obu słów w zapytaniu spowoduje użycie domyślnego operatora, którym jest "AND" (i), więc będziemy wyszukiwać postów zawierających frazę "Galaxy AND Nexus". Spróbujmy więc to zrobić i poprośmy o 100 najnowszych elementów:

http://search.twitter.com/search.atom?q=galaxy+nexus&rpp=100

Jeśli klikniesz w ten link, otworzy się drugie okno zawierające dużą ilość surowych danych XML, sformatowanych zgodnie ze specyfikacją formatu syndykacji Atom. Alternatywnie, można zażądać danych w formacie JSON, jeśli chcesz przetwarzać je bezpośrednio za pomocą kodu JavaScript, ale my użyjemy formatu Atom opartego na XML, abyśmy mogli łatwo analizować dane i wyodrębnić potrzebne informacje. Podglądanie powyższych wyników wyszukiwania w przeglądarce nie jest zbyt wygodne, dlatego możemy szybko przejrzeć dane XML w naszym ulubionym edytorze XML, korzystając z funkcji "Otwórz z adresu URL":

Jak widać, dane dla każdego wpisu zawierają kod języka. W tym przykładzie pobierzemy dane z tego kanału Twittera, a także z drugiego wyniku wyszukiwania na temat "iPhone 4S", a następnie połączymy je w jeden plik XML pośredni, który posłuży do dalszej analizy. Pobieranie danych XML jest bardzo proste w MapForce: korzystając z opcji "Wstaw plik XML", możemy ponownie podać ten sam adres URL, co wcześniej. W razie potrzeby, MapForce automatycznie utworzy schemat XML dla dostarczonych danych, co pozwoli nam je wyświetlić i wydobyć z nich informacje:

W naszej konfiguracji mapowania umieściliśmy po lewej stronie dwa źródła danych: jedno wykorzystuje ciąg zapytania do wyszukiwania "Galaxy Nexus", a drugie do wyszukiwania "iPhone 4S". Po prawej stronie umieściliśmy prostą strukturę XML, która pozwoli nam agregować dane i analizować je w bardziej wygodny sposób w przyszłości. W tym przypadku powiązanie między obiema stronami jest proste, ponieważ wyodrębniamy jedynie podstawowe informacje o użytkowniku, datę i język tweeta, ale w innych aplikacjach mapowanie może być bardziej złożone i obejmować funkcje oraz zapytania do innych źródeł danych, baz danych lub usług internetowych... Podgląd wynikowych danych XML można wyświetlić bezpośrednio w MapForce, korzystając z zakładki wyjściowej, i to, co widzimy, to wynik naszej transformacji danych:

Teraz możemy łatwo wykorzystać funkcje raportowania programu StyleVision do grupowania tych danych według języka w obrębie każdego tematu i do zliczania liczby wpisów w każdym języku. Następnie możemy przedstawić te dane w formie wykresów kołowych, co daje następujące interesujące wyniki:

Oczywiście, te dane są w dużym stopniu zależne od daty i godziny ich zebrania, a także od konkretnych informacji publikowanych na temat tych produktów, dlatego liczby będą się dość znacznie różnić. Niemniej jednak, można wykorzystać je jako przydatne narzędzie do monitorowania i analizy różnych trendów specyficznych dla poszczególnych języków. Po skonfigurowaniu, raport można łatwo odświeżyć jednym kliknięciem, aby uzyskać aktualne dane. Do bardziej długoterminowej analizy, oczywiście, konieczne byłoby zmodyfikować sposób pobierania danych, aby analizować więcej niż 100 ostatnich wpisów na Twitterze. W tym artykule wykorzystaliśmy API wyszukiwania Twittera jako jedno z przykładów źródeł danych i skupiliśmy się tylko na analizie języka jako pojedynczego punktu danych, ale dostępnych jest wiele innych interesujących źródeł danych online, a to podejście można zastosować do wszystkich z nich w podobny sposób. Jeśli chcą Państwo eksperymentować z innymi źródłami danych i innymi rodzajami informacji, które chcą Państwo wydobyć, zachęcamy do samodzielnego wypróbowania.

A Dostępna jest bezpłatna, 30-dniowa wersja testowa programu MapForce, i nie ma żadnych ograniczeń dotyczących tego, jak można go wykorzystać pozostałe funkcje narzędzia Altova do mapowania i konwersji danych dla zadań związanych z przetwarzaniem danych, które wykraczają poza analizę trendów w mediach społecznościowych