Analizuj statystyki piłkarskie za pomocą programu Altova MissionKit

W tym artykule wykorzystujemy statystyki z serwisów NFL.com i ESPN.com, aby pokazać, jak łatwo można przetwarzać i analizować dane dostępne online w nowy sposób – nawet jeśli korzystają one z różnych wskaźników i są dostępne tylko w formie tekstowej. W poprzednich wpisach na blogu pokazaliśmy, jak łatwo można gromadzić dane z Internetu, które są powszechnie dostępne w formacie XML. Ale co z interesującymi danymi, które są dostępne online, ale nie w formacie XML, lub z danymi, które są ukryte w starszych systemach przetwarzania danych i dostępne tylko w formie tekstowych raportów?

Przykładem tego może być system oceniania rozgrywających. Liga NFL wykorzystuje system oceny rozgrywających, który opiera się wyłącznie na takich wskaźnikach, jak liczba udanych podani, liczba prób podań, liczba zdobytych przyczep i liczba przechwyconych podań. W tym roku ESPN wprowadziło nowy system ocen, nazwany Total QBR (wszechstronna ocena rozgrywającego). Wskaźnik Total QBR uwzględnia więcej danych, w tym średnią punktów i wskaźnik skuteczności w kluczowych momentach, co, jak twierdzi ESPN, pozwala na dokładniejszą ocenę skuteczności rozgrywającego. Porównajmy rankingi generowane przez te systemy, aby sprawdzić, czy możemy uzyskać z nich jakieś przydatne informacje. W tym przykładzie wykorzystamy narzędzia do importu i analizy danych z pakietu Altova MissionKit, aby porównać oceny. Jeśli chcą Państwo przetestować to samodzielnie, zestaw MissionKit jest dostępny do pobrania Pobierz i skorzystaj z 30-dniowego okresu próbnego bezpłatnie ze strony internetowej firmy Altova. Można uzyskać dostęp do plików użytych w tym przykładzie tutaj. Pierwszą rzeczą, której potrzebujemy, są surowe dane do analizy. Wykorzystajmy cały sezon 2010 jako źródło danych. Możemy uzyskać dostęp do tej tabeli za pomocą Oceny zawodnika Passera z NFL.com a następnie skopiuj go i wklej jako nowy plik tekstowy.

Możemy uzyskać dostęp do czegoś podobnego Tabela łącznych ocen rozgrywających (quarterbacków) ze strony internetowej ESPN i utworzyć drugi plik tekstowy.

Obecnie mamy dwa pliki tekstowe zawierające tabele z danymi w różnej kolejności. Następnym krokiem jest połączenie tych tabel w jeden plik i wygenerowanie wykresów. Najpierw potrzebujemy pliku schematu dla miejsca docelowego danych. W programie XMLSpy możemy szybko i graficznie utworzyć plik XSD, który będzie zawierał serię węzłów QB z węzłami potomnymi zawierającymi imię i nazwisko, nazwę zespołu, wskaźnik skuteczności podań oraz pozycję w rankingu, a także łączny wskaźnik QBR i pozycję w rankingu.

Teraz, w programie MapForce, otwieramy dokumenty tekstowe i używamy funkcji FlexText, aby przetworzyć tekst i przekształcić go w listę kategorii.

Następnie tworzymy plik mapowania w programie MapForce, który służy do przekształcenia danych z plików tekstowych do pliku XML. Wbudowane funkcje ułatwiają wyodrębnianie imienia i nazwiska z ciągu znaków reprezentującego zawodnika, a mapa wartości przekształca skróty nazw drużyn na pełne nazwy (np. ARI zamieniane jest na Arizona Cardinals, ATL na Atlanta Falcons, itd.). W testach naszych filtrów ustawiamy priorytet kontekstu, aby upewnić się, że otrzymujemy prawidłowy zestaw danych dla każdego unikalnego rozgrywającego.

Po zdefiniowaniu mapowania, możemy zapisać wynikowy plik XML i wykorzystać go jako plik źródłowy w programie StyleVision do zaprojektowania arkusza stylów. W tym arkuszu stylów tworzymy tabelę przedstawiającą dziesięciu najlepiej punktujących zawodników oraz wykresy graficzne prezentujące wskaźnik Passer Rating oraz całkowity wskaźnik QBR.

Teraz, gdy mamy wizualną reprezentację rankingów obu systemów ocen, możemy przeanalizować ich różnice i spróbować określić, który z nich działa lepiej. Na przykład, Peyton Manning był dziesiąty w systemie ocen dla rozgrywających, ale drugi w systemie Total QBR. Można to wyjaśnić tym, że system Total QBR uwzględnia kluczowe momenty, a Peyton Manning odnotował kilka udanych powrotów w końcówkach meczów w sezonie 2010. Ponieważ teraz dysponujemy zestawem plików (plik XSD utworzony w programie XMLSpy, pliki FlexText i mapowania z programu MapForce oraz projekt arkusza stylów utworzony w programie StyleVision), możemy łatwo aktualizować pliki z danymi tekstowymi, aby analizować nowe zestawy danych dotyczących rozgrywających. Później w sezonie, możemy zaktualizować tabele tekstowe danymi z 2011 roku, co pozwoli na przepływ danych przez mapowania i do arkusza stylów, aby zaktualizować wykresy i zobaczyć rankingi dla bieżącego sezonu. Ten przykład koncentruje się na danych z NFL, ale ta metoda może być łatwo dostosowana do innych zestawów danych i źródeł danych, które są dostępne jako pliki tekstowe, a także w innych formatach.

Można dowiedzieć się więcej o tym, jak korzystać z produktów w pakiecie Altova MissionKit, korzystając z naszych bezpłatnych kursów online.