Analysieren Sie Fußballstatistiken mit dem Altova MissionKit
In diesem Artikel verwenden wir Statistiken von NFL.com und ESPN.com, um zu zeigen, wie einfach es sein kann, Online-Daten auf neue Weise zu verarbeiten und zu analysieren – selbst wenn diese unterschiedliche Metriken verwenden und nur in Textform verfügbar sind. In früheren Blogbeiträgen haben wir gesehen, wie einfach es ist, Daten aus dem Internet zu sammeln, die in weit verbreiteten XML-Formaten verfügbar sind. Aber was ist mit interessanten Daten, die online verfügbar sind, aber nicht in einem XML-Format, oder mit Daten, die in älteren Datenverarbeitungssystemen gespeichert sind und nur in Textform vorliegen?
Ein solches Beispiel betrifft die Bewertung von Quarterbacks. Die NFL verwendet eine sogenannte "Passer Rating"-Bewertung, die Quarterbacks ausschließlich anhand ihrer erfolgreichen Pässe, ihrer Passversuche, ihrer Touchdowns und ihrer abgefangenen Pässe bewertet. ESPN hat dieses Jahr ein neues Bewertungssystem eingeführt, das "Total QBR" (Quarterback Rating) genannt wird. Der "Total QBR" berücksichtigt mehr Daten, darunter eine erwartete Punktzahl und ein Index für entscheidende Spielsituationen, die laut ESPN eine genauere Bewertung der Leistung eines Quarterbacks ermöglichen. Vergleichen wir die Ranglisten, die diese Systeme erzeugen, um zu sehen, ob wir daraus nützliche Informationen gewinnen können. Für dieses Beispiel werden wir die Tools zum Importieren und Analysieren von Daten des Altova MissionKit verwenden, um die Bewertungen zu vergleichen. Wenn Sie dies selbst ausprobieren möchten, steht Ihnen das MissionKit zur Verfügung Downloaden Sie die Software für eine 30-tägige kostenlose Testphase von der Altova-Webseite. Sie können auf die in diesem Beispiel verwendeten Dateien hier abrufen. Das Erste, was wir benötigen, sind die Rohdaten, um sie analysieren zu können. Nutzen wir die gesamte Saison 2010 als Datenquelle. Wir können den Tisch bekommen mit Bewertungen von NFL.com und dann kopieren Sie den Text und fügen Sie ihn als neue Textdatei ein.

Wir können auf eine ähnliche Ressource zugreifen Tabelle mit den Gesamtbewertungen der Quarterbacks, basierend auf Daten von der ESPN-Website und erstellen Sie eine zweite Textdatei.

Wir haben jetzt zwei Textdateien mit Tabellen, die Daten in unterschiedlicher Reihenfolge enthalten. Der nächste Schritt ist, die Tabellen zu einer Datei zusammenzuführen und Diagramme zu erstellen. Zuerst benötigen wir eine Schemadatei für das Ziel der Daten. In XMLSpy können wir schnell und grafisch eine XSD-Datei erstellen, die eine Reihe von QB-Knoten mit Unterknoten für Vor- und Nachname, Team, Passer-Bewertung und Rang sowie die Gesamt-QB-Bewertung und den Rang enthält.
![]()
In MapForce öffnen wir nun die Textdokumente und verwenden FlexText, um den Text zu analysieren und in eine Liste von Kategorien umzuwandeln.
![]()
![]()
Anschließend erstellen wir eine Zuordnungsdatei in MapForce, um die Daten aus den Textdateien auf die Ziel-XML-Datei zu übertragen. Integrierte Funktionen erleichtern die Extraktion von Vor- und Nachnamen aus der Spieler-Zeichenkette, und eine Wertzuordnung wandelt die Team-Abkürzungen in vollständige Bezeichnungen um (z.B. wird ARI zu Arizona Cardinals, ATL zu Atlanta Falcons usw.). Im Test unserer Filter legen wir den Prioritätskontext fest, um sicherzustellen, dass wir für jeden einzelnen Quarterback den korrekten Datensatz erhalten.
![]()
Sobald wir die Zuordnung durchgeführt haben, können wir die resultierende XML-Datendatei speichern und diese als Quelldatei in StyleVision verwenden, um ein Stylesheet zu erstellen. In diesem Stylesheet erstellen wir eine Tabelle mit den zehn besten Passspielern und Diagramme, die den Passer Rating und den Gesamt-QBR grafisch darstellen.
![]()
![]()
Nun, da wir eine visuelle Darstellung der Ranglisten der beiden Bewertungssysteme haben, können wir ihre Unterschiede untersuchen und versuchen herauszufinden, welches System besser funktioniert. Zum Beispiel belegte Peyton Manning im Passer Rating den zehnten Platz, während er im Total QBR den zweiten Platz belegte. Dies lässt sich dadurch erklären, dass der Total QBR wichtige Spielsituationen berücksichtigt, und wir wissen, dass Peyton Manning in der Saison 2010 einige spektakuläre Comebacks in den letzten Spielminuten erzielte. Da wir nun eine Sammlung von Dateien haben (die XSD-Datei, die in XMLSpy erstellt wurde, die FlexText- und Mapping-Dateien von MapForce sowie das Stylesheet-Design, das in StyleVision erstellt wurde), können wir die Textdatendateien einfach aktualisieren, um neue Datensätze von Quarterback-Statistiken zu analysieren. Später in der Saison können wir die Texttabellen mit Daten aus dem Jahr 2011 aktualisieren und die Daten so durch die Zuordnungen und in das Stylesheet fließen lassen, um die Diagramme zu aktualisieren und die Ranglisten für die aktuelle Saison anzuzeigen. Dieses Beispiel konzentriert sich auf Zahlen aus der NFL, aber diese Methode lässt sich leicht an andere Datensätze und Datenquellen anpassen, die ebenfalls als Textdateien sowie in anderen Formaten verfügbar sind.
Sie können mehr darüber erfahren, wie Sie die Produkte des Altova MissionKit nutzen können, indem Sie an unseren kostenlosen Online-Schulungen teilnehmen.