Analyseer voetbalstatistieken met behulp van Altova MissionKit

In dit artikel gebruiken we statistieken van NFL.com en ESPN.com om te laten zien hoe eenvoudig het kan zijn om online data op nieuwe manieren te verwerken en te analyseren, zelfs als deze verschillende meeteenheden gebruikt en alleen in tekstvorm beschikbaar is. In eerdere blogposts hebben we gezien hoe gemakkelijk het is om data van internet te verzamelen die veelal in XML-formaten beschikbaar is. Maar wat als er interessante data online beschikbaar is, maar niet in een XML-formaat, of data die verborgen is in oude dataverwerkingssystemen en alleen in de vorm van tekstrapporten beschikbaar is?

Een voorbeeld hiervan betreft de beoordeling van quarterbacks. De NFL gebruikt een systeem, de "Passer Rating", dat quarterbacks beoordeelt op basis van hun aantal voltooide passes, het totale aantal pogingen, het aantal touchdowns en het aantal onderscheppingen. ESPN heeft dit jaar een nieuw beoordelingssysteem geïntroduceerd, genaamd de Total QBR (een rating voor quarterbacks). De Total QBR omvat meer gegevens, waaronder een verwacht gemiddelde aantal punten en een index voor cruciale momenten, en ESPN beweert dat dit een nauwkeuriger beeld geeft van de prestaties van een quarterback. Laten we de ranglijsten die deze systemen produceren vergelijken, om te zien of we hieruit nuttige informatie kunnen halen. Voor dit voorbeeld gebruiken we de tools voor het importeren en analyseren van data uit de Altova MissionKit om de beoordelingen te vergelijken. Als u dit zelf wilt uitproberen, is de MissionKit beschikbaar Download voor een gratis proefperiode van 30 dagen van de website van Altova. U kunt de bestanden die in dit voorbeeld worden gebruikt, hier downloaden. Het eerste waar we behoefte aan hebben, zijn de ruwe gegevens om te analyseren. Laten we het hele seizoen 2010 als bron van gegevens gebruiken. We kunnen de tabel verkrijgen met Beoordelingen van quarterbacks, afkomstig van NFL.com en vervolgens kunt u het kopiëren en plakken als een nieuw tekstbestand.

We kunnen toegang krijgen tot iets vergelijkbaars Tabel met de totale beoordelingen van quarterbacks, afkomstig van de website van ESPN en maak een tweede tekstbestand.

We hebben nu twee tekstbestanden met tabellen met gegevens in verschillende volgordes. De volgende stap is om de tabellen samen te voegen in één bestand en grafieken te genereren. Eerst hebben we een schema-bestand nodig voor de bestemming van de gegevens. In XMLSpy kunnen we snel en grafisch een XSD-bestand maken, dat een reeks QB-elementen bevat met subelementen voor voor- en achternaam, team, passing-rating en rang, en totale QBR en rang.

In MapForce openen we de tekstbestanden en gebruiken we FlexText om de tekst te analyseren en om te zetten in een lijst met categorieën.

Vervolgens maken we een mappingbestand in MapForce om de gegevens uit de tekstbestanden te koppelen aan het doel-XML-bestand. Ingebouwde functies maken het eenvoudig om de voor- en achternaam uit de "Player"-string te extraheren, en een waardetabel zet de afkorting van het team om in een string (bijvoorbeeld ARI wordt Arizona Cardinals, ATL wordt Atlanta Falcons, enz.). We stellen de prioriteitscontext in bij het testen van onze filters om ervoor te zorgen dat we de juiste set gegevens voor elke unieke quarterback krijgen.

Zodra we de mapping hebben uitgevoerd, kunnen we het resulterende XML-gegevensbestand opslaan en dit gebruiken als bronbestand in StyleVision om een stylesheet te ontwerpen. In dit stylesheet creëren we een tabel met de top tien spelers met de meeste passes en grafieken die de "Passer Rating" en de totale "QBR" visueel weergeven.

Nu we een visuele weergave hebben van de ranglijsten van de twee beoordelingssystemen, kunnen we hun verschillen onderzoeken en proberen te bepalen welke beter presteert. Zo stond Peyton Manning bijvoorbeeld tiende in de passer rating, maar stond hij tweede in de Total QBR. Dit kan worden verklaard doordat de Total QBR rekening houdt met cruciale momenten, en omdat Peyton Manning in het seizoen 2010 een paar keer een comeback heeft geforceerd in de laatste minuten van wedstrijden. Omdat we nu een verzameling van bestanden hebben (het XSD-bestand gemaakt in XMLSpy, de FlexText- en mappingbestanden van MapForce, en het stylesheet-ontwerp gemaakt in StyleVision), kunnen we de tekstbestanden gemakkelijk bijwerken om nieuwe datasets van quarterbackgegevens te analyseren. Later in het seizoen kunnen we de teksttabellen bijwerken met gegevens van 2011, zodat de gegevens via de mappings kunnen worden verwerkt en in het stylesheet terechtkomen om de grafieken bij te werken en de ranglijsten voor het huidige seizoen te bekijken. Dit voorbeeld richt zich op cijfers uit de NFL, maar deze methode kan eenvoudig worden aangepast aan andere datasets en databronnen die worden benaderd als tekstbestanden, evenals in andere formaten.

U kunt meer leren over hoe u de producten in de Altova MissionKit kunt gebruiken door gebruik te maken van onze gratis online trainingen.