Analysez les statistiques du football à l'aide d'Altova MissionKit
Dans cet article, nous utilisons des statistiques provenant de NFL.com et ESPN.com pour montrer à quel point il est facile de traiter et d'analyser des données en ligne de nouvelles façons, même lorsque ces données utilisent des indicateurs différents et ne sont disponibles que sous forme de texte. Nous avons déjà vu, dans des articles de blog précédents, à quel point il est facile de collecter des données provenant d'Internet, qui sont souvent disponibles en format XML. Mais que faire des données intéressantes qui sont disponibles en ligne, mais pas au format XML, ou des données qui sont enfouies dans des systèmes de traitement de données obsolètes et ne sont disponibles que sous forme de rapports textuels ?
Un exemple de cela concerne les classements des quarts-arrière. La NFL utilise un système de notation des quarts-arrière qui évalue ces derniers uniquement en fonction du nombre de passes réussies, du nombre de tentatives de passe, du nombre de touchdowns et du nombre d'interceptions. Cette année, ESPN a introduit un nouveau système de notation appelé Total QBR (notation globale des quarts-arrières). Le Total QBR intègre davantage de données, notamment une moyenne de points attendus et un indice de performance dans les moments clés, ce que ESPN affirme fournir une mesure plus précise de la performance d'un quarterback. Comparons les classements produits par ces systèmes pour voir si nous pouvons en tirer des informations utiles. Pour cet exemple, nous utiliserons les outils d'importation et d'analyse de données d'Altova MissionKit afin de comparer les évaluations. Si vous souhaitez essayer vous-même, le kit MissionKit est disponible Téléchargez pour bénéficier d'une période d'essai gratuite de 30 jours provenant du site web d'Altova. Vous pouvez accéder aux fichiers utilisés dans cet exemple ici. La première chose dont nous avons besoin, c'est des données brutes pour effectuer l'analyse. Utilisons l'intégralité de la saison 2010 comme source de données. Nous pouvons obtenir le tableau avec Notes de notation provenant de NFL.com puis copiez-le et collez-le dans un nouveau fichier texte.

Nous pouvons accéder à quelque chose de similaire Tableau des classements totaux des quarts-arrière, provenant du site web ESPN et créer un deuxième fichier texte.

Nous avons maintenant deux fichiers texte contenant des tableaux de données dans des ordres différents. L'étape suivante consiste à combiner ces tableaux en un seul fichier et à générer des graphiques. Tout d'abord, nous avons besoin d'un fichier de schéma pour la destination des données. Dans XMLSpy, nous pouvons créer rapidement et de manière graphique un fichier XSD contenant une série de nœuds QB avec des nœuds enfants pour le prénom et le nom, l'équipe, la note de passe et le classement, ainsi que le QBR total et le classement.
![]()
Maintenant, dans MapForce, nous ouvrons les documents texte et utilisons FlexText pour analyser le texte et le convertir en une liste de catégories.
![]()
![]()
Nous créons ensuite un fichier de correspondance dans MapForce pour faire correspondre les données des fichiers texte au fichier XML de destination. Des fonctions intégrées permettent d'extraire facilement le prénom et le nom de famille à partir de la chaîne de caractères "Player", et une table de correspondance transformera les abréviations des équipes en chaînes de caractères (ARI sera transformé en Arizona Cardinals, ATL en Atlanta Falcons, etc.). Nous définissons le contexte de priorité dans les tests de nos filtres afin de nous assurer d'obtenir l'ensemble de données correct pour chaque joueur de quarterback.
![]()
Une fois que nous avons effectué la transformation, nous pouvons enregistrer le fichier de données XML résultant et l'utiliser comme fichier source dans StyleVision pour concevoir une feuille de style. Dans cette feuille de style, nous créons un tableau des dix meilleurs joueurs en termes de passes et des graphiques illustrant l'indice de qualité des passes et le score total de qualité (QBR).
![]()
![]()
Maintenant que nous avons une représentation visuelle du classement des deux systèmes d'évaluation, nous pouvons examiner leurs différences et essayer de déterminer lequel est le plus performant. Par exemple, Peyton Manning était classé dixième au niveau de la note de passe, mais il était deuxième au classement Total QBR. Cela peut s'expliquer par le fait que le Total QBR prend en compte les points décisifs, et sachant que Peyton Manning a réalisé plusieurs remontées spectaculaires en fin de match lors de la saison 2010. Maintenant que nous disposons d'un ensemble de fichiers (le fichier XSD créé dans XMLSpy, les fichiers FlexText et de mappage provenant de MapForce, et la conception de la feuille de style créée dans StyleVision), nous pouvons facilement mettre à jour les fichiers de données textuelles pour analyser de nouveaux ensembles de données sur les quarterbacks. Plus tard dans la saison, nous pouvons mettre à jour les tableaux de données textuelles avec les données de 2011, et permettre aux données de circuler à travers les mappages et d'être intégrées dans la feuille de style afin de mettre à jour les graphiques et de visualiser les classements pour la saison en cours. Cet exemple se concentre sur les chiffres de la NFL, mais cette méthode peut facilement être adaptée à d'autres ensembles de données et sources de données qui sont accessibles sous forme de fichiers texte, ainsi que dans d'autres formats.
Vous pouvez en apprendre davantage sur la manière d'utiliser les produits d'Altova MissionKit en suivant nos formations en ligne gratuites.