Altova MissionKitを使用して、サッカーの統計データを分析します
この記事では、NFL.comとESPN.comのデータを用いて、オンライン上のデータを新しい方法で処理・分析することがいかに容易であるかを示します。これは、データが異なる指標を使用し、テキスト形式でのみ提供されている場合でも当てはまります。 以前のブログ記事で、インターネット上で広く利用可能なXML形式のデータを収集することがいかに容易であるかを見てきましたが、オンラインで利用可能であるもののXML形式ではないデータ、または古いデータ処理システムに埋もれており、テキスト形式のレポートとしてのみ利用可能なデータはどうでしょうか?
例えば、クォーターバックの評価指標というものがあります。 NFL(アメリカンフットボールのプロリーグ)では、クォーターバックの能力を評価する指標として、「パス成功率」があり、これはクォーターバックのパス成功数、パス試投数、タッチダウン数、そしてインターセプト数に基づいて算出されます。 ESPNは、今年、クォーターバックの総合的な能力を評価する新しいシステム「Total QBR(クォーターバック・レーティング)」を導入しました。 Total QBRは、ESPNが「クォーターバックのパフォーマンスをより正確に評価できる」と主張する指標で、平均得点や重要な場面でのプレーの評価など、より多くのデータを取り入れています。 これらのシステムが出力するランキングを比較してみましょう。もしかしたら、役立つ情報が得られるかもしれません。 今回の例では、Altova MissionKitに含まれるデータインポートおよび分析ツールを使用して、評価を比較します。 もしご自身で試してみたい場合は、MissionKitが利用可能です 30日間の無料トライアル版をダウンロードしてください Altova社のウェブサイトより。 この例で使用されているファイルは、こちらからアクセスできます。こちら。 まず最初に、分析に必要な生データが必要です。 2010年シーズン全体のデータをデータソースとして利用しましょう。 テーブルを入手できます NFL.comによるパス成功率の評価 そして、それをコピーして、新しいテキストファイルとして貼り付けてください。

同様のものを利用することができます ESPNのウェブサイトに掲載されている、クォーターバックの総合評価一覧表 そして、別のテキストファイルを作成します。

現在、異なる順序でデータが格納された2つのテキストファイルがあります。次のステップは、これらのテーブルを1つのファイルに統合し、グラフを作成することです。まず、データを格納する際のスキーマファイルが必要です。XMLSpyを使用すると、XSDファイルを迅速かつ視覚的に作成できます。このファイルには、氏名、チーム、パス成功率とランキング、および総合的なQBRとランキングといった子ノードを持つ、一連のQBノードを含めることができます。
![]()
さて、MapForceでテキストファイルを開き、FlexTextを使ってテキストを解析し、それをカテゴリのリストに変換します。
![]()
![]()
次に、MapForceを使用して、テキストファイルからXMLファイルへのデータ変換を行うためのマッピングファイルを作成します。組み込み関数を使用することで、プレイヤー名から氏名と名字を簡単に抽出できます。また、値マッピング機能を使用することで、チームの略称を文字列に変換します(例えば、ARIをArizona Cardinals、ATLをAtlanta Falconsなどに変換します)。さらに、フィルターのテストにおいて、優先コンテキストを設定することで、各クォーターバックに対して正しいデータセットを取得できるようにしています。
![]()
マッピングを実行すると、結果として得られたXMLデータファイルを保存し、StyleVisionでスタイルシートをデザインするためのソースファイルとして利用できます。このスタイルシートでは、上位10位のパス成功者の一覧表を作成し、パス成功率(Passer Rating)と総合評価指標(Total QBR)をグラフで表示します。
![]()
![]()
両方の評価システムのランキングを視覚的に表現することで、その違いを詳しく調べ、どちらがより効果的かを検討することができます。例えば、ペイトン・マニングはパス成功率ランキングで10位でしたが、Total QBRでは2位でした。これは、Total QBRが重要な場面での貢献度を考慮しているためです。ペイトン・マニングは2010シーズンにおいて、終盤での劇的な逆転劇を何度か演出しました。
現在、ファイル群(XMLSpyで作成されたXSDファイル、MapForceから提供されたFlexTextファイルとマッピングファイル、そしてStyleVisionで作成されたスタイルシートデザイン)を揃えているため、新しいクォーターバックのデータセットを分析するために、テキストデータファイルを簡単に更新できます。シーズン後半には、2011年のデータでテキストテーブルを更新し、そのデータをマッピングを通じてスタイルシートに流し込み、グラフを更新して、現在のシーズンのランキングを確認することができます。
この例では、NFLのデータに焦点を当てていますが、この方法は、テキストファイルとしてアクセスできる他のデータセットやデータソースにも容易に適用できます。また、他の形式のデータにも対応可能です。
Altova MissionKitの製品の使い方について、当社の無料オンライン研修コースを受講することで、さらに詳しく学ぶことができます。