【前回までのあらすじ】
先日、Pythonの実行結果をWeb上で確認するべく、
Web開発ツールの Jupyter Notebook というツールを
インストールし、すごく軽い動作確認を行った。
(詳しくは、以下のリンクを参照)
sandplover-petro.hatenablog.com
で、 今回は、一歩進んだ動作確認ということで
サードパーティのパッケージをインストールし、少し動かすことに。
今回使用したのは、「pandas」というパッケージ。
データ読み込み、データ加工、データ抽出などに強いパッケージらしい。
前にいた会社で「pandasを使ってPythonで処理を」とかいう話があったので、
密かに気になっていたことは内緒で(笑)。
今回のデータは、2シーズンでスペイン1部への復帰を決めたラージョ・バジェカーノの
年間選手成績を使ってみることに(動作確認なので、楽しんでやらんといかんのです)。
データは、ラージョ・バジェカーノのサイトから拝借。
パッケージのインストールは、pip3 install pandas で簡単に完了。
(面倒なので、画面キャプチャは省略)
次は、実行環境に「pandas」をインポート。これは、ほぼお約束なので、あれこれ言わずに実行。
そして、ファイルオープン!
今回は、TSVファイル(タブ区切りテキストファイル)だったため、
read_table() っていう構文を使用。
※CSVファイルだったら、「csv_open()」という構文を使用。
そして、どんな感じで開くのかを指定する。
デフォルトでは5行しか開けないので、今回は50行を開こうかな、と。
そして、開いてみたらこんな感じに。うん、書籍とよく似てる画面だ(そりゃそうだ)。
抽出元がスペインのサイトなので、ヘッダがスペイン語なのはご愛嬌(笑)。
これを見てるだけでも色々見えてくるのですが、
ちょっとひとひねりして
「出場時間が1,820分以上の選手を抽出」っていうのをしてみることに。
なお、表示項目は、背番号、選手名、出場試合数、出場時間、ゴール、アシストと設定。
※スペイン2部リーグは、全部で42試合あります。
42試合のうち半分以上の時間(1,820分)に出場している主力と思しき選手を調べよう!
っていうノリでございます。
抽出されたのは、以下の10選手。
ざっくり分析すると、11人中10人がシーズンの半分にフル出場していることが
わかります(ざっくりすぎる気もしますが)。
細かく見るのであれば、1試合あたりのプレー時間なんてのを出してあげれば、
フル出場が多かったのか、はたまた途中出場(途中交代)が多かったのかということも
分析できるかな、と(多分)。
このデータを見るだけで、2017−2018シーズンのラージョ・バジェカーノは、
大砲(デ・トマス)、チャンスメーカー(エンバルバ)、それにトレホの3枚が
攻撃の要だったことが、なんとなくですがわかってきます。
余談ですが、ラージョは、他チームから届いたエンバルバへのオファーを蹴ったらしいです(そりゃそうだ)。
なお、デ・トマスは、レアル・マドリーからの借り物なので返却する方向になるはず。
(借りパクは、できっこないだろうし)
てなわけで、次の機会があったなら、
Jupyter Notebookで簡単なグラフも書けるらしいので、それを試そうかと
目論んでおります。
さあ、これがどこまで業務に使えるのかの見極めが悩ましい。。。