新・クマックマのダラダラダイアリー

新・クマックマのダラダラダイアリー

今日も元気に、のび~のびと!

Python + pandas で、簡単なデータ分析をしてみる(使用データはラージョ・バジェカーノ)

【前回までのあらすじ】

先日、Pythonの実行結果をWeb上で確認するべく、

Web開発ツールの Jupyter Notebook というツールを

インストールし、すごく軽い動作確認を行った。

(詳しくは、以下のリンクを参照)

sandplover-petro.hatenablog.com

 

で、 今回は、一歩進んだ動作確認ということで

サードパーティのパッケージをインストールし、少し動かすことに。

 

 

今回使用したのは、「pandas」というパッケージ。

データ読み込み、データ加工、データ抽出などに強いパッケージらしい。

前にいた会社で「pandasを使ってPythonで処理を」とかいう話があったので、

密かに気になっていたことは内緒で(笑)。

 

今回のデータは、2シーズンでスペイン1部への復帰を決めたラージョ・バジェカーノ

年間選手成績を使ってみることに(動作確認なので、楽しんでやらんといかんのです)。

データは、ラージョ・バジェカーノのサイトから拝借。

f:id:sandplover_petro:20180530000546j:plain

 

パッケージのインストールは、pip3 install pandas で簡単に完了。

(面倒なので、画面キャプチャは省略)

 

次は、実行環境に「pandas」をインポート。これは、ほぼお約束なので、あれこれ言わずに実行。

f:id:sandplover_petro:20180530000843j:plain

 

そして、ファイルオープン!

今回は、TSVファイル(タブ区切りテキストファイル)だったため、

read_table() っていう構文を使用。

CSVファイルだったら、「csv_open()」という構文を使用。

f:id:sandplover_petro:20180530001159j:plain

 

そして、どんな感じで開くのかを指定する。

デフォルトでは5行しか開けないので、今回は50行を開こうかな、と。

f:id:sandplover_petro:20180530001515j:plain

 

そして、開いてみたらこんな感じに。うん、書籍とよく似てる画面だ(そりゃそうだ)。

抽出元がスペインのサイトなので、ヘッダがスペイン語なのはご愛嬌(笑)。

f:id:sandplover_petro:20180530001918j:plain

これを見てるだけでも色々見えてくるのですが、

ちょっとひとひねりして

「出場時間が1,820分以上の選手を抽出」っていうのをしてみることに。

なお、表示項目は、背番号、選手名、出場試合数、出場時間、ゴール、アシストと設定。

※スペイン2部リーグは、全部で42試合あります。

 42試合のうち半分以上の時間(1,820分)に出場している主力と思しき選手を調べよう!

 っていうノリでございます。

f:id:sandplover_petro:20180530002653j:plain

抽出されたのは、以下の10選手。

f:id:sandplover_petro:20180530002922j:plain

ざっくり分析すると、11人中10人がシーズンの半分にフル出場していることが

わかります(ざっくりすぎる気もしますが)。

 

細かく見るのであれば、1試合あたりのプレー時間なんてのを出してあげれば、

フル出場が多かったのか、はたまた途中出場(途中交代)が多かったのかということも

分析できるかな、と(多分)。

 

このデータを見るだけで、2017−2018シーズンのラージョ・バジェカーノは、

大砲(デ・トマス)、チャンスメーカー(エンバルバ)、それにトレホの3枚が

攻撃の要だったことが、なんとなくですがわかってきます。

 

余談ですが、ラージョは、他チームから届いたエンバルバへのオファーを蹴ったらしいです(そりゃそうだ)。

なお、デ・トマスは、レアル・マドリーからの借り物なので返却する方向になるはず。

(借りパクは、できっこないだろうし)

 

てなわけで、次の機会があったなら、

Jupyter Notebookで簡単なグラフも書けるらしいので、それを試そうかと

目論んでおります。

 

さあ、これがどこまで業務に使えるのかの見極めが悩ましい。。。