新・クマックマのダラダラダイアリー

新・クマックマのダラダラダイアリー

今日も元気に、のび~のびと!

Python + pandas で、CSVファイルの出力をしてみる(使用データは浦和レッズの動員観客数)

※今までおさらいは、コチラ。

 CSVの読み込みまではできました。

sandplover-petro.hatenablog.com

 

さて、今回やりたいことはというと。

 

複数の入力ファイル(CSVファイル)を、

1つの出力ファイル(CSVファイル)にまとめること。

 

素直に考えたら、こんな感じで

処理を組めばよいかと(全然難しいものではない)

 

1.入力ファイルを取り込む際にループをかける

2.入力ファイルのデータを、どっかに格納しておく

3.2で作った ファイルを用いて、出力ファイルを作る。

 

てなわけで、元ネタを考えることに。

スペインサッカーネタもヨイのだが、前回のネタのラージョ・バジェカーノは、

直近1年のデータしかサイトに貯めこんでないので×。

 

浦和レッズのサイトから抽出することも考えたが、

全部PDFファイルなので、論外。てか、なんでそんなことするんだか。。。

 

仕方がないので、Jリーグ公式サイトから、浦和レッズの公式試合の

観客数をダウンロード。色々突っ込みたくならサイトだが、こればっかりは

仕方がない。。

 

てなわけで、こんな感じでデータを引っ張ってきた。

浦和レッズの試合の入場者数一覧。

2012年分と、2013年分の2つを引っ張ってきた。

(画像は2012年の抽出時)

f:id:sandplover_petro:20180604233353j:plain

 

Jリーグ公式の項目には、年がないので(それはそれでどうかと思う)、

まずは項目に「年」を追加。ついでに、「年月日」も追加。

f:id:sandplover_petro:20180604234238j:plain

 

でもって、抽出対象は、浦和レッズホームの試合としました(最近どんな感じで観客動員数が減っているかも知り合いし)。

 

処理を流すと、ファイルがこんな感じで出来上がります。

f:id:sandplover_petro:20180604235101j:plain

 

出力ファイルは、浦和レッズのホームの試合を抽出したものです。

 

グラフに表示したり、DBに繋いだりするのは、まだ先のことになりそうではあるものの、

思っていたよりもさくっとできた感がする(そこまで難しくない言語ではあるが)。

 

さて、DBは何を入れようか?

MySQLは入れ飽きてる感があるし、PostgreSQLは個人的にそんなに好きではない。

MariaDBでちょいといろいろやってみるのもアリなんだけれど、

MongoDBとかのNOSQLも、折角の機会なので使ってみたい。

さぁて、どのDBを使おうかな?

 

今日は眠いんで、ここらへんまでに。