YellowBrickを試してみた

はじめに

可視化ツールを探していたところ、最近YellowBrickという可視化ツールが出たことを知り、あまり日本語の記載もなかったので試しに少し使ってみた。
まだまだ探り探りの状態なので、マニュアル見つつどんなものか調べた内容をメモする。

環境

実行環境は次の通り。

$sw_vers
ProductName:    Mac OS X
ProductVersion: 10.13.6
BuildVersion:   17G8030
$python3 --version
Python 3.7.4

YellowBrickとは

YellowBrickのGitHubページ1によると、機械学習のモデル選定を楽にしてくれるような可視化ツールとのこと。
1つ1つの特徴量のヒストグラムをきれいに出してくれるというよりは、モデルの精度グラフを簡単に綺麗に出してくれるようなツールのよう。

試したこと

YellowBrickのドキュメントページ2にチュートリアルの説明があったので、シェアバイクのデータを使って、少しYellowBrickを触ってみた。

インストール

pipでインストールするだけ。

pip imstall yellowbrick

データのロード

今回はYellowBrickで用意されているシェアバイクのデータを使用。

import yellowbrick
import pandas as pd
from yellowbrick.datasets import load_bikeshare

X, y = load_bikeshare()
print(X.head())
   season  year  month  hour  holiday  weekday  workingday  weather  temp  \
0       1     0      1     0        0        6           0        1  0.24   
1       1     0      1     1        0        6           0        1  0.22   
2       1     0      1     2        0        6           0        1  0.22   
3       1     0      1     3        0        6           0        1  0.24   
4       1     0      1     4        0        6           0        1  0.24   

   feelslike  humidity  windspeed  
0     0.2879      0.81        0.0  
1     0.2727      0.80        0.0  
2     0.2727      0.80        0.0  
3     0.2879      0.75        0.0  
4     0.2879      0.75        0.0  

特徴量間の関係

本当は1つ1つの特徴量分布を最初に見ていくところだが、あまりそういった可視化ツールではなさそうなので、早速相関行列を見てみる。プログラムは次の通り。

from yellowbrick.features import Rank2D

visualizer = Rank2D(algorithm="pearson")
visualizer.fit_transform(X, y)
visualizer.show()

このようにRank2Dfit_transformshowするだけできれいな行列を出力できる。
今回はPearsonの相関係数の結果を表示しているが、他にもCovariace Matrixを表示することもできるので便利だなーという印象を受けた。

Figure_1.png

上は説明変数同士の相関だったが、目的変数と説明変数の相関係数を表示することもできる。プログラムは次の通り。

from yellowbrick.target import FeatureCorrelation
visualizer = FeatureCorrelation(labels=X.columns)
visualizer.fit(X, y) 
visualizer.show()  

出力結果がこちら。プログラムを書く量が少なくて楽。

Figure_2.png

説明変数同士の相関行列で、「temp」と「feelslike」の相関係数が高いので、2つの変数の散布図を確認することもできる。プログラムは次の通り。

from yellowbrick.features import JointPlotVisualizer

visualizer = JointPlotVisualizer(columns=['temp', 'feelslike'])
visualizer.fit_transform(X, y)
visualizer.show()

結果は下図の通り。前に自分でこういうプロットが欲しくてmatplotlib.pyplotで関数作った時に比べると、非常に楽。

Figure_3.png

線形回帰モデルの可視化

他にも特徴量を可視化する関数は用意されているが、一旦モデルの可視化に移る。簡単のために、scikit-learnの線形回帰を用いてモデルを作成する。プログラムは次の通り。

from yellowbrick.regressor import PredictionError, ResidualsPlot
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1
)

model = LinearRegression()


visualizer = PredictionError(model)
visualizer.fit(X_train, y_train)  # Fit the training data to the visualizer
visualizer.score(X_test, y_test)  # Evaluate the model on the test data
visualizer.show()

PredictionErrorにモデルを渡して、fitscoreshowするだけでモデル構築と可視化をしてくれる。ここで可視化しているPredictionErrorは目的変数の正解(実測)と予測値を軸に、データを散布図で表示している。
予測の当てはまりの良さを示すR2R2値も自動で表示される。

Figure_4.png

予測値と実測値の差(Residual)のプロットも同様に出すことができる。

visualizer = ResidualsPlot(model)
visualizer.fit(X_train, y_train)
visualizer.score(X_test, y_test)
visualizer.show()

Residualが0のラインが自動で引かれているところは地味に嬉しい。
右側のヒストグラムは取り除くこともできる。

Figure_5.png

ただ、モデルを引数に可視化する度に「fit」していると、その都度微妙に予測値が変わったりしないのかと心配したが、すでにモデルがフィット済みの場合は再度モデル構築はしないそう。fitしないで、可視化することもできた。

visualizer = ResidualsPlot(model)
visualizer.score(X_test, y_test)
visualizer.show()

結果は下図の通りで、この場合は学習用データは表示されていないものの、fitせずに可視化できた。

Figure_6.png

まとめ

試しにYellowBrickを触ってみた。プログラム行数を削減して綺麗なプロットを出すことができそう。ただ、自分で自分好みの可視化関数を既に用意している人は、そこまで良いとは感じないかもしれない。もう少し詳しい使い方は後日アップデートしたい。