読者です 読者をやめる 読者になる 読者になる

サイエンティストとマーケターのはざま

Pythonとか広告とかデータ分析とかとか


XGBoostのハイパーパラメータをチューニングする

前回、XGBoostで予測モデルを作成しました。 ukichang.hatenablog.com 精度を上げるためにはパラメーターチューニングが必要です。しかし、こちらのアルゴリズムは設定すべきパラメータが多く、手動で探索すると手間がかかります。 そこでscikit-kearnのgrid…

XGBoostで予測モデル作成

前回まででXGBoostのインストールが終わりました。 ukichang.hatenablog.com ここからは実際にXGBoostによる予測モデルを作成していきます。 1. 必要なライブラリのimport 以下で事足ります。 import pandas as pdimport numpy as npimport seaborn as snsim…

MacにXGBoostをインストールして予測モデルを作成する - インストール編

XGBoostで予測モデルを作成していきます。 XGBoostとは 近年KaggleやKDDなどの機械学習界隈で予測精度がよいと評判のアルゴリズム、Gradient Boosting(勾配ブースティング、GBDTと呼ぶことが多い)をc++で実装したもので、計算が速いことが知られています。 G…

Python scikit-learnで決定木での分類結果をROC曲線とAUCで評価する

前回モデルの性能検証に関して、クロスバリデーションについて書きました。 ukichang.hatenablog.com サンプリングデータにバラツキがある際にクロスバリデーションしてから性能評価を行います。モデル自体の性能評価はROC曲線下面積(AUC)で行います。ROCと…

Python scikit-learnで決定木モデルの性能検証

前回決定木で予測モデルを作成しましたが、機械学習におけるモデルの性能検証について書きたいと思います。 ukichang.hatenablog.com まず、基本的な考え方としてモデル作成に使う訓練データと検証用のテストデータに分け、 性能検証をします。 いつものiris…

Python scikit-learnで決定木分析

データマイニングで定番の決定木分析をやってみたいと思います。 決定木の説明に関しては他に譲るとして、ここではpythonの機械学習ライブラリである、scikit-learnを利用して決定木分析を行い、graphvizという可視化ライブラリでグラフを描画します。 その…

AzureのMachine Learningを使う

前回の記事でAzureのアカウント作成について書きました。 ukichang.hatenablog.com 今回はAzureのMachine Learningを使っていきます。 ワークスペースを作成する まずはワークスペースを作成する必要があります。 ダッシュボードの参照からMachine Learning …