Python: statsmodelsでガンマ回帰

Python 統計学

これまで読み進めてきた緑本を改めて復習するために、statsmodelsで一般化線形モデル(GLM)を作り、糖尿病に関するデータの回帰分析を行います。実装はこちらです。 blog/statsmodels_gamma.ipynb at master · ohke/blog · GitHub データセット今回はscikit…

2018-03-14

Pythonで実装しながら緑本を学ぶ (第10章階層ベイズモデル)

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第10章です。PyMC3を使って階層ベイズモデルを表現します。実装は以…

2018-03-08

Pythonで実装しながら緑本を学ぶ (第9章 GLMのベイズモデル化と事後分布の推定)

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第9章です。PyMC3を使って、GLMをベイズモデルで表現します。実装は…

2018-03-02

Python: foliumでJupyter Notebookに地図を描画する

Python

Jupyter Notebook上で、緯度経度の情報を地図へ簡単にプロットできる方法を探していたところ、foliumの使い勝手が良かったので紹介します。 folium PythonからLeaflet.jsで地図をプロットするパッケージです。 https://github.com/python-visualization/foli…

2018-02-24

Pythonで実装しながら緑本を学ぶ (第8章マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル)

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第8章です。実装は以下で公開しています。 introduction_to_machine_…

2018-02-18

Pythonで実装しながら緑本を学ぶ (第7章一般化線形混合モデル(GLMM))

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第7章です。実装は以下で公開しています。 introduction_to_machine_…

2018-02-12

Pythonで実装しながら緑本を学ぶ (第6章 GLMの応用範囲を広げる -ロジスティック回帰など-)

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第6章です。実装は以下で公開しています。 introduction_to_machine_…

2018-02-06

Pythonで実装しながら緑本を学ぶ (第5章 GLMの尤度比検定と検定の非対称性)

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第5章です。実装は以下で公開しています。 introduction_to_machine_…

2018-01-31

Pythonで実装しながら緑本を学ぶ (第4章 GLMのモデル選択)

Python 統計学読書メモ

前回から引き続き、データ解析のための統計モデリング入門(通称、緑本)を読み進めています。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第4章です。実装は以下で公開しています。 introd…

2018-01-25

Pythonで実装しながら緑本を学ぶ (第3章一般化線形モデル(GLM))

Python 統計学読書メモ

データ解析のための統計モデリング入門(通称、緑本)を読み始めました。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第3章です(前回の投稿はこちら)。実装は以下で公開しています。 introd…

2018-01-19

Pythonで実装しながら緑本を学ぶ (第2章確率分布と統計モデルの最尤推定)

Python 統計学

データ解析のための統計モデリング入門(通称、緑本)を読み始めました。述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。今回は第2章です。実装は以下で公開しています。 introduction_to_machine_le…

2018-01-13

Python: レコメンドの行列分解を確率的勾配降下法で実装してMovieLens100Kに適用する

Python Recommender system

前々回の投稿( Python: レコメンドの行列分解を確率的勾配降下法で実装する - け日記 )では、欠測値やバイアスを考慮した行列分解を、確率的勾配降下法(SGD)で求める実装を行いました。今回はおなじみMovieLens100K Datasetへ、このアルゴリズムを適用しま…

2018-01-07

Python: scipy.sparseで疎行列計算する

Python

疎行列計算用のモジュール scipy.sparse について解説します。 https://docs.scipy.org/doc/scipy/reference/sparse.html 疎行列クラス疎行列とは要素のほとんど(90%以上)が0で構成される行列です。レコメンドやソーシャルグラフなどの分野ではしばしば現…

2018-01-01

Python: レコメンドの行列分解を確率的勾配降下法で実装する

Python Recommender system

過去3回の投稿で、行列分解(SVDとNMF)によるレコメンドを実装してきました。 Pythonで特異値分解(SVD)を理解する - け日記 SVDでMovieLensのレコメンドを実装する - け日記 NMFでMovieLensのレコメンドを実装する - け日記ですが、いずれも欠測値やユーザご…

2017-12-26

NMFでMovieLensのレコメンドを実装する

Python Recommender system

前回の投稿( SVDでMovieLensのレコメンドを実装する - け日記 )に引き続き、今回はNMFで映画のレコメンドを実装します。 NMF 非負値行列因子分解(Non-negative Matrix Factorization: NMF)は、ある行列XをW・Hに近似的に分解する方法の一つです。その名の通…

2017-12-20

SVDでMovieLensのレコメンドを実装する

Python Recommender system

前回の投稿( Pythonで特異値分解(SVD)を理解する - け日記 )で特異値分解(SVD)についてPythonで(車輪の再発明的に)実装してみました。今回はSVDを使って、映画のレコメンドシステムを作ります。データセットはMovieLens 100Kを用います。データセット今回…

2017-12-14

Pythonで特異値分解(SVD)を理解する

数学 Python

以前の投稿( 論文メモ: Item2Vec: Neural Item Embedding for Collaborative Filtering - け日記 )で比較対象になっていた特異値分解(SVD)についてまとめ、Pythonで実装してみます。 SVDとは特異値分解(singular value decomposition: SVD)は、数学的にはM×…

2017-12-08

word2vecでitem2vecを実装して映画を推薦する

Python Recommender system

自然言語処理 Advent Calendar 2017 - Qiita 8日目の投稿となります。 qiita.com 前回の投稿ではword2vecを推薦に応用したitem2vecを紹介しました。今回は、gensimのword2vecを使ってitem2vecの実装を行い、映画を推薦するシステムを作ります。 ohke.hatebl…

2017-11-14

LDAでブログ記事のトピックを抽出・分類する

Python NLP

今回はLDAを使って、京大ブログコーパスをトピック毎に分類できないか試みてみます。 LDA LDA(Latent Dirichlet Allocation, 潜在ディリクレ配分法)は、文書のトピック(文書の話題、カテゴリ、ジャンルとも言える)についてのモデルです。初出は以下の論文で…

2017-11-08

Word2Vecで京都観光に関するブログ記事の単語をベクトル化する

Python NLP

京都観光に関するブログ記事を使い、Word2Vecで単語のベクトル化します。ベクトル化することで、例えば「紅葉」という言葉から紅葉の名所を列挙したり、「カップル」という言葉からデートコースを探したりできないか、というのを試みてみたいと思います。 W…

2017-11-02

Python janomeのanalyzerが便利

Python NLP

前回の投稿でも形態素解析に利用したjanomeですが、形態素解析を単純にラッピングするだけでなく、いくつかシンプルで便利な機能も実装されています。今回は、形態素解析以外の前処理も簡単に統合できるanalyzerについて紹介します。前処理が必要なデータ …

2017-10-27

Python 感情極性対応表とjanomeを使って日本語で良いニュースと悪いニュースの分類を試みる

Python NLP

日本語のニュース文章を、感情極性対応表とjanomeを使って、良いニュース・悪いニュースで分類してみます。 livedoorニュースコーパスのロード今回は以下で提供されているlivedoorニュースコーパスの内、トピックニュースをデータセットとして使います。ダ…

2017-10-13

Pythonでレコメンドシステムを作る(コンテンツベースフィルタリング)

Python Recommender system

今回はコンテンツベースフィルタリングで、ジョークをお薦めするシステムを作ります。コンテンツベースフィルタリングとはコンテンツベースフィルタリングは、アイテムそのものの特徴を利用して、推薦したいユーザがこれまで高評価したアイテムと類似する…

2017-10-06

Python scikit-surpriseを使ってレコメンドする

Python Recommender system

scikit-surpriseというライブラリを使って、お寿司データセットのレコメンドを実装します。 scikit-surpriseとは scikit-surpriseは、レコメンドシステムで必要となる類似度評価や予測アルゴリズムなどを提供するライブラリです。類似のライブラリとしてcra…

2017-09-29

Pythonでレコメンドシステムを作る(アイテムベース協調フィルタリング)

Python Recommender system

今回もお寿司データセットを使って、推薦システムを作ります。 www.kamishima.net 前回と同様、上記サイトのAll Data Setからsushi3-2016.zipをダウンロード・展開して、sushi3b.5000.10.scoreファイルをpythonファイルと同じディレクトリにコピーしておきま…

2017-09-22

Pythonでレコメンドシステムを作る(ユーザベース協調フィルタリング)

Python Recommender system

Pythonで協調フィルタリングを実装して、お寿司を推薦するシステムを作ってみます。データセット今回は寿司ネタの嗜好評価を集めたSUSHI Preference Data Setsを使います。 5000人が寿司ネタ100種類に対して5段階で評価(欠測値有り)したデータセットで、以…

2017-09-15

scikit-learnでスパムメッセージを分類する(TfidfVectorizer + PorterStemmer + BernoulliNB)

Python 機械学習

前回に引き続き、今回も↓のデータセットを使って、スパムメッセージの分類を行います。 UCI Machine Learning Repository: SMS Spam Collection Data Set SMS Spam Collection Dataset | Kaggle TF-IDF scikit-learnでは、前回使ったCountVectorizer以外に、…

2017-09-08

scikit-learnでスパムメッセージを分類する(CountVectorizer + BernoulliNB)

Python 機械学習

scikit-learnを使ってナイーブベイズでスパムメッセージを分類してみます。データセットのロード今回はUCIで提供されているSMS Spam Collection Data Setを使います。データセット全体で5572サンプル(内スパムは747)からなり、各サンプルはSMSのメッセー…

2017-09-01

Visual Studio CodeでFlaskをデバッグする環境を作る on Mac

Python

仕事でFlaskを使ったアプリケーションを作る機会があり、Visual Studio Code(VSCode)で環境を整えましたので、その備忘録です。前提 VS Code、Python、Flaskはインストールしておいてください。 $ python --version Python 3.6.0 :: Anaconda custom (x86_6…

2017-08-25

scikit-learnのロジスティック回帰で特定のクラスに分類されやすくする

Python 機械学習

クラスに偏りがあるデータセットを使って、分類確率の閾値を変えることで、一方のクラスに分類されやすくします。 predict_probaでクラスの分類確率を見る前回の投稿と同様に、kaggleで提供されているCredit Card Fraud Detectionデータセットをダウンロー…