2018-01-01から1年間の記事一覧
先週の投稿で、Google AnalyticsのサンプルデータをBigQueryでクエリできるようにしました。 BigQueryを有効化してGoogle Analyticsのサンプルデータにクエリできるようにする - け日記 今回はBigQueryを使ってGoogle Analytics (GA)のデータを集計・分析す…
最近、よく仕事でGoogle AnalyticsのデータをBigQueryで集計したりしています。 プライベートでも学習できる環境が欲しかったので、Google Cloud Platform (GCP)アカウントでBigQueryを有効化して、Google Analytics (GA)のサンプルデータにクエリできるよう…
前回はSciPyを使った推定をとりあげましたが、今回は正規分布に関する仮説検定をSciPyを使って行います。 サンプルには前回同様、Irisデータセットを使いますので、UCIのWebサイトからダウンロードして品種ごと(setosa, virginica, versicolor)に分けておき…
SciPyを使って統計的推定を行います。 Irisデータセットを使いますので、UCIのWebサイトからダウンロードし、品種ごと(setosa, virginica, versicolor)に分けておきます。それぞれの標本数は50です。 import pandas as pd import math from scipy import sta…
時系列データを扱うにあたって役に立った、Pandasのテクニックを紹介します。 文字列型のSeriesから日時型・日付型のSeriesへ変換する 日付に欠測値を含むデータを日毎に集計する 累積和を計算する 今回の例に使う時系列データは以下です。 ある商品の4/1〜4…
SQL Server 2016からJSON用の関数がいくつか追加されていますので、使い方を備忘録にしておきます。 ここでは以下のようにカラムにJSONの値が入っているテーブルを例にします。 値がJSONフォーマットかどうか 値がJSONフォーマットかどうか確認するには、ISJ…
仕事でApache AirFlowを使う機会がありましたので、調査がてらに、Dockerで環境を構築し、簡単なジョブを定義します。 AirFlow AirFlowはジョブのスケジューリング・監視を、コード(主にPython)で定義・制御するためのプラットフォームです。ワークフロー、…
前回の投稿(Python: Luigiでデータパイプラインを作る - け日記)では、Pythonのデータパイプラインフレームワーク Luigi を使って依存関係のあるタスクを定義しました。 前回は1つ1つコマンドライン上で実行結果を見ていましたが、今回はCentral Schedulerを…
バッチ処理の実装にLuigiを使う機会があり、少し調べて整理しました。 irisデータセットをダウンロードしてきて、scikit-learnで学習したモデルをS3にアップロードする、簡単なサンプルも作ります。 Luigi Luigiは、データパイプラインを記述するためのPytho…
C#でクエリストリングを作る方法の備忘録です。 クエリストリングは、URLのパスの後ろに?変数名1=値1&変数名2=値2&...といった形で任意の値が渡される文字列です。例えば以下のような文字列です。 http://ohke.hateblo.jp/search?q=Python&page=1504879200 L…
これまで緑本などで学んできた統計モデルを、マーケティングに応用するための勉強を行っています。 今回は市場反応分析を線形回帰モデルとポアソン回帰モデルで行います。 市場反応分析に関する理論や使用するデータは、マーケティングの統計モデル (統計解…
これまで読み進めてきた緑本を改めて復習するために、statsmodelsで一般化線形モデル(GLM)を作り、糖尿病に関するデータの回帰分析を行います。 実装はこちらです。 blog/statsmodels_gamma.ipynb at master · ohke/blog · GitHub データセット 今回はscikit…
データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第10章です。PyMC3を使って階層ベイズモデルを表現します。実装は以…
データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第9章です。PyMC3を使って、GLMをベイズモデルで表現します。実装は…
Jupyter Notebook上で、緯度経度の情報を地図へ簡単にプロットできる方法を探していたところ、foliumの使い勝手が良かったので紹介します。 folium PythonからLeaflet.jsで地図をプロットするパッケージです。 https://github.com/python-visualization/foli…
データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第8章です。実装は以下で公開しています。 introduction_to_machine_…
データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第7章です。実装は以下で公開しています。 introduction_to_machine_…
データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第6章です。実装は以下で公開しています。 introduction_to_machine_…
データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第5章です。実装は以下で公開しています。 introduction_to_machine_…
前回から引き続き、データ解析のための統計モデリング入門(通称、緑本)を読み進めています。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第4章です。実装は以下で公開しています。 introd…
データ解析のための統計モデリング入門(通称、緑本)を読み始めました。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第3章です(前回の投稿はこちら)。実装は以下で公開しています。 introd…
データ解析のための統計モデリング入門(通称、緑本)を読み始めました。 述べられている理論を整理しつつ、Rでの実装をPythonに置き換えた際のポイントなども深掘りしていきます。 今回は第2章です。実装は以下で公開しています。 introduction_to_machine_le…
前々回の投稿( Python: レコメンドの行列分解を確率的勾配降下法で実装する - け日記 )では、欠測値やバイアスを考慮した行列分解を、確率的勾配降下法(SGD)で求める実装を行いました。 今回はおなじみMovieLens100K Datasetへ、このアルゴリズムを適用しま…
疎行列計算用のモジュール scipy.sparse について解説します。 https://docs.scipy.org/doc/scipy/reference/sparse.html 疎行列クラス 疎行列とは要素のほとんど(90%以上)が0で構成される行列です。 レコメンドやソーシャルグラフなどの分野ではしばしば現…
過去3回の投稿で、行列分解(SVDとNMF)によるレコメンドを実装してきました。 Pythonで特異値分解(SVD)を理解する - け日記 SVDでMovieLensのレコメンドを実装する - け日記 NMFでMovieLensのレコメンドを実装する - け日記 ですが、いずれも欠測値やユーザご…