け日記

最近はPythonでいろいろやってます

Flask-CachingでRedisにキャッシュする

Flaskアプリケーションでビューを楽にキャッシュする方法はないかと探していた時、同僚にFlask-Cachingを紹介されました。 Flask-Cachingを使ってRedisにキャッシュする方法について整理します。 Flask-Caching Flask-Cachingは以下の特徴があり、Flaskアプ…

PySparkでMLを使って機械学習する

引き続きPySparkについてです。今回はMLパッケージを使ってスパムメッセージを分類します。 PySpark + Jupyter Notebookの環境をDockerで構築する - け日記 PySpark (+Jupyter Notebook) でDataFrameを扱う - け日記 PySparkのMLパッケージを使ってMovieLens…

PySparkのMLパッケージを使ってMovieLensをレコメンドする

前回・前々回と引き続き、PySparkを使っていきます。 PySpark + Jupyter Notebookの環境をDockerで構築する - け日記 PySpark (+Jupyter Notebook) でDataFrameを扱う - け日記 今回はMLパッケージを使って映画のレコメンドを行います。 データセットにはお…

PySpark (+Jupyter Notebook) でDataFrameを扱う

前回の投稿では、PySparkをJupyter Notebookから操作するための環境を作りました。 ohke.hateblo.jp 今回は上の環境を使って、PySparkでDataFrameを扱う方法についてまとめます。 (そのため上の環境構築が済んでいる前提となります。) SparkのDataFrame Spar…

PySpark + Jupyter Notebookの環境をDockerで構築する

お仕事でSparkをJupyter Notebook (Python 3) から使うのにあたり、PySparkの実行環境をDockerで構築する方法について調べました。 今回は、PySpark APIを使ったJupyter Notebookの動作確認をローカルで完結できるようにすることをゴールにします (別ノード…

Pandasで正規表現を使って検索する

Pandasで正規表現を使って、マッチする行を検索する方法です。 textという列を1つ持つDataFrameをサンプルデータとして作成します。 import pandas as pd import re df = pd.DataFrame({'text': ['a', 'aaa', 'abc', 'def']}) PandasのSeriesは、文字列の便…

Python: NumPyで縦持ちから横持ちへ変換する小ワザ

以前、DataFrameの縦持ち・横持ちの変換につ いてまとめましたが、今回はNumPyの行列を縦持ちから横持ちへ変換する小ワザを紹介します。 ohke.hateblo.jp 以下のような5行3列の値を、列1の値を行インデックス、列2を列インデックス、列3を各要素の値として行…

Python: BayesianOptimizationによるベイズ最適化

お仕事で、時間のかかる学習のパラメータ選定に、ベイズ最適化を用いる機会がありましたので、備忘録として整理します。 ベイズ最適化 ベイズ最適化 (Bayesian Optimization) は、過去の実験結果から次の実験パラメータを、確率分布から求めることで最適化す…

Python: Joblibで並列処理プログラミング

Pythonの並列処理では標準ライブラリであるmultiprocessingがよく使われると思いますが、「もっと気楽に実装したい」という場合に便利なのがJoblibです。 github.com 今回はJoblibを使った並列処理プログラミングについて紹介します。 基本的な使い方 使い始…

Python: PandasのDataFrameを横持ち・縦持ちに変換する

PandasのDataFrameを縦持ちから横持ちにする方法とその逆(横持ちから縦持ちにする方法)についての備忘録です。 縦持ちと横持ち 縦持ちは、以下のように、カラム固定で1行に1つの値を持たせている表です。カラムをおいそれと変更できないDBのテーブルなどはこ…

Scrapyでけ日記をクローリングする (3. parseへ任意の値を渡す方法とエラーハンドリング)

前回・前々回に引き続き、Scrapyを使ってこのブログのクローリングを行います。 github.com 今回は細々としたところで、Spiderクラスのparseメソッドへ値を受け渡す方法と、エラーハンドリングについてです。Spiderの実装は前々回の投稿も参考にしてみてくだ…

Scrapyでけ日記をクローリングする (2. PipelineでPostgreSQLに保存する)

前回に引き続き、Scrapyを使ってこの日記のクローリングを行います。 github.com 今回はクローリングで得られた値を、バリデーションしてPostgreSQLに保存するPipelineを実装します。Spiderの実装は前回の投稿も参考にしてみてください。 ohke.hateblo.jp こ…

Scrapyでけ日記をクローリングする (1. 初めてのSpider作り)

Scrapyを使ってはてなブログ、といいますか、この日記のクローリングを行います。今回はエントリタイトルを取得するSpiderを作ります。 こちらの書籍を参考にしてます。 Scrapyとは Scrapyはクローリング&スクレイピングに特化したPythonのフレームワークで…

Python: setにlistやtupleを追加する

Pythonでsetとlistを使う時のtipsです。 listやtupleを引数にsetを作ることができます。 set_a = set(['a', 'b', 'c', 'a']) # {'a', 'b', 'c'} set_b = set(('a', 'b', 'c', 'a')) # {'a', 'b', 'c'} addメソッドで1要素を追加することはできますが、listや…

NumPyを使って線形モデルのパラメータを最小二乗法で推定する

線形モデルと最小二乗法について調べることがありましたので、まとめておきます。 今回は青本の2章を参考に、繰り返し測定、1元配置、多項式の3つのモデルで例示します。また、NumPyを使った行列計算でナイーブに最小二乗法を実装します。 自然科学の統計学 …