2018-08-01から1ヶ月間の記事一覧

PySpark + Jupyter Notebookの環境をDockerで構築する

お仕事でSparkをJupyter Notebook (Python 3) から使うかもしれないということで、PySparkの実験用環境をDockerで構築する方法について調べました。 今回は、PySpark APIを使ったJupyter Notebookの動作確認をローカルで完結できるようにすることをゴールに…

Pandasで正規表現を使って検索する

Pandasで正規表現を使って、マッチする行を検索する方法です。 textという列を1つ持つDataFrameをサンプルデータとして作成します。 import pandas as pd import re df = pd.DataFrame({'text': ['a', 'aaa', 'abc', 'def']}) PandasのSeriesは、文字列の便…

Python: NumPyで縦持ちから横持ちへ変換する小ワザ

以前、DataFrameの縦持ち・横持ちの変換につ いてまとめましたが、今回はNumPyの行列を縦持ちから横持ちへ変換する小ワザを紹介します。 ohke.hateblo.jp 以下のような5行3列の値を、列1の値を行インデックス、列2を列インデックス、列3を各要素の値として行…

Python: BayesianOptimizationによるベイズ最適化

お仕事で、時間のかかる学習のパラメータ選定に、ベイズ最適化を用いる機会がありましたので、備忘録として整理します。 ベイズ最適化 ベイズ最適化 (Bayesian Optimization) は、過去の実験結果から次の実験パラメータを、確率分布から求めることで最適化す…