け日記

最近はPythonでいろいろやってます

Spark

PySparkのMLパッケージを使ってMovieLensをレコメンドする

前回・前々回と引き続き、PySparkを使っていきます。 PySpark + Jupyter Notebookの環境をDockerで構築する - け日記 PySpark (+Jupyter Notebook) でDataFrameを扱う - け日記 今回はMLパッケージを使って映画のレコメンドを行います。 データセットにはお…

PySpark (+Jupyter Notebook) でDataFrameを扱う

前回の投稿では、PySparkをJupyter Notebookから操作するための環境を作りました。 ohke.hateblo.jp 今回は上の環境を使って、PySparkでDataFrameを扱う方法についてまとめます。 (そのため上の環境構築が済んでいる前提となります。) SparkのDataFrame Spar…

PySpark + Jupyter Notebookの環境をDockerで構築する

お仕事でSparkをJupyter Notebook (Python 3) から使うのにあたり、PySparkの実行環境をDockerで構築する方法について調べました。 今回は、PySpark APIを使ったJupyter Notebookの動作確認をローカルで完結できるようにすることをゴールにします (別ノード…