2018-09-01から1ヶ月間の記事一覧

小ネタ: PandasでCSV文字列を分割して列にする

PandasでCSV形式の文字列のカラムを、それをカンマ区切りで分割して、別々の列にする方法のメモです。 例えば、1行目なら"123"と"456"と"789"を3つの列に分割します。 import pandas as pd df = pd.DataFrame({'name': ['A', 'B'], 'csv': ['123,456,789', '…

Flask-CachingでRedisにキャッシュする

Flaskアプリケーションでビューを楽にキャッシュする方法はないかと探していた時、同僚にFlask-Cachingを紹介されました。 Flask-Cachingを使ってRedisにキャッシュする方法について整理します。 Flask-Caching Flask-Cachingは以下の特徴があり、Flaskアプ…

PySparkでMLを使って機械学習する

引き続きPySparkについてです。今回はMLパッケージを使ってスパムメッセージを分類します。 PySpark + Jupyter Notebookの環境をDockerで構築する - け日記 PySpark (+Jupyter Notebook) でDataFrameを扱う - け日記 PySparkのMLパッケージを使ってMovieLens…

PySparkのMLパッケージを使ってMovieLensをレコメンドする

前回・前々回と引き続き、PySparkを使っていきます。 PySpark + Jupyter Notebookの環境をDockerで構築する - け日記 PySpark (+Jupyter Notebook) でDataFrameを扱う - け日記 今回はMLパッケージを使って映画のレコメンドを行います。 データセットにはお…

PySpark (+Jupyter Notebook) でDataFrameを扱う

前回の投稿では、PySparkをJupyter Notebookから操作するための環境を作りました。 ohke.hateblo.jp 今回は上の環境を使って、PySparkでDataFrameを扱う方法についてまとめます。 (そのため上の環境構築が済んでいる前提となります。) SparkのDataFrame Spar…