2018-06-01から1ヶ月間の記事一覧

Scrapyでけ日記をクローリングする (1. 初めてのSpider作り)

Scrapyを使ってはてなブログ、といいますか、この日記のクローリングを行います。今回はエントリタイトルを取得するSpiderを作ります。 こちらの書籍を参考にしてます。 Scrapyとは Scrapyはクローリング&スクレイピングに特化したPythonのフレームワークで…

Python: setにlistやtupleを追加する

Pythonでsetとlistを使う時のtipsです。 listやtupleを引数にsetを作ることができます。 set_a = set(['a', 'b', 'c', 'a']) # {'a', 'b', 'c'} set_b = set(('a', 'b', 'c', 'a')) # {'a', 'b', 'c'} addメソッドで1要素を追加することはできますが、listや…

NumPyを使って線形モデルのパラメータを最小二乗法で推定する

線形モデルと最小二乗法について調べることがありましたので、まとめておきます。 今回は青本の2章を参考に、繰り返し測定、1元配置、多項式の3つのモデルで例示します。また、NumPyを使った行列計算でナイーブに最小二乗法を実装します。 自然科学の統計学 …

PythonでRedisを参照・更新する

仕事でPythonアプリケーションからアクセスするRedisの導入を検討した際に、redis-pyでRedisを参照・更新する方法について調べましたので、備忘録にしておきます。 redis-pyのドキュメントはこちらです。 http://redis-py.readthedocs.io/ DockerでRedisコン…

Google AnalyticsのデータをBigQueryで集計・分析するときのテクニック集

先週の投稿で、Google AnalyticsのサンプルデータをBigQueryでクエリできるようにしました。 BigQueryを有効化してGoogle Analyticsのサンプルデータにクエリできるようにする - け日記 今回はBigQueryを使ってGoogle Analytics (GA)のデータを集計・分析す…