2017-11-01から1ヶ月間の記事一覧

Visual Studio Codeでシーケンス図を描く(PlantUML拡張機能)

VSCodeでシーケンス図などのUMLを描くことができる拡張機能を紹介します。 ドキュメントに関しては、テーブル定義やAPI仕様など必要最低限のみを作成するようにしているのですが、シーケンス図は詳細設計や実装前のフローの整理ということでよく描きます。 …

読書メモ: Machine Learning 実践の極意(Part I)

「Machine Learning 実践の極意」を読みましたので、そのPart Iの読書メモです。 Machine Learning実践の極意 機械学習システム構築の勘所をつかむ! impress top gearシリーズ作者: Henrik Brink,Joseph W. Richards,Mark Fetherolf,株式会社クイープ出版社…

LDAでブログ記事のトピックを抽出・分類する

今回はLDAを使って、京大ブログコーパスをトピック毎に分類できないか試みてみます。 LDA LDA(Latent Dirichlet Allocation, 潜在ディリクレ配分法)は、文書のトピック(文書の話題、カテゴリ、ジャンルとも言える)についてのモデルです。 初出は以下の論文で…

Word2Vecで京都観光に関するブログ記事の単語をベクトル化する

京都観光に関するブログ記事を使い、Word2Vecで単語のベクトル化します。 ベクトル化することで、例えば「紅葉」という言葉から紅葉の名所を列挙したり、「カップル」という言葉からデートコースを探したりできないか、というのを試みてみたいと思います。 W…

Python janomeのanalyzerが便利

前回の投稿でも形態素解析に利用したjanomeですが、形態素解析を単純にラッピングするだけでなく、いくつかシンプルで便利な機能も実装されています。 今回は、形態素解析以外の前処理も簡単に統合できるanalyzerについて紹介します。 前処理が必要なデータ …