2018-12-01から1ヶ月間の記事一覧
情報検索 (IR) のみならず、いろいろな分野で応用されているPageRankアルゴリズムについてまとめます。 PageRank PageRankはリンク分析 (link analysis) に分類されるアルゴリズムで、1998年に提案されました (提案論文PDF) 。以下の特徴を持ってます。 リン…
情報検索 (IR) の分野におけるフィードバックアルゴリズムの1つであるRocchioアルゴリズムについて紹介します。 Rocchioフィードバックアルゴリズムとは IRにおいて、検索クエリをTF*IDF等でベクトル化した後で、過去のラベリング情報 (フィードバック) を使…
引き続きSolrに触れていきます。 今回はSolrの検索で使われる類似度 (similarity) についてです。 前提 Solrのダウンロードとkenikkiコレクションの追加まで完了している状態を前提として進めます。 ohke.hateblo.jp ohke.hateblo.jp 類似度 Solrのコアエン…
前回・前々回に引き続いて、Solrについてです。 今回は検索クエリで頻繁に使われる、フィルタ、ソート、ファセット、ハイライトについてまとめます。引き続き、チュートリアルと↓の本を参考にしています。 なお、前々回のSolrのダウンロード、前回のkenikki…
前回の投稿に引き続き、Solrに慣れ親しんでいきます。 ohke.hateblo.jp 今回の投稿では、スキーマの定義、および、JSONを使ったドキュメント登録を行います。引き続き、チュートリアルと↓の本を参考にしています。 Solrサーバの起動とSolrCoreの作成 話を単…