関連記事表示ガジェット relpostsgad をアップデートしました。
このガジェットは当ブログでも使っているのですが、どうも今までにないタイプの記事を書いたところ、急に精度が低くなったなぁと感じての対処です。
(最近いくつか書いているビットコインや仮想通貨の記事で、ほとんど関係のない記事ばかりがピックアップされてしまったのです。)
一応語句は品詞を見ていて名詞などに限定しているのですが、それでも「よう」といったありふれた語句が検出されてしまっていました。「よう」なんていろんな記事に入っていますから、まるで関係のない記事が出てきてしまいます。
そこで短いひらがなを除外してやれば、一般的過ぎる語句を拾う確率を下げられるのではないかと考えました。
やり方としてはベイジアンだのニューラルネットワークだのも興味はありましたが、実装にかかる時間とのトレードオフで単純な処理方法を選びました。単純でも実用上充分に効果があるのなら、それはそれだと考えます。
ガジェットの設置方法に変更はありません。また既に設置済みのガジェットに変更を加える必要もありません。当方サーバ内処理のみでの改善となっています。
relpostsgad とは
relpostsgad とは、Blogger に柔軟な関連記事表示を提供すべく開発・運用しているサービスです。構文解析によって柔軟に記事をピックアップします。アップデート内容
今回のアップデート内容は、関連記事を選ぶ「精度」の改善です。このガジェットは当ブログでも使っているのですが、どうも今までにないタイプの記事を書いたところ、急に精度が低くなったなぁと感じての対処です。
(最近いくつか書いているビットコインや仮想通貨の記事で、ほとんど関係のない記事ばかりがピックアップされてしまったのです。)
具体的な処理改善内容
解析処理で次の語句を無視するようにしました。- ひらがな1文字
- ひらがな2文字
一応語句は品詞を見ていて名詞などに限定しているのですが、それでも「よう」といったありふれた語句が検出されてしまっていました。「よう」なんていろんな記事に入っていますから、まるで関係のない記事が出てきてしまいます。
そこで短いひらがなを除外してやれば、一般的過ぎる語句を拾う確率を下げられるのではないかと考えました。
やり方としてはベイジアンだのニューラルネットワークだのも興味はありましたが、実装にかかる時間とのトレードオフで単純な処理方法を選びました。単純でも実用上充分に効果があるのなら、それはそれだと考えます。
改善後の目標
新しい処理により関連性が高まり、セッションあたりのPV数や直帰率の改善につながることが目標です。その他
構文解析には形態素解析エンジン kuromoji を使用しています。ユーザ辞書などは使っていません。ガジェットの設置方法に変更はありません。また既に設置済みのガジェットに変更を加える必要もありません。当方サーバ内処理のみでの改善となっています。