グループウェアのログデータを分析対象とした、 PL/Rを用いたデータマイニングWebアプリの実現(2)
2.ログデータ分析
ログデータ:
ここは、サイボウズ社内で使用している「サイボウズガルーン2」のWebサーバーのログデータを分析対象としました。特に、「サイボウズガルーン2」のアプリ毎のアクセス状況を分析してみました。
実装分析項目:
クエリー
バー・グラフ
パイ・グラフ
ボックス・グラフ
ネットワークマップ
クラスタリング
(バーグラフとパイグラフは今回省略しています)
時間が限られていたため、少ない分析、可視化の項目での検証となりました。上図のように、実装分析項目にパラメータを指定した上で、動的に分析ができます。
クラスタリング:
教師なしデータ分類手法、与えられたデータを外的基準なしに自動的に分類する手法です。グループウェア上のユーザーの行動をクラスタリングすることによって、行動が似てるユーザーをそれぞれのカテゴリーに自動的に分類できます。また、カテゴリーから外れたユーザーが異常行動のユーザーとして抽出できます。
同時に、ユーザー行動の特徴抽出には幾つかの方法があります。たとえば、各アプリの使用頻度、アプリ間のトランスファー頻度、各アプリ間で見られる特徴なトランスファーシナリオなどです。 ここで、簡単に、各アプリの使用頻度を基にして視覚化しました。
下図はあるクラスタリング例です。アプリの使用頻度によって、三つのカテゴリーに分けています。さらに、各カテゴリーのユーザーの行動をネットワークマップで可視化してみました。
ネットワークマップ:
各アプリ使用のトランスファーシーケンスをネットワークマップで可視化してみました。アプリ間のトランスファー頻度を太さとし、トランスファー方向を矢印としています。群2と群3の行動の違いが視覚である程度把握できると思います。
(ここで、ネットワークマップを可視化の例としてだけ使用しています。先例のクラスタリングの特徴がアプリの使用頻度であるのに、各カテゴリーの調査でトランスファーパターンを使用するのは、適切ではありません。)
3.まとめ
また、グループウェアのWebサーバーのログデータを対象にして、幾つか可視化、分析機能を検証しました。しかし、今回の実装には、まだ、幾つか不足点があります。Webサーバーのログ情報がまだ粗く、アプリ内の使用状況を分析していません。これについては「サイボウズガルーン2」内で蓄積したユーザー行動情報を使えば、より詳しい分析ができると考えています。また、事前に分析目的を明確化する必要があると思います。たとえば、開発者、利用者、システム管理者、それぞれ違う分析ニーズを持っているかと思います。
今後、実際のニーズに合わせたデータマイニングWebアプリの開発が期待されています。




最近のコメント