はてなブログのグループの更新情報を取得したのでちょっと観察してみる。
pythonの練習がてら、はてなブログのRSSを取れるようになったので
その情報を観察してみた。
観察対象は
観察対象は
はてなブログのブロググループ。
ブロググループのアドレスの後ろに「/feed」をつければ情報を取得できるという
ありがたい情報を見つけたので使わせてもらった。
ここからは唸りながらやったので、どこのサイトを見ながらやったとか
まるで覚えてない。
俺のpythonの知識なんて
に書いてある事しかしらないのでめっちゃ簡単にできるはず。
最終的にブログのタイトルとURLと更新時間を手に入れて、
CSVで出力できるようにした。
その後はExcelでやることにした。
観察してみる。
前提として
まず、まるっきり興味のない以下のグループは無視した。
芸能・アイドル
スポーツはその他以外
アニメ・マンガのボーイズラブ
趣味のペット、自動車、ガーデニング、植物
コンピュータ・ITのWindows開発者
グルメのお弁当
ファッション
生活の健康・育児子育て・家族
学問・教養の歴史
地域別の地域以外
その上で、6月29日14:29頃の更新情報を取得し、観察する。
観察結果
その①フィードで取得出来るのは、1カテゴリーにつき20件まで。
フィードのURLを見てもらえば分かると思う。
その②ブログ更新とフィードの更新は連動。
csvの生成時間が14:29:05で、更新時間が14:29:29だったのだが、
一番新しく更新されたブログの更新時間が14:29:08だったので
更新は○分に1回という感じではなく、連動していると見ていい。
その③結構重複している。
取得できたブログ数が1060件あって、Excelの重複削除機能を使うと867件に
減ったので約18%のブログが複数カテゴリーに投稿されている。
(多分この記事もそうなる)
その④全然更新されないカテゴリーがある。
867件のうち、当日ないし前日に更新されたものが756件で約87%。
10日以内のものが830件で約95%。
いずれかのカテゴリーは毎日更新しているのは間違いない。
一方で160日ほど前に更新されたブログが新着扱いされているカテゴリーもあった。
その⑤ブログの壁は7日?
取得したブログのほとんどが10日以内に更新されているのだが、
たまたまだと思うが、7日前に更新されたものがなかった。
ブログを続けるかどうかは7日以内に1度更新できるかどうかが重要なのかもしれない。
その⑥意外とアフリエイト記事は少ない?
ブロガーとかアフィカスとか不労所得とかの記事読む気にはならないので、
そういった記事を削れないかな―と、タイトルに使われている単語のうち
分かりやすいのをピックアップして、判定するようにしました。
具体的には「まとめ」とか「○つの理由」とか「○選」ですね。
あと個人的にNGな単語をいくつかブチ込んで判定したところ、
867件のうち99件がヒットしました。約11%ですね。
もうちょっと多いと思ってたので意外という印象です。
もしかしたら、分かりやすいタイトルをつける流行は終わったのかも。
この後どうする?
自分にお勧めのはてなブログをピックアップするようなものを作ってみたかったけど、
excelに頼ったので計画は練り直しだなあ。
後、更新情報を取得するのはTwitterの方がいい気がする。
この話もここでおしまい。