表記上は【登録時のエントリ以降から収集】としていますが、過去のエントリを収集できないことはありません。現在は以下の手順でエントリを自動収集しています。
- 登録ブログのRSSファイルへアクセスし、記事の主要情報を取り出す
- エントリ内容が割愛されている場合、エントリURLを取り出す
- エントリURLへアクセスし、エントリのソース取得
- エントリのソースから必要な情報だけを抜き取る
ですが、ここでも問題になるのはやはり【FC2ブログ】。
FC2にはユーザ製作のオリジナルテンプレートなど実にたくさんのテンプレが用意されていますが、問題はそれぞれのテンプレでHTML構造が異なること。楽天ブログのように【HTMLソースは共通、デザイン要素は外部CSSで記述する】形だと収集が可能なのですが、現在のFC2の場合、デザインのテンプレごとに情報収集スクリプトを作らなければ、情報を収集することが出来ません。
なんだかんだ言っても一番登録数の多いブログサービスなので、こちらが対応をしていくしかないのですが…。トラックバックの件も然り、ブラウザ独自拡張を続けていったIEのような印象です。
なのでエントリ作成の際、【続きを読む】や【Read More.】といった形でエントリ表示を省略しているFC2ブログ利用者様は、エントリ全体を収集出来ていないのが実情です。RSSファイルもその部分までで省略されているからです。
またブログ設定のRSS部分で【RSS形式:全体を記述する or 省略型】にするといった設定があるようですが、【省略する】を指定している場合、上記理由からエントリ内容がすべて収集されない可能性があります。
時間が出来次第、テンプレに依存しない収集スクリプトへと修正する予定です。
