(開発者様向け) JavaScript での本文抽出ライブラリ extract-content-javascript を公開しました
本日、はてなブックマーク Firefox 拡張内部で利用*1している JavaScript の本文抽出ライブラリ、extract-content-javascript を公開しました。
このライブラリを利用することで、JavaScript から本文部分を抽出することが可能になります。
ブックマークレットからの利用サンプル
javascript:(function(){(function(){var%20d=document;var%20s=d.createElement('script');s.charset='UTF-8';s.src='http://github.com/hatena/extract-content-javascript/raw/master/lib/extract-content-all.js?'+(new%20Date).getTime();d.body.appendChild(s);var%20i=setInterval(function(){if(!window.ExtractContentJS)return;clearInterval(i);var%20ex=new%20ExtractContentJS.LayeredExtractor();ex.addHandler(ex.factory.getHandler('Heuristics'));var%20res=ex.extract(d);if(res.isSuccess){d.body.innerHTML=res.content.toString();}else{alert("don't%20get%20content");}},50);})();})(); // このブックマークレットは、IE6では文字の長さの制限上動作しません
コード例
var ex = new ExtractContentJS.LayeredExtractor(); ex.addHandler( ex.factory.getHandler('Heuristics') ); var res = ex.extract(document); if (res.isSuccess) { res.url; // URL string res.title; // title string res.engine; // 抽出に用いたハンドラそのもの res.content; // コンテンツクラスのインスタンス }
ドキュメント等は github のプロジェクトページを参考ください。どうぞご利用ください。
また、JavaScript から本文抽出・おすすめタグを実装しているはてなブックマークFirefox拡張を、これを機会に利用してみてはいかがでしょうか。
はてなブックマークFirefox拡張について
はてなブックマークFirefox拡張は、はてなブックマークをより便利に活用するための、Mozilla Firefoxブラウザ専用の拡張機能です。はてなブックマークに追加したページをサイドバーやツールバーに表示したり、過去のデータから高速に検索・参照したりと、オンライン上に保存したブックマークデータをまるでブラウザの一機能のように活用することができます。
より詳しくは以下のFirefox拡張のガイドページをご覧ください。