GoogleニュースのむりやりRSS配信で気をつけるべきこと
前回「ned=usとhl=jaは併用可能」だと書いたのだけれども、ちょっとだけ気に入らない点が残ってた。
前回書いた方法でフィードを拾ってみているところ。マウスポインタを当ててるのが 当該サイトのトップに直行するリンクだけれども、これのURLが
http://news.google.com/news ?hl=ja&ned=us&scoring=d &q=%3F%3F%3F%3F%3F%3F%3F &ie=ISO-8859-1
みたいなことになってる。正しくはもちろん
&q=(UTF-8でエンコードした「ナントカ還元水」) &ie=utf-8
でないといけない。当然ながら リンクをクリックすると飛んだ先では文字化けしてる。
同じ事をはてなRSSでやったら、フィードの取得時に既に標題が文字化けしてて、ナントカ還元水の影も形も無い。
こうなってしまうのを回避するには、フィードを拾いに行く前にあらかじめニュース検索結果のURLに
&ie=UTF-8&oe=utf=8