GoogleニュースのむりやりRSS配信で気をつけるべきこと

前回「ned=usとhl=jaは併用可能」だと書いたのだけれども、ちょっとだけ気に入らない点が残ってた。

前回書いた方法でフィードを拾ってみているところ。マウスポインタを当ててるのが 当該サイトのトップに直行するリンクだけれども、これのURLが

http://news.google.com/news
 ?hl=ja&ned=us&scoring=d
 &q=%3F%3F%3F%3F%3F%3F%3F
 &ie=ISO-8859-1

みたいなことになってる。正しくはもちろん

 &q=(UTF-8エンコードした「ナントカ還元水」)
 &ie=utf-8

でないといけない。当然ながら リンクをクリックすると飛んだ先では文字化けしてる。


同じ事をはてなRSSでやったら、フィードの取得時に既に標題が文字化けしてて、ナントカ還元水の影も形も無い。


こうなってしまうのを回避するには、フィードを拾いに行く前にあらかじめニュース検索結果のURLに

 &ie=UTF-8&oe=utf=8

を含めておくこと。こうなっていればよい。これだとはてなRSSでもちゃんと読めた