\nが\sにマッチする件、当たり前か

英語圏の人が作ってるんだものなぁ。もともと欧文みたいに分かち書きのある言語のテキストを扱う場合は改行を単語区切りとして扱ったほうが総じて便利なんだろう。特に $/ = undef; とかして或る程度分量のあるテキストを一気読みした場合とか。

ただ欧文もまぁそれはそれでハイフンの後ろの\nなんかがややこしそうだ。前処理で s/-\n//g; しておくとかでは、単語分割前からもともと付いてるダッシュまで削ってしまいそうでダメだし。 s/-\n//; すべきか s/-\n/-/; すべきかは、ちゃんとやろうと思ったらTeXみたいにその都度ハイフネーションテーブルか何か参照してやらないと判定がつかない。どうしたものやら。