ぬこHTML

メモ:
NekoHTMLを使ってみた。HTMLパーサは他にもたくさんあるんだけど、これはJavaネイティブのDom&SAXパーサが使えるのが強み。
…なのはいいんだけど、HTML特殊文字( とか)をちゃんと変換できない…文字化けするんですが。具体的には半角カナの「ツ」になる。エンコードの設定かなー、と思ったけども、別に読み込み文書をSJISにしようがUTF-8にしようが、その他の日本語部分が化けるようなことは無かったので、そういうわけでも無いんだろう。原因突き止めようとも思ったが、とりあえず目的のタグ操作は出来たのでスルー。
しかし、NekoHTMLってApache Projectだと思うんだけど、変わったのかな?今回NekoHTML使ったのは、開発ライブラリをCommonsで固めてるからっていうのも理由のひとつなんだけど。どうせなら全部Apacheで行ってみようかー、的な。
まぁ正直Java6での開発だったなら、NekoHTMLじゃなくてRhino使ってた可能性は高い。