« 主にqmailからpostfixに乗り換えてきたときの注意書き | ホーム | また3年も我慢しなきゃいけないの? »

2006年9月 8日

十得ナイフに加えておきたいHTMLパーザ

どこぞのへっぽこcrawlerがへっぽこであるという話を小耳にはさんだもので。ええ。どこぞとしか言えませんけども。

http://www.satoshii.org/markup/notes/2001/12

何でも、そこのwebbotは取り込んだhtmlのリンクに

<a href="foo.cgi?a=1&amp;b=2">ほげほげ~</a>

とか書いてあると、そのまま "foo.cgi?a=1&amp;b=2" 宛てにGETリクエストを送ってしまうんだそうです。実際こう書いてあった場合のhtmlのparsingはどう振舞ったらいいのか自信がなかったので調べてたっす。ふむふむ。ふーむふむ。

結局、HTMLパーザなどの要素実装に関しては、下手に自分(たち)でコードを書きすぎると余計な労力を生んでしまうという局面にもはや突入しているということですね。信頼のおけるライブラリをどれか知っている、使いこなせていることが勝負の鍵ですな。まあ、あの会社だったらそんなこと気づきもせずに盲滅法で兵隊使ってデスマーチ実装でやってそうだからなあ。いやいや、どことは申せませんが。

トラックバック(0)

トラックバックURL: http://foursics.jp/cgi-bin/mt/mt-tb.cgi/21

コメント(2)

へぽこへぽこ!!

へぽこへぽこ!!

コメントする