2009/09/02 12:52 | 웹개발

괜찮은 자바용 HTML Parser가 있어서 소개합니다.
이름은 Jericho HTML Parser(http://jerichohtml.sourceforge.net/docs/index.html)입니다.
전에 HTML 파서가 필요했을 때 처음 사용했던 파서가 잘 동작하지 않아 다른 것을 찾다가 알게된 파서인데, 일단 파싱을 꽤 정확하게 해 줘서 채택해 사용했었습니다. 즉, 소위 말하는 malformed HTML도 잘 처리해줘서 그 당시에 사용했었는데, 최근에 다시 파서가 필요해서 검색을 통해 홈을 찾아가 보니 최근까지 업데이트 되면서 유지되고 있더군요.

여담입니다만, 잘 아시는 것처럼 비교적 큰 규모의 오픈 소스 프로젝트가 아니면 계속 관리되지 않는 경우가 많습니다. 그래서, 생각 없이 오픈 소스 라이브러리를 도입했다가 해당 라이브러리에 버그가 있음에도 계속적인 업데이트가 이루어지지 않는 문제로 낭패를 보는 경우들이 있습니다. 이런 경우 라이브러리를 바꾸거나 직접 소스 레벨에서 수정해야하는 부담을 안게 되죠. 그런데 이 라이브러리는 성능도 괜찮은데다 최근까지 계속 적으로 업데이트가 되고 있습니다.

자바용 HTML 파서를 찾아보신 분들은 아시겠지만 딱히 맘에 드는 걸 찾기 힘들다는 걸 아실 겁니다. 그런면에서 볼 때 이 라이브러리는 더욱 발군인거 같습니다.
HTML 파서가 필요하신 분들은 한 번쯤 검토해 볼만한 라이브러리입니다.

2009/09/02 12:52 2009/09/02 12:52