Tuesday, January 09, 2007

En busca de parseadores HTML

Estoy en busca de parseadores HTML para mi spider implementado en Jade,
encontré este HTMLParser, el cual es simple y rápido.

Ahora es más simple obtener el texto de una pagina web y la lista de enlace de esta misma.

Ejemplo:
String URL = "http://htmlparser.sourceforge.net";
StringExtractor se = new StringExtractor (URL);
String contents = se.extractStrings(true);
System.out.println(contents);

Eclipse and Equinox

Este artículo muestra de manera aérea, como funciona la arquitectura de eclipse