Tuesday, January 09, 2007

En busca de parseadores HTML

Estoy en busca de parseadores HTML para mi spider implementado en Jade,
encontré este HTMLParser, el cual es simple y rápido.

Ahora es más simple obtener el texto de una pagina web y la lista de enlace de esta misma.

Ejemplo:
String URL = "http://htmlparser.sourceforge.net";
StringExtractor se = new StringExtractor (URL);
String contents = se.extractStrings(true);
System.out.println(contents);

2 comments:

Unknown said...

Hola victor
Esta bien ese trozo de codigo, pero no aparece la clase StringExtractor en los javadocs. Estas seguro que eso funciona? Que "imports" has hecho?

Jorge Enrique Bogota said...

Buenas tardes,

estoy aprendiendo JADE y tambien quiero hacer un spider, pero soy malito programando y no entiendo facilmente la documentacion. tu me podrias indicar donde buscar informacion o como hacer el spider.

gracias de antemano