encontré este HTMLParser, el cual es simple y rápido.
Ahora es más simple obtener el texto de una pagina web y la lista de enlace de esta misma.
Ejemplo:
String URL = "http://htmlparser.sourceforge.net";
StringExtractor se = new StringExtractor (URL);
String contents = se.extractStrings(true);
System.out.println(contents);