jsoup - Visão geral
jsoup é uma biblioteca baseada em Java para trabalhar com conteúdo baseado em HTML. Ele fornece uma API muito conveniente para extrair e manipular dados, usando o melhor dos métodos DOM, CSS e jquery. Ele implementa a especificação WHATWG HTML5 e analisa HTML para o mesmo DOM que os navegadores modernos fazem.
jsoup libary implementa a especificação WHATWG HTML5 e analisa um conteúdo HTML para o mesmo DOM dos navegadores modernos.
A biblioteca jsonp fornece as seguintes funcionalidades.
Multiple Read Support - Ele lê e analisa HTML usando URL, arquivo ou string.
CSS Selectors - Ele pode encontrar e extrair dados, usando travessia de DOM ou seletores CSS.
DOM Manipulation - Pode manipular os elementos, atributos e texto HTML.
Prevent XSS attacks - Ele pode limpar o conteúdo enviado pelo usuário em uma determinada lista branca segura, para evitar ataques XSS.
Tidy - Produz HTML organizado.
Handles invalid data- jsoup pode lidar com tags não fechadas, tags implícitas e pode criar a estrutura do documento de forma confiável.