Descrizione
Estrae dati strutturati da una pagina/frammento HTML in JavaScript puro (zero dipendenze) — il nodo HTML Extract di n8n senza dover usare un nodo Code con cheerio. Sei modalità da dropdown: (1) TESTO — rimuove tutti i tag (e i blocchi script/style) restituendo il testo leggibile, con gli a-capo preservati nei punti giusti (paragrafi, liste, heading) e le entità HTML decodificate (& → &): per indicizzare, riassumere via AI, fare analisi del contenuto; (2) LINK — tutti i collegamenti come { href, text } (mappa i link di una pagina, estrai gli URL di un risultato di ricerca, trova i download); (3) IMMAGINI — tutti gli src delle immagini; (4) TITOLO — il contenuto del tag <title>; (5) META — tutti i meta tag come oggetto { name/property: content }, inclusi gli Open Graph (og:title, og:image, description) per anteprime social, SEO, schede prodotto; (6) HEADING — tutti i titoli H1-H6 con il loro livello, per ricostruire la struttura/sommario di un documento. Le entità HTML vengono sempre decodificate e i blocchi script/style esclusi dal testo. Output a seconda della modalità: { result } (testo/titolo) o { result, count } (link/immagini/meta/heading). Use case: estrai il testo pulito di un articolo prima di passarlo a un nodo AI; raccogli tutti i link di una pagina indice per il crawling; leggi i meta Open Graph per generare un'anteprima; ricava il sommario dai heading di una pagina di documentazione.
