Agent: HTML Extractor (AI)

agent_html_extractor · ai · Utility · Available · v1.1.0

Description

Estrai dati strutturati da HTML descrivendo in linguaggio naturale cosa vuoi (NO selettori CSS). L'AI legge il DOM + l'instruction → ritorna JSON conforme allo schema specificato. Top 2026: scraping AI-powered che resiste a cambi di layout (selettori CSS si rompono, l'AI no).

⚙️ Configuration parameters

Fields shown in the editor when configuring the node. Generated directly from the NodeDefconfigFields.

FieldTypeRequiredDefaultDescription
instruction
Istruzione (cosa estrarre)
string (multiline)yes
es. "Titolo articolo, autore, data pubblicazione (formato ISO), lista commenti con nome+testo, prezzo se presente."
Descrivi in italiano (o inglese) quali campi vuoi estrarre dal HTML. L'AI interpreta + cerca nel DOM senza selettori CSS.
schema
JSON Schema output
codeyes
{ "title": "string", "author": "string", "publishedAt": "string (ISO date)", "price": "number|null", "comments": [{ "name": "string", "text": "string" }] }
Schema atteso dell'output. Tipi: string, number, boolean, array. Usa "|null" per opzionali. L'AI rispetta lo schema, set null se campo non trovato.
maxHtmlChars
Max HTML char in input
numberno20000Limita HTML inviato all'AI per controllare costo token. Default 20K (~5K token). Min 1K, max 100K.
provider
LLM provider (opzionale, override)
enum
liaraanthropicopenaigeminimistralgroqopenrouterollama
noVuoto = usa il default da Settings → AI Providers. Selezionalo SOLO per override locale (es. account diverso per questo nodo).
apiKey
API key (override)
string (encrypted)noVuoto = usa la chiave di Settings → AI Providers. Liara è free-tier (nessuna key necessaria).
model
Modello (override)
stringno
es. claude-sonnet-4-5
Vuoto = default del provider. Es. claude-sonnet-4-5, gpt-4o, gemini-2.0-flash, nha-v1.
baseUrl
Base URL (per Ollama / self-hosted)
stringno
http://localhost:11434
extraContext
Contesto aggiuntivo (opzionale)
expressionno
Esempi di output desiderato, glossario di dominio, regole speciali...
Testo aggiunto al prompt PRIMA dell'input. Utile per "few-shot examples" o vincoli che il system prompt non copre.

💡 Configuration example

JSON snippet of the node as it appears in the workflow. Values are derived fromdefaultValue and from required parameters.

{
  "id": "node-agent_html_extractor-1",
  "defId": "agent_html_extractor",
  "label": "Agent: HTML Extractor (AI)",
  "config": {
    "instruction": "es. \"Titolo articolo, autore, data pubblicazione (formato ISO), lista commenti con nome+testo, prezzo se presente.\"",
    "schema": "{\n  \"title\": \"string\",\n  \"author\": \"string\",\n  \"publishedAt\": \"string (ISO date)\",\n  \"price\": \"number|null\",\n  \"comments\": [{ \"name\": \"string\", \"text\": \"string\" }]\n}",
    "maxHtmlChars": 20000
  }
}

🔗 Related nodes in the same category

Ready to use Agent: HTML Extractor (AI)?

Available now on all FlowForge plans. Try it free without a credit card.

Start freeBrowse all nodes