Agent: HTML Extractor (AI)

agent_html_extractor · ai · Utility · Disponibile · v1.1.0

Descrizione

Estrai dati strutturati da HTML descrivendo in linguaggio naturale cosa vuoi (NO selettori CSS). L'AI legge il DOM + l'instruction → ritorna JSON conforme allo schema specificato. Top 2026: scraping AI-powered che resiste a cambi di layout (selettori CSS si rompono, l'AI no).

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

CampoTipoRequiredDefaultDescrizione
instruction
Istruzione (cosa estrarre)
string (multiline)si
es. "Titolo articolo, autore, data pubblicazione (formato ISO), lista commenti con nome+testo, prezzo se presente."
Descrivi in italiano (o inglese) quali campi vuoi estrarre dal HTML. L'AI interpreta + cerca nel DOM senza selettori CSS.
schema
JSON Schema output
codesi
{ "title": "string", "author": "string", "publishedAt": "string (ISO date)", "price": "number|null", "comments": [{ "name": "string", "text": "string" }] }
Schema atteso dell'output. Tipi: string, number, boolean, array. Usa "|null" per opzionali. L'AI rispetta lo schema, set null se campo non trovato.
maxHtmlChars
Max HTML char in input
numberno20000Limita HTML inviato all'AI per controllare costo token. Default 20K (~5K token). Min 1K, max 100K.
provider
LLM provider (opzionale, override)
enum
liaraanthropicopenaigeminimistralgroqopenrouterollama
noVuoto = usa il default da Settings → AI Providers. Selezionalo SOLO per override locale (es. account diverso per questo nodo).
apiKey
API key (override)
string (encrypted)noVuoto = usa la chiave di Settings → AI Providers. Liara è free-tier (nessuna key necessaria).
model
Modello (override)
stringno
es. claude-sonnet-4-5
Vuoto = default del provider. Es. claude-sonnet-4-5, gpt-4o, gemini-2.0-flash, nha-v1.
baseUrl
Base URL (per Ollama / self-hosted)
stringno
http://localhost:11434
extraContext
Contesto aggiuntivo (opzionale)
expressionno
Esempi di output desiderato, glossario di dominio, regole speciali...
Testo aggiunto al prompt PRIMA dell'input. Utile per "few-shot examples" o vincoli che il system prompt non copre.

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-agent_html_extractor-1",
  "defId": "agent_html_extractor",
  "label": "Agent: HTML Extractor (AI)",
  "config": {
    "instruction": "es. \"Titolo articolo, autore, data pubblicazione (formato ISO), lista commenti con nome+testo, prezzo se presente.\"",
    "schema": "{\n  \"title\": \"string\",\n  \"author\": \"string\",\n  \"publishedAt\": \"string (ISO date)\",\n  \"price\": \"number|null\",\n  \"comments\": [{ \"name\": \"string\", \"text\": \"string\" }]\n}",
    "maxHtmlChars": 20000
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Agent: HTML Extractor (AI)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratisSfoglia tutti i nodi