Vision Extract (Qwen2.5-VL)

action_vision_extract · action · Utility · Disponibile · v1.0.0

Descrizione

Estrae dati strutturati JSON da uno SCREENSHOT di pagina web usando vision LLM (Liara Qwen3-VL multimodale via gateway FlowForge, metered; endpoint OpenAI-compatible custom come override). Resiliente a redesign sito: non usa CSS selectors. "Vede" la pagina come un umano e estrae i dati che gli chiedi in linguaggio naturale. Use case killer: scraping di siti SPA che cambiano DOM ogni release, monitoraggio competitor che modifica layout, estrazione tabelle da PDF screenshot, reverse-engineering form UI senza inspector. Pipeline: screenshot → prompt + schema JSON target → vision LLM → parse JSON (fence/trailing-commas tollerati) → schema validation → output strutturato. Retry: exponential backoff + jitter su 5xx (3 attempts). Cache: hash(image+prompt) → Redis TTL 24h (se Redis configurato). Tipico pairing: action_browser_stealth → action_vision_extract (chain).

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

Campo	Tipo	Required	Default	Descrizione
`screenshotBase64` Screenshot base64	`string (multiline)`	si	— {{$.browser_stealth.screenshotBase64}}	Output base64 di action_browser_render o action_browser_stealth. Usa output binding.
`prompt` Prompt naturale	`string (multiline)`	si	— Estrai dal product page: titolo prodotto, prezzo (numero + valuta), immagine principale URL, descrizione breve, stock disponibile (yes/no).	Descrivi in italiano cosa estrarre. La vision LLM capisce contesto visivo.
`schemaJson` Schema JSON target (opzionale)	`string (multiline)`	no	— {"title": "string", "price": {"amount": "number", "currency": "string"}, "imageUrl": "string", "inStock": "boolean"}	JSON template della shape attesa. Se vuoto, ritorna oggetto libero.
`endpoint` Vision endpoint (override)	`string`	no	—	Vuoto = Liara vision via gateway FlowForge (Qwen3-VL multimodale, metered sulla quota). Compila SOLO per un vision LLM OpenAI-compatible tuo.
`apiKey` API Key (override)	`string (encrypted)`	no	—	Bearer token dell'endpoint custom. Vuoto = license del workspace (gateway Liara).
`model` Model name (override)	`string`	no	—	Vuoto = modello di default del gateway (Qwen3-VL). Altri vision: gpt-4o, claude-sonnet-4-5, gemini-2.0-flash.
`maxTokens` Max tokens output	`number`	no	`2048`	Max token risposta. Default 2048, max 8192.
`timeoutMs` Timeout (ms)	`number`	no	`60000`	Vision e\` lento. Default 60s. Max 180s.
`mimeType` MIME type screenshot	`enum` `image/pngimage/jpegimage/webp`	no	`image/png`	Formato base64 dello screenshot.
`failOnInvalid` Fail on invalid output	`boolean`	no	`false`	Se ON: throw quando vision non ritorna JSON valido o schema mismatch. Se OFF: ritorna parseError/schemaValidationError senza throw.

⬆️ Output del nodo

Campi disponibili nei nodi successivi via $node.<alias>.json.<field>:

extracted
rawResponse
modelUsed
latencyMs
attempts
parseError
schemaValidationError
_llm

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_vision_extract-1",
  "defId": "action_vision_extract",
  "label": "Vision Extract (Qwen2.5-VL)",
  "config": {
    "screenshotBase64": "{{$.browser_stealth.screenshotBase64}}",
    "prompt": "Estrai dal product page: titolo prodotto, prezzo (numero + valuta), immagine principale URL, descrizione breve, stock disponibile (yes/no).",
    "maxTokens": 2048,
    "timeoutMs": 60000,
    "mimeType": "image/png",
    "failOnInvalid": false
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Vision Extract (Qwen2.5-VL)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratis Sfoglia tutti i nodi