Vision Extract (Qwen2.5-VL)

action_vision_extract · action · Utility · Disponibile · v1.0.0

Descrizione

Estrae dati strutturati JSON da uno SCREENSHOT di pagina web usando vision LLM (Qwen2.5-VL-7B self-hosted Zeli, porta 5004). Resiliente a redesign sito: non usa CSS selectors. "Vede" la pagina come un umano e estrae i dati che gli chiedi in linguaggio naturale. Use case killer: scraping di siti SPA che cambiano DOM ogni release, monitoraggio competitor che modifica layout, estrazione tabelle da PDF screenshot, reverse-engineering form UI senza inspector. Pipeline: screenshot → prompt + schema JSON target → vision LLM → parse JSON (fence/trailing-commas tollerati) → schema validation → output strutturato. Retry: exponential backoff + jitter su 5xx (3 attempts). Cache: hash(image+prompt) → Redis TTL 24h (se Redis configurato). Tipico pairing: action_browser_stealth → action_vision_extract (chain).

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

CampoTipoRequiredDefaultDescrizione
screenshotBase64
Screenshot base64
string (multiline)si
{{$.browser_stealth.screenshotBase64}}
Output base64 di action_browser_render o action_browser_stealth. Usa output binding.
prompt
Prompt naturale
string (multiline)si
Estrai dal product page: titolo prodotto, prezzo (numero + valuta), immagine principale URL, descrizione breve, stock disponibile (yes/no).
Descrivi in italiano cosa estrarre. La vision LLM capisce contesto visivo.
schemaJson
Schema JSON target (opzionale)
string (multiline)no
{"title": "string", "price": {"amount": "number", "currency": "string"}, "imageUrl": "string", "inStock": "boolean"}
JSON template della shape attesa. Se vuoto, ritorna oggetto libero.
endpoint
Vision endpoint
stringnohttp://localhost:5004/v1/chat/completionsDefault = Qwen2.5-VL-7B locale Zeli. Cambia per altro vision LLM OpenAI-compatible.
apiKey
API Key (se richiesta)
string (encrypted)noBearer token vision endpoint. Vuoto per loopback Zeli.
model
Model name
stringnoQwen2.5-VL-7B-InstructModel ID. Default Qwen2.5-VL-7B. Altri vision: gpt-4o, claude-3-5-sonnet-vision, gemini-pro-vision.
maxTokens
Max tokens output
numberno2048Max token risposta. Default 2048, max 8192.
timeoutMs
Timeout (ms)
numberno60000Vision e\` lento. Default 60s. Max 180s.
mimeType
MIME type screenshot
enum
image/pngimage/jpegimage/webp
noimage/pngFormato base64 dello screenshot.
failOnInvalid
Fail on invalid output
booleannofalseSe ON: throw quando vision non ritorna JSON valido o schema mismatch. Se OFF: ritorna parseError/schemaValidationError senza throw.

⬆️ Output del nodo

Campi disponibili nei nodi successivi via $node.<alias>.json.<field>:

  • extracted
  • rawResponse
  • modelUsed
  • latencyMs
  • attempts
  • parseError
  • schemaValidationError

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_vision_extract-1",
  "defId": "action_vision_extract",
  "label": "Vision Extract (Qwen2.5-VL)",
  "config": {
    "screenshotBase64": "{{$.browser_stealth.screenshotBase64}}",
    "prompt": "Estrai dal product page: titolo prodotto, prezzo (numero + valuta), immagine principale URL, descrizione breve, stock disponibile (yes/no).",
    "endpoint": "http://localhost:5004/v1/chat/completions",
    "model": "Qwen2.5-VL-7B-Instruct",
    "maxTokens": 2048,
    "timeoutMs": 60000,
    "mimeType": "image/png",
    "failOnInvalid": false
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Vision Extract (Qwen2.5-VL)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratisSfoglia tutti i nodi