Scrape Smart (orchestratore AI)

action_scrape_smart · action · Utility · Disponibile · v1.0.0

Descrizione

Orchestratore intelligente di scraping: combina fetch + browser + stealth + vision + LLM extract in UN nodo. Risparmia 5-10 nodi di workflow manuale. Pipeline adaptive 4-stage (heuristic-driven): 1. fetch_simple → HTML quick 2. browser_render se HTML scarno (SPA shell) 3. browser_stealth se anti-bot challenge (Cloudflare/Akamai/DataDome/PerimeterX) 4. vision_extract se contenuto visually-only (canvas/PDF/SVG) Estrazione: un LLM OpenAI-compatibile (default Liara locale, ma puoi puntarlo a QUALSIASI endpoint /v1/chat/completions via i campi sotto) riceve HTML + prompt naturale ("estrai prezzo, titolo, immagine") + schema JSON target → ritorna oggetto strutturato. No CSS selectors. Pagination: auto-detect rel="next", aria-label "Next", text "Successivo/Avanti/›", URL pattern page=N → page=N+1. Follow fino a maxPages. Observability: ogni request espone pipelineSteps con stage usato + duration + evidence + errore. Setup BYO: configura FLOWFORGE_BROWSER_ENDPOINT + FLOWFORGE_STEALTH_ENDPOINT (browserless self-host o managed Zeli). LLM = qualsiasi endpoint OpenAI-compatibile (default Liara locale :3003); override endpoint/key/model nei campi. Use case: (1) scraping listing prodotti e-commerce con pagination + extract JSON strutturato, (2) ingest dati pubblici (registri/anagrafiche) con fallback adaptive, (3) monitoring concorrenti con AI extract di prezzi e stock, (4) onboarding cliente B2B che chiede "scarica i miei dati da X" senza scrivere CSS selectors.

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

Campo	Tipo	Required	Default	Descrizione
`url` URL iniziale	`string`	si	— https://target.com/products	URL da scrappare.
`prompt` Cosa estrarre (italiano)	`string (multiline)`	si	— Estrai dal listing: per ogni prodotto titolo, prezzo, link, immagine principale, disponibilita\` stock.	Descrivi i dati in linguaggio naturale.
`schemaJson` Schema JSON target (opzionale)	`string (multiline)`	no	— {"products": [{"title": "string", "price": "number", "link": "string"}]}	Shape attesa. Vuoto = oggetto libero.
`forceStage` Forza stage	`enum` `autofetch_simplebrowser_renderbrowser_stealthvision_extract`	no	`auto`	auto = pipeline upgrade adaptive (RACCOMANDATO). fetch_simple = solo HTTP GET. browser_render = headless per SPA. browser_stealth = anti-bot enterprise. vision_extract = canvas/PDF visually-only.
`maxPages` Max pages (pagination)	`number`	no	`1`	Pagine totali da seguire via pagination auto-detect. Default 1 (no pagination).
`pageDelayMs` Delay tra pagine (ms)	`number`	no	`1000`	Pausa human-like tra page fetch. Default 1s.
`timeoutMs` Timeout per stage (ms)	`number`	no	`30000`	Max per ogni stage. Default 30s. Max 120s.
`userAgent` User-Agent (fetch_simple)	`string`	no	`FlowForge-SmartScrape/1.0`	UA per fetch HTTP plain. Browser usano fingerprint propri.
`browserEndpoint` Browser endpoint (BYO)	`string`	no	— env FLOWFORGE_BROWSER_ENDPOINT	Server Playwright. Vuoto = no upgrade a stage 2.
`browserApiKey` Browser API key	`string (encrypted)`	no	—	Bearer browser endpoint.
`stealthEndpoint` Stealth endpoint (BYO)	`string`	no	— env FLOWFORGE_STEALTH_ENDPOINT	Server stealth (puppeteer-extra). Vuoto = no upgrade a stage 3.
`stealthApiKey` Stealth API key	`string (encrypted)`	no	—	Bearer stealth endpoint.
`liaraEndpoint` LLM endpoint (OpenAI-compat, override)	`string`	no	—	Vuoto = Liara via gateway FlowForge (default, metered sulla quota). Compila SOLO per un provider OpenAI-compatibile tuo (OpenAI, Groq, OpenRouter, vLLM, Ollama…).
`liaraApiKey` LLM API key (Bearer, override)	`string (encrypted)`	no	—	Bearer token dell'endpoint custom. Vuoto = license del workspace (gateway Liara).
`liaraModel` LLM model (override)	`string`	no	—	Vuoto = modello di default del gateway Liara. Per provider custom usa il loro model ID (es. gpt-4o-mini, llama-3.1-70b).

⬆️ Output del nodo

Campi disponibili nei nodi successivi via $node.<alias>.json.<field>:

extracted
pages
pagesScraped
pagesSuccessful
paginationDetected
finalStages

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_scrape_smart-1",
  "defId": "action_scrape_smart",
  "label": "Scrape Smart (orchestratore AI)",
  "config": {
    "url": "https://target.com/products",
    "prompt": "Estrai dal listing: per ogni prodotto titolo, prezzo, link, immagine principale, disponibilita\\` stock.",
    "forceStage": "auto",
    "maxPages": 1,
    "pageDelayMs": 1000,
    "timeoutMs": 30000,
    "userAgent": "FlowForge-SmartScrape/1.0"
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Scrape Smart (orchestratore AI)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratis Sfoglia tutti i nodi