Scrape Smart (orchestratore AI)

action_scrape_smart · action · Utility · Disponibile · v1.0.0

Descrizione

Orchestratore intelligente di scraping: combina fetch + browser + stealth + vision + LLM extract in UN nodo. Risparmia 5-10 nodi di workflow manuale. Pipeline adaptive 4-stage (heuristic-driven): 1. fetch_simple → HTML quick 2. browser_render se HTML scarno (SPA shell) 3. browser_stealth se anti-bot challenge (Cloudflare/Akamai/DataDome/PerimeterX) 4. vision_extract se contenuto visually-only (canvas/PDF/SVG) Estrazione: Liara LLM riceve HTML + prompt naturale ("estrai prezzo, titolo, immagine") + schema JSON target → ritorna oggetto strutturato. No CSS selectors. Pagination: auto-detect rel="next", aria-label "Next", text "Successivo/Avanti/›", URL pattern page=N → page=N+1. Follow fino a maxPages. Observability: ogni request espone pipelineSteps con stage usato + duration + evidence + errore. Setup BYO: configura FLOWFORGE_BROWSER_ENDPOINT + FLOWFORGE_STEALTH_ENDPOINT (browserless self-host o managed Zeli). LLM = Liara locale porta 3003 default.

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

CampoTipoRequiredDefaultDescrizione
url
URL iniziale
stringsi
https://target.com/products
URL da scrappare.
prompt
Cosa estrarre (italiano)
string (multiline)si
Estrai dal listing: per ogni prodotto titolo, prezzo, link, immagine principale, disponibilita\` stock.
Descrivi i dati in linguaggio naturale.
schemaJson
Schema JSON target (opzionale)
string (multiline)no
{"products": [{"title": "string", "price": "number", "link": "string"}]}
Shape attesa. Vuoto = oggetto libero.
forceStage
Forza stage
enum
autofetch_simplebrowser_renderbrowser_stealthvision_extract
noautoauto = pipeline upgrade adaptive (RACCOMANDATO). fetch_simple = solo HTTP GET. browser_render = headless per SPA. browser_stealth = anti-bot enterprise. vision_extract = canvas/PDF visually-only.
maxPages
Max pages (pagination)
numberno1Pagine totali da seguire via pagination auto-detect. Default 1 (no pagination).
pageDelayMs
Delay tra pagine (ms)
numberno1000Pausa human-like tra page fetch. Default 1s.
timeoutMs
Timeout per stage (ms)
numberno30000Max per ogni stage. Default 30s. Max 120s.
userAgent
User-Agent (fetch_simple)
stringnoFlowForge-SmartScrape/1.0UA per fetch HTTP plain. Browser usano fingerprint propri.
browserEndpoint
Browser endpoint (BYO)
stringno
env FLOWFORGE_BROWSER_ENDPOINT
Server Playwright. Vuoto = no upgrade a stage 2.
browserApiKey
Browser API key
string (encrypted)noBearer browser endpoint.
stealthEndpoint
Stealth endpoint (BYO)
stringno
env FLOWFORGE_STEALTH_ENDPOINT
Server stealth (puppeteer-extra). Vuoto = no upgrade a stage 3.
stealthApiKey
Stealth API key
string (encrypted)noBearer stealth endpoint.
liaraEndpoint
Liara endpoint
stringnohttp://localhost:3003/v1/chat/completionsLLM extract endpoint. Default Liara locale.
liaraApiKey
Liara API key
string (encrypted)noBearer Liara.
liaraModel
Liara model
stringnoliara-distilledModel ID LLM.

⬆️ Output del nodo

Campi disponibili nei nodi successivi via $node.<alias>.json.<field>:

  • extracted
  • pages
  • pagesScraped
  • pagesSuccessful
  • paginationDetected
  • finalStages

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_scrape_smart-1",
  "defId": "action_scrape_smart",
  "label": "Scrape Smart (orchestratore AI)",
  "config": {
    "url": "https://target.com/products",
    "prompt": "Estrai dal listing: per ogni prodotto titolo, prezzo, link, immagine principale, disponibilita\\` stock.",
    "forceStage": "auto",
    "maxPages": 1,
    "pageDelayMs": 1000,
    "timeoutMs": 30000,
    "userAgent": "FlowForge-SmartScrape/1.0",
    "liaraEndpoint": "http://localhost:3003/v1/chat/completions",
    "liaraModel": "liara-distilled"
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Scrape Smart (orchestratore AI)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratisSfoglia tutti i nodi