Recursive Spider (in-process)

action_recursive_spider · action · Utility · Disponibile · v1.0.0

Descrizione

Crawler ricorsivo in-process per discovery URL e mirror sito SENZA hostare un servizio esterno (a differenza di action_crawler_distributed BYO). Esegue una BFS bounded sui seed con dedup Set, depth limit, max-pages hard cap, concurrency worker pool, rate-limit per-host (token bucket) e rispetto robots.txt cache-once-per-host. Output per-pagina: HTML completo (solo text/html), links extracted same-origin filtrabili via allow/deny, status HTTP, content-type, bytes, durata, error. Use case: (1) mirror del proprio sito + asset (combinato con action_asset_batch_download), (2) audit SEO interno (broken links + orphan pages), (3) discovery URL per RAG/embedding internal docs, (4) competitor catalog monitor (USA SOLO su siti propri o con autorizzazione). Safety: hard cap 5000 pagine/run, SSRF guard, robots.txt rispettato di default, identifica come "FlowForge-Spider/1.0" RFC-compliant (override consentito).

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

Campo	Tipo	Required	Default	Descrizione
`seeds` Seed URLs	`string`	si	— https://example.com/, https://example.com/blog	Lista URL di partenza separati da virgola o newline. Devono essere http(s)://. Lo spider farà BFS partendo da questi.
`maxDepth` Profondità massima	`number`	no	`3`	Quanti livelli di link seguire dai seed. 0 = solo i seed. 3 = seed → click → click → click. Max 50.
`maxPages` Pagine massime (hard cap)	`number`	no	`100`	Stop al raggiungimento. Le pagine non visitate restano in `frontier` (output) per resume futuro. Max 5000.
`sameOriginOnly` Solo same-origin	`boolean`	no	`true`	Se ON, i link verso altri host vengono ignorati. Combinare con allowDomains per multi-host controllato.
`allowDomains` Domini consentiti (whitelist)	`string`	no	— example.com, sub.example.com	Override di sameOriginOnly: se valorizzato, accetta link verso questi host (anche sotto-domini). Vuoto = solo origin del seed.
`denyPatterns` Pattern URL da escludere (regex)	`string`	no	— /login, \.pdf$, /admin/	Regex valutate sull'URL assoluto. Separati da virgola o newline. Es. "/admin/, /api/, \.pdf$".
`concurrency` Concorrenza (fetch in parallelo)	`number`	no	`4`	Worker simultanei. 1=seriale, 4=default sano per single tenant, max 16. Più alto = più veloce ma più aggressivo sul server target.
`perHostMinDelayMs` Delay minimo per host (ms)	`number`	no	`500`	Token bucket per-host: garantisce >= N ms fra due request allo stesso host. 0 = nessun rate limit. Default 500ms = ~2 req/sec.
`respectRobots` Rispetta robots.txt	`boolean`	no	`true`	Fetch /robots.txt una volta per host, applica Disallow + Crawl-Delay. Spegnere SOLO se hai diritti sul target.
`timeoutMs` Timeout per pagina (ms)	`number`	no	`20000`	Hard timeout sulla singola fetch. Pagine timeout vanno nei result con error="timeout..." e link=[].
`userAgent` User-Agent	`string`	no	— FlowForge-Spider/1.0 (+https://flowforge.automazionezeli.com)	User-Agent dichiarato. Default RFC-compliant. Override SOLO per propri siti che bloccano UA generici.

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_recursive_spider-1",
  "defId": "action_recursive_spider",
  "label": "Recursive Spider (in-process)",
  "config": {
    "seeds": "https://example.com/, https://example.com/blog",
    "maxDepth": 3,
    "maxPages": 100,
    "sameOriginOnly": true,
    "concurrency": 4,
    "perHostMinDelayMs": 500,
    "respectRobots": true,
    "timeoutMs": 20000
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Recursive Spider (in-process)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratis Sfoglia tutti i nodi