Recursive Spider (in-process)

action_recursive_spider · action · Utility · Disponibile · v1.0.0

Descrizione

Crawler ricorsivo in-process per discovery URL e mirror sito SENZA hostare un servizio esterno (a differenza di action_crawler_distributed BYO). Esegue una BFS bounded sui seed con dedup Set, depth limit, max-pages hard cap, concurrency worker pool, rate-limit per-host (token bucket) e rispetto robots.txt cache-once-per-host. Output per-pagina: HTML completo (solo text/html), links extracted same-origin filtrabili via allow/deny, status HTTP, content-type, bytes, durata, error. Use case: (1) mirror del proprio sito + asset (combinato con action_asset_batch_download), (2) audit SEO interno (broken links + orphan pages), (3) discovery URL per RAG/embedding internal docs, (4) competitor catalog monitor (USA SOLO su siti propri o con autorizzazione). Safety: hard cap 5000 pagine/run, SSRF guard, robots.txt rispettato di default, identifica come "FlowForge-Spider/1.0" RFC-compliant (override consentito).

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

CampoTipoRequiredDefaultDescrizione
seeds
Seed URLs
stringsi
https://example.com/, https://example.com/blog
Lista URL di partenza separati da virgola o newline. Devono essere http(s)://. Lo spider farà BFS partendo da questi.
maxDepth
Profondità massima
numberno3Quanti livelli di link seguire dai seed. 0 = solo i seed. 3 = seed → click → click → click. Max 50.
maxPages
Pagine massime (hard cap)
numberno100Stop al raggiungimento. Le pagine non visitate restano in `frontier` (output) per resume futuro. Max 5000.
sameOriginOnly
Solo same-origin
booleannotrueSe ON, i link verso altri host vengono ignorati. Combinare con allowDomains per multi-host controllato.
allowDomains
Domini consentiti (whitelist)
stringno
example.com, sub.example.com
Override di sameOriginOnly: se valorizzato, accetta link verso questi host (anche sotto-domini). Vuoto = solo origin del seed.
denyPatterns
Pattern URL da escludere (regex)
stringno
/login, \.pdf$, /admin/
Regex valutate sull'URL assoluto. Separati da virgola o newline. Es. "/admin/, /api/, \.pdf$".
concurrency
Concorrenza (fetch in parallelo)
numberno4Worker simultanei. 1=seriale, 4=default sano per single tenant, max 16. Più alto = più veloce ma più aggressivo sul server target.
perHostMinDelayMs
Delay minimo per host (ms)
numberno500Token bucket per-host: garantisce >= N ms fra due request allo stesso host. 0 = nessun rate limit. Default 500ms = ~2 req/sec.
respectRobots
Rispetta robots.txt
booleannotrueFetch /robots.txt una volta per host, applica Disallow + Crawl-Delay. Spegnere SOLO se hai diritti sul target.
timeoutMs
Timeout per pagina (ms)
numberno20000Hard timeout sulla singola fetch. Pagine timeout vanno nei result con error="timeout..." e link=[].
userAgent
User-Agent
stringno
FlowForge-Spider/1.0 (+https://flowforge.automazionezeli.com)
User-Agent dichiarato. Default RFC-compliant. Override SOLO per propri siti che bloccano UA generici.

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_recursive_spider-1",
  "defId": "action_recursive_spider",
  "label": "Recursive Spider (in-process)",
  "config": {
    "seeds": "https://example.com/, https://example.com/blog",
    "maxDepth": 3,
    "maxPages": 100,
    "sameOriginOnly": true,
    "concurrency": 4,
    "perHostMinDelayMs": 500,
    "respectRobots": true,
    "timeoutMs": 20000
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Recursive Spider (in-process)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratisSfoglia tutti i nodi