Descrizione
Crawler ricorsivo in-process per discovery URL e mirror sito SENZA hostare un servizio esterno (a differenza di action_crawler_distributed BYO). Esegue una BFS bounded sui seed con dedup Set, depth limit, max-pages hard cap, concurrency worker pool, rate-limit per-host (token bucket) e rispetto robots.txt cache-once-per-host. Output per-pagina: HTML completo (solo text/html), links extracted same-origin filtrabili via allow/deny, status HTTP, content-type, bytes, durata, error. Use case: (1) mirror del proprio sito + asset (combinato con action_asset_batch_download), (2) audit SEO interno (broken links + orphan pages), (3) discovery URL per RAG/embedding internal docs, (4) competitor catalog monitor (USA SOLO su siti propri o con autorizzazione). Safety: hard cap 5000 pagine/run, SSRF guard, robots.txt rispettato di default, identifica come "FlowForge-Spider/1.0" RFC-compliant (override consentito).
