PDF: Parse (text extraction)

action_pdf_parse · action · File & Documenti · Disponibile · v1.0.0

Descrizione

Estrazione testo da PDF con cascata 2-stage qualità-prima: pdf-parse libreria gratuita (~50ms, zero cost, no API) come tentativo veloce → fallback automatico a Claude Sonnet vision (cost ~$0.003-0.015/PDF, latency 2-5s) quando pdf-parse ritorna testo scarno o gibberish da PDF scannerizzato. La heuristica fallback usa confidence score basato su densità caratteri leggibili + presenza glifi standard latini. Differenza con i sibling: action_pdf_parse = text extraction OUT (PDF → string). Per generare PDF IN partendo da titolo+sezioni+tabella vedi action_pdf_generate (pdfkit, fatture/cataloghi). Per immagini generiche con AI vedi action_vision_extract (Qwen2.5-VL-7B locale, no Claude cost). Modalità configurabili: auto (default — cascata pdf-parse → Claude se low confidence), pdf-parse-only (zero cost, accetta fallimenti su scan), llm-only (massima qualità, sempre Claude — usare quando sai a priori che i PDF sono scan). La modalità auto e\` consigliata: il 70-80% dei PDF moderni hanno text layer estraibile gratis, il fallback Claude paga solo per i casi reali (vecchi scan, ricevute fotografate). Input flessibile: file da disco (path nel sandbox tenant, file-picker UI) OPPURE base64 da nodo upstream (tipico: allegato trigger_imap senza salvare su disco). Max 32 MB hard cap per evitare OOM, 100 pagine cap su modalità Claude per cost control. Use case: (1) ingest fatture PEC ricevute via trigger_imap → estrarre IBAN + importo + scadenza per inserimento contabile automatico, (2) parsing contratti firmati per archiviazione searchable con full-text index, (3) categorizzazione spese da ricevute scannerizzate (Claude vision riconosce anche grafica/logo), (4) corpus PDF per pipeline RAG con embedding BGE-M3. Safety budget: SSRF non applicabile (nessun fetch outbound), file I/O sandboxato su tenant data dir, cost cap configurabile per workflow (max N call Claude/run), audit log con sha256 input + mode used + tokens consumed.

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

Campo	Tipo	Required	Default	Descrizione
`path` File PDF su disco (opzionale)	`file-picker`	no	— es. ordine.pdf o {{input.attachment.path}}	Path nel sandbox del tenant. Se vuoto, l'engine cerca i bytes in "Base64" qui sotto. Uno dei due è obbligatorio.
`base64` Base64 dei bytes PDF (opzionale)	`expression`	no	— {{$node.ImapTrigger.json.attachments[0].base64}}	Stringa base64 del PDF (es. allegato email). Massimo 32 MB. Si usa quando il PDF arriva via webhook/email senza essere salvato su disco.
`mode` Strategia estrazione	`enum` `autopdf-parse-onlyllm-only`	no	`auto`	auto = prova pdf-parse, fa fallback LLM-vision se la qualità è bassa (raccomandato). pdf-parse-only = solo libreria gratis, niente API LLM (costo zero, ma fallisce su PDF scannerizzati). llm-only = salta pdf-parse e va diretto su Claude Sonnet (massima qualità, max costo per call).

⬆️ Output del nodo

Campi disponibili nei nodi successivi via $node.<alias>.json.<field>:

text
confidence
mode
pages
sizeBytes
usedLlmFallback
llmModel
cheapAttempt

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_pdf_parse-1",
  "defId": "action_pdf_parse",
  "label": "PDF: Parse (text extraction)",
  "config": {
    "mode": "auto"
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare PDF: Parse (text extraction)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratis Sfoglia tutti i nodi