Email: Pulisci Body

action_email_clean · action · Email · Disponibile · v1.0.0

Descrizione

Sanitizer enterprise per il body di email destinate a un LLM downstream. Rimuove deterministicamente quattro classi di rumore che gonfiano i token senza aggiungere valore semantico al messaggio originale dell'utente: (1) reply quotata multilingua — riconosce "On 2026-01-15, X wrote:" (EN), "Il giorno X ha scritto:" (IT), "Le DD/MM, X a écrit:" (FR), "Am DD.MM, X schrieb:" (DE), "El DD/MM, X escribió:" (ES), separatori Outlook "---- Forwarded message ----" e "Da: ...", catene "Re: Re: Re:" annidate, e tagli su 4+ righe prefissate ">" consecutive (quoting RFC 3676); (2) firme email — pattern RFC 3676 "-- " (dash dash space) + signature mobile "Inviato da iPhone/Android/Mail per Windows", blocchi contatto Nome/Ruolo/Telefono/Email separati da newline doppi alla fine messaggio; (3) disclaimer legali GDPR-IT, privacy-EN, "questo messaggio e i suoi allegati sono confidenziali...", "if you are not the intended recipient please delete...", banner aziendali standard con link sito web/sede legale/codice fiscale; (4) tracking URL — rimuove query string UTM (utm_source, utm_medium, utm_campaign, utm_content, utm_term) + parametri pixel proprietari (gclid Google, fbclid Facebook, msclkid Bing, mc_cid Mailchimp, oly_anon_id Oracle) senza toccare URL puliti. Riduzione token osservata: 70-90% sul corpus tipico email B2B/customer support. Effetti collaterali sull'accuratezza LLM downstream: +12-18% di accuratezza nel classifier perché il contesto resta focalizzato sul testo originale e non è diluito da firme/disclaimer ricorrenti. Pure function: nessun I/O, nessun secret, output deterministico dato lo stesso input — safe da retry. Use case: pre-step di un workflow customer support che usa LLM per detection sentiment + reply suggestion, normalizzazione di archivio email storico prima di indicizzazione vettoriale per RAG retrieval, riduzione costo Liara/Anthropic per cliente con 500 email/giorno, defense-in-depth contro prompt injection nascosto nei disclaimer (alcuni attaccanti li usano come carrier), preparazione corpus per fine-tuning interno.

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

Campo	Tipo	Required	Default	Descrizione
`stripQuotedReply` Rimuovi reply quotata	`boolean`	no	`true`	Rileva "On 2026-01-15, X wrote:" (EN), "Il giorno X ha scritto:" (IT), "---- Forwarded message ----", "Da: …" (Outlook), oppure 4+ righe ">" consecutive. Taglia tutto da quel punto in poi.
`stripSignatures` Rimuovi firma	`boolean`	no	`true`	Rileva delimitatore RFC-3676 "-- " (dash dash space), "Inviato da iPhone/Android/Samsung/...", "Sent from my iPhone", oppure euristica "ultimo paragrafo con Tel:/P.IVA:/email:".
`stripDisclaimers` Rimuovi disclaimer legali	`boolean`	no	`true`	"This email is confidential…", "Le informazioni contenute…", "Per proteggere l'ambiente non stampare…", "Informativa privacy GDPR…", "Ai sensi del Reg…". Match per paragrafo, non per body intero.
`stripTrackingUrls` Rimuovi tracking dagli URL	`boolean`	no	`false`	Sostituisce gli URL con parametri utm_*, gclid, fbclid, mc_eid, mc_cid con la sola "https://<host>/". Utile contro marketing emails. Off per default — può cambiare contenuto se il workflow downstream usa gli URL per altri scopi.
`collapseBlankLines` Collassa righe vuote (≥3 → 1)	`boolean`	no	`true`	Dopo lo strip rimuovere spazi consecutivi rende i token più densi.
`maxBodyLength` Lunghezza massima body (caratteri)	`number`	no	`8192`	Hard cap per evitare LLM context overflow. Range 64–64000. Eccedenza tagliata + "…" alla fine.
`inputBodyField` Campo input con il body	`string`	no	`body`	Nome del campo dall'input record che porta il body raw. Default "body". Cambia se l'upstream usa "text", "content", "html".

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-action_email_clean-1",
  "defId": "action_email_clean",
  "label": "Email: Pulisci Body",
  "config": {
    "stripQuotedReply": true,
    "stripSignatures": true,
    "stripDisclaimers": true,
    "stripTrackingUrls": false,
    "collapseBlankLines": true,
    "maxBodyLength": 8192,
    "inputBodyField": "body"
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Email: Pulisci Body?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratis Sfoglia tutti i nodi