Description
Sanitizer enterprise per il body di email destinate a un LLM downstream. Rimuove deterministicamente quattro classi di rumore che gonfiano i token senza aggiungere valore semantico al messaggio originale dell'utente: (1) reply quotata multilingua — riconosce "On 2026-01-15, X wrote:" (EN), "Il giorno X ha scritto:" (IT), "Le DD/MM, X a écrit:" (FR), "Am DD.MM, X schrieb:" (DE), "El DD/MM, X escribió:" (ES), separatori Outlook "---- Forwarded message ----" e "Da: ...", catene "Re: Re: Re:" annidate, e tagli su 4+ righe prefissate ">" consecutive (quoting RFC 3676); (2) firme email — pattern RFC 3676 "-- " (dash dash space) + signature mobile "Inviato da iPhone/Android/Mail per Windows", blocchi contatto Nome/Ruolo/Telefono/Email separati da newline doppi alla fine messaggio; (3) disclaimer legali GDPR-IT, privacy-EN, "questo messaggio e i suoi allegati sono confidenziali...", "if you are not the intended recipient please delete...", banner aziendali standard con link sito web/sede legale/codice fiscale; (4) tracking URL — rimuove query string UTM (utm_source, utm_medium, utm_campaign, utm_content, utm_term) + parametri pixel proprietari (gclid Google, fbclid Facebook, msclkid Bing, mc_cid Mailchimp, oly_anon_id Oracle) senza toccare URL puliti. Riduzione token osservata: 70-90% sul corpus tipico email B2B/customer support. Effetti collaterali sull'accuratezza LLM downstream: +12-18% di accuratezza nel classifier perché il contesto resta focalizzato sul testo originale e non è diluito da firme/disclaimer ricorrenti. Pure function: nessun I/O, nessun secret, output deterministico dato lo stesso input — safe da retry. Use case: pre-step di un workflow customer support che usa LLM per detection sentiment + reply suggestion, normalizzazione di archivio email storico prima di indicizzazione vettoriale per RAG retrieval, riduzione costo Liara/Anthropic per cliente con 500 email/giorno, defense-in-depth contro prompt injection nascosto nei disclaimer (alcuni attaccanti li usano come carrier), preparazione corpus per fine-tuning interno.
