Video Summarizer (Whisper + Vision)

agent_video_summarizer · action · Utility · Disponibile · v1.0.0

Descrizione

Pipeline multimodale video → summary strutturato: ffmpeg extract frames+audio → Whisper ASR transcript con timestamp → Vision Qwen2.5-VL describe scenes (scene-change detection) → Liara LLM fonde transcript+scenes in TL;DR + bullets + chapters timestamped. Backend self-hosted Hetzner (no costi per-token, GDPR-compliant). Output: { transcript, scenes[], summary: {tldr, bullets[], chapters[]}, durationSec }. Use case: indicizzazione media library (corsi/webinar/meeting), highlight reel automatico per social, accessibility (caption + audio description WCAG 2.2), search-in-video tramite scene timestamps, briefing post-meeting con chapter cliccabili.

⚙️ Parametri di configurazione

Campi mostrati nell’editor quando si configura il nodo. Generati direttamente dal NodeDefconfigFields.

CampoTipoRequiredDefaultDescrizione
videoUrl
URL video
expressionsi
https://... .mp4 o {{input.url}}
URL del video da analizzare (mp4/webm/mov). SSRF-safe via safeFetch. Per file locali usa /data path nel sandbox.
frameIntervalSec
Intervallo frame (secondi)
numberno5Estrai 1 frame ogni N secondi per Vision analysis. Min 1, max 60. Default 5s.
enableTranscription
Abilita trascrizione audio (Whisper)
booleannofalseSe on, chiama il servizio Whisper per trascrivere l'audio. Default OFF: il nodo lavora solo con descrizione Vision delle scene (Whisper non è stand-alone su tutte le installation).
whisperEndpoint
Endpoint Whisper ASR (solo se transcript abilitato)
stringnohttp://host.docker.internal:5005URL servizio Whisper. Usato solo se "Abilita trascrizione audio" = on. Default host PM2 :5005.
visionEndpoint
Endpoint Vision (Qwen2.5-VL)
stringnohttp://host.docker.internal:5004URL servizio Vision. Default host PM2 :5004.
summaryLanguage
Lingua summary
enum
autoitendefres
noautoLingua output summary. "auto" usa la lingua rilevata da Whisper sul transcript.
maxDurationSec
Max durata video (s)
numberno1800Hard cap durata processabile. Min 60, max 7200 (2h). Default 30 min anti-runaway.

💡 Esempio configurazione

Snippet JSON del nodo come compare nel workflow. I valori sono derivati daidefaultValue e dai parametri required.

{
  "id": "node-agent_video_summarizer-1",
  "defId": "agent_video_summarizer",
  "label": "Video Summarizer (Whisper + Vision)",
  "config": {
    "videoUrl": "https://... .mp4 o {{input.url}}",
    "frameIntervalSec": 5,
    "enableTranscription": false,
    "whisperEndpoint": "http://host.docker.internal:5005",
    "visionEndpoint": "http://host.docker.internal:5004",
    "summaryLanguage": "auto",
    "maxDurationSec": 1800
  }
}

🔗 Nodi correlati nella stessa categoria

Pronto a usare Video Summarizer (Whisper + Vision)?

Disponibile da subito in tutti i piani FlowForge. Provalo gratis senza carta di credito.

Inizia gratisSfoglia tutti i nodi