Modelli AI
Spiegazione dei modelli usati su WebVoice: velocità, caratteristiche, sicurezza e privacy.
| Fascia | Modelli | Note |
|---|---|---|
| Sicurezza locale | Whisper, Kokoro (locale) | Elaborazione sul nostro server, nessun dato inviato all'esterno. Massima privacy. |
| Sicurezza alta | Qwen3 Fast (Groq), Llama 3.1 8B Instant (Groq), GPT OSS Safeguard 20B (Groq), Kimi K2 (Groq), GPT OSS 20B (Groq), Llama 3.3 70B Versatile (Groq), GPT OSS 120B (Groq) | Provider Groq: richieste criptate, policy di cancellazione dati, inferenza veloce (LPU). |
| Sicurezza media | DeepSeek V4 Flash, OpenRouter Free (auto), AllenAI: Olmo 3.1 32B Think, DeepSeek V4 Pro, GPT OSS 120B (OpenRouter free), DeepSeek Reasoner (V4 thinking), Google Gemini, Google: Gemini 2.5 Flash, GPT OSS 20B (OpenRouter free), DeepSeek WebSearch (V4 Flash), Google: Gemini 2.5 Flash Image (Nano Banana), Google Gemma 4 31B (OpenRouter free), Kimi K2.6 (DeepInfra), Nemotron 3 Nano Omni 30B Reasoning (DeepInfra), Qwen3 Max Thinking (DeepInfra), Gemma 4 26B IT (DeepInfra), DeepSeek Chat (legacy alias), Moonshot Kimi K2.5, Z.AI GLM 4.6, Z.AI GLM 4.7, Z.AI GLM 5, MiniMax M2.7 Highspeed (api.minimax.io) | Modelli tramite OpenRouter, DeepSeek, Gemini, ecc. Connessioni criptate; policy dei singoli provider. |
Voce → Testo (Speech-to-Text). Whisper è il modello usato per trascrivere l’audio in testo. Su WebVoice viene eseguito in locale sul nostro server: l’audio non viene inviato a terze parti.
- Elaborazione locale: nessun invio a OpenAI o altri provider esterni per la trascrizione.
- Alta accuratezza multilingue e supporto per diversi accenti.
- Velocità adatta a utilizzo in tempo reale e batch.
- Privacy: i tuoi file audio restano sotto il nostro controllo.
Modello OpenAI open-source: supporto per oltre 90 lingue, robusto al rumore e ai diversi accenti. Trascrizione in tempo reale o più veloce (circa 1×–2× la durata dell’audio a seconda dell’hardware). Formati supportati: WAV, MP3, M4A, FLAC.
Voce → Testo (Speech-to-Text). Variante veloce basata su openai/whisper-large-v3-turbo tramite DeepInfra ($ 0.00020/min upstream). L’audio viene inviato all’API DeepInfra per trascrizione rapida.
- Servizio usato: DeepInfra. Latenza ridotta rispetto al Whisper locale.
- Alta accuratezza multilingue (modello Whisper Large V3 Turbo).
- Per massima privacy usa Whisper locale (whisper_small).
Testo → Voce (Text-to-Speech). Kokoro è il modello che genera la voce a partire dal testo. Su WebVoice sono disponibili due modalità: Kokoro (locale), eseguito interamente sul nostro server con il motore ONNX, e Kokoro Fast, variante più veloce tramite il servizio DeepInfra (API esterna).
- Kokoro (locale): Nessuna richiesta esterna: il testo non esce mai dai nostri server. Elaborazione con Kokoro ONNX in locale.
- Kokoro Fast: Servizio usato: DeepInfra. Risposta più rapida, richieste inviate alla API DeepInfra per sintesi veloce.
- Voce naturale, adatta a lettura, messaggi vocali e assistenti. Supporto multilingua (italiano, inglese e altre).
Modello TTS neurale Kokoro: voci naturali, qualità alta. Kokoro locale (ONNX) offre massima privacy; Kokoro Fast (DeepInfra) offre latenza ridotta e generazione più veloce.
Per la Chat AI utilizziamo provider come Groq e altri modelli (anche tramite OpenRouter), scelti per velocità di risposta e qualità. Di seguito le caratteristiche rilevanti per sicurezza e privacy.
- Richieste criptate: le comunicazioni con i provider avvengono tramite HTTPS/TLS.
- Politiche di sicurezza e conformità dei provider (es. Groq) per l’elaborazione dei dati.
- Cancellazione dei dati: molti provider non conservano i contenuti dopo l’elaborazione o consentono la cancellazione secondo le loro policy.
- Inferenza molto veloce grazie a hardware dedicato (LPU), ideale per chat in tempo reale.
Groq utilizza LPU (Language Processing Units) per inferenza a bassissima latenza: fino a centinaia di token al secondo (tipicamente 200–500+ token/s), ideale per chat e risposte in tempo reale. Altri provider (OpenRouter, Gemini, ecc.) offrono modelli di diverse dimensioni e velocità; i costi in crediti sono indicati sotto per ogni modello.
Per i dettagli su conservazione e cancellazione dei dati, consulta le policy dei singoli provider e la nostra AI Policy.
Voce e trascrizioni
Whisper (voce→testo) locale e Kokoro locale (testo→voce) sono eseguiti in locale; Whisper Fast e Kokoro Fast passano tramite DeepInfra. Per massima privacy scegli le opzioni locali.
Chat AI
Le richieste alla Chat passano attraverso connessioni criptate verso provider come Groq. Appliciamo le best practice di sicurezza e ti invitiamo a consultare la nostra AI Policy per conservazione e cancellazione dati.