Speech‑to‑Text (STT)
Trascrizione in tempo reale o da file con punteggiatura, diarizzazione e supporto multi‑lingua.
Speech‑to‑Text, Text‑to‑Speech, traduzione in tempo reale e riconoscimento speaker con i servizi Azure Cognitive.
Cluster Tecnologie · Torna a Cognitive Services · Use case voce
Trascrizione in tempo reale o da file con punteggiatura, diarizzazione e supporto multi‑lingua.
Sintesi naturale con voci neurali; controlli di tono, velocità e prosodia.
Traduzione vocale in tempo reale per meeting, assistenza e contenuti multilingua.
Identificazione e verifica speaker per sicurezza e personalizzazione.
Crea una voce brandizzata (dove consentito) con processi di consenso, revisione e monitoring.
Esempio STT streaming (websocket/SDK):
POST /speech/recognition/conversation/cognitiveservices/v1?language=it-IT
Ocp-Apim-Subscription-Key: <key>
Content-Type: audio/wav
Ottimizza formato audio (16kHz mono PCM), chunking e retry.
In tempo reale con WebSocket/SignalR; batch con Functions + Blob Storage. Per personalizzazioni avanzate usa Azure ML.
| Servizio | Quando usarlo | Output |
|---|---|---|
| STT | Trascrizione real‑time o batch | Testo con timestamp, diarizzazione |
| TTS | Assistenti vocali, contenuti audio | Audio sintetizzato, SSML |
| Translation | Meeting/assistenza multilingua | Trascrizioni e traduzioni live |
| Speaker | Autenticazione e personalizzazione | ID/verifica speaker con score |
| Custom Voice | Voce brandizzata controllata | Modello voce + policy di uso |
Riduci rumore/riverbero, microfoni consistenti, gain adeguato e campionamento 16kHz.
Informative chiare, conservazione minima, anonimizzazione e ruoli di accesso.
Streaming per real‑time, batch per lunghi file; caching, compressione e controllo quote.
No, l’elaborazione avviene in Azure; ottimizza codec/bitrate e rete.
Seleziona il locale corretto, usa adattamento lessicale e valuta dizionari personalizzati.
Sì, applica filtri contenuto e regole SSML; prevedi revisione per contenuti pubblici.