Πέρυσι, η Microsoft ανακοίνωσε υπερρεαλιστικές φωνές AI βελτιστοποιημένο για σενάρια συνομιλίας, συμπεριλαμβανομένων των chatbot, των βοηθών φωνής, των παιχνιδιών και άλλων. Οι προγραμματιστές μπόρεσαν να χρησιμοποιήσουν αυτές τις νευρωνικές φωνές μετατροπής κειμένου σε ομιλία (TTS) στις εφαρμογές τους χρησιμοποιώντας το Azure Speech SDK ή REST API. Τους τελευταίους μήνες, η Microsoft έχει προσθέσει πολλές νέες νευρωνικές φωνές μετατροπής κειμένου σε ομιλία (TTS) για προγραμματιστές. Η Microsoft προσφέρει τώρα περισσότερες από 500 νευρικές φωνές σε περισσότερες από 140 γλώσσες και τοπικές ρυθμίσεις.
Σήμερα, η Microsoft ανακοίνωσε μια νέα και βελτιωμένη έκδοση HD της υπηρεσίας νευρωνικής μετατροπής κειμένου σε ομιλία για επιλεγμένες φωνές. Οι νέες φωνές HD βελτιώνουν τη συνολική εκφραστικότητα με την ανίχνευση συναισθημάτων με βάση το πλαίσιο της εισαγωγής κειμένου. Η Microsoft ισχυρίζεται ότι οι πιο πρόσφατες φωνές HD βασίζονται σε μοντέλα γλώσσας μετασχηματιστή αυτόματης παλινδρόμησης και ότι μιλούν στο ηχόχρωμα φωνής της επιλεγμένης πλατφόρμας. Προσφέρουν τα ακόλουθα πλεονεκτήματα:
- Ανθρώπινη παραγωγή ομιλίας: Το νέο μοντέλο ερμηνεύει με ακρίβεια το κείμενο εισόδου και κατανοεί το υποκείμενο συναίσθημα, προσαρμόζοντας αυτόματα τον τόνο ομιλίας ώστε να ταιριάζει με το συναίσθημα που μεταφέρεται σε πραγματικό χρόνο.
- Ομιλητικός: Το νέο μοντέλο μπορεί να παράγει αυθόρμητες παύσεις και έμφαση. Η Microsoft ισχυρίζεται ότι αυτό το μοντέλο μπορεί να αναπαράγει κοινά φωνήματα, όπως παύσεις και λέξεις πλήρωσης.
- Παραλλαγές προσωδίας: Αυτό το νέο σύστημα φωνής HD βελτιώνει τον ρεαλισμό εισάγοντας μικρές παραλλαγές σε κάθε έξοδο, κάνοντας την ομιλία να ακούγεται ακόμα πιο φυσική. Ουσιαστικά, κάθε πρόταση θα ακούγεται διαφορετική από οποιαδήποτε προηγουμένως ειπωμένη.
Ο Garfield He, διευθυντής προγράμματος Cognitive Services Speech στη Microsoft, είπε τα εξής σχετικά με την κυκλοφορία της φωνής HD:
“Με την καινοτόμο τεχνολογία που χρησιμοποιεί ακουστικά και γλωσσικά χαρακτηριστικά για τη δημιουργία ομιλίας γεμάτη με πλούσιες, φυσικές παραλλαγές, μπορεί να ανιχνεύσει έμπειρα συναισθηματικά σημάδια στο κείμενο και να προσαρμόσει αυτόνομα τον τόνο και το στυλ της φωνής. Με αυτήν την αναβάθμιση, μπορείτε να περιμένετε μια πιο ανθρώπινη μοτίβο ομιλίας που χαρακτηρίζεται από βελτιωμένο τονισμό, ρυθμό και συναίσθημα.”
Μπορείτε να δείτε δείγμα περιεχομένου ήχου που δημιουργήθηκε χρησιμοποιώντας αυτό το μοντέλο φωνής HD στο παρακάτω βίντεο.
Οι νέες φωνές HD είναι διαθέσιμες σε προεπισκόπηση για προγραμματιστές σε τρεις περιοχές: Ανατολικές ΗΠΑ, Δυτική Ευρώπη και Νοτιοανατολική Ασία. Το κόστος για φωνές HD θα είναι 30 $ ανά 1 εκατομμύριο χαρακτήρες.
Πηγή: Microsoft
VIA: NeoWin.net