Η Google λέει ότι το μοντέλο Parallel Tacotron παράγει συνθετικές φωνές 13 φορές γρηγορότερα από τον προκάτοχό της

Η Google λέει ότι το μοντέλο Parallel Tacotron παράγει συνθετικές φωνές 13 φορές γρηγορότερα από τον προκάτοχό της


Τον Δεκέμβριο του 2016, η Google κυκλοφόρησε Τακότρον 2, ένα σύστημα σύνθεσης ομιλίας μηχανικής μάθησης (TTS) που παράγει φυσικό ήχο από πρωτογενή αντίγραφα. Χρησιμοποιείται σε υπηρεσίες που αντιμετωπίζουν οι χρήστες όπως ο Βοηθός Google για τη δημιουργία φωνών που μοιάζουν με ανθρώπινες, αλλά είναι σχετικά απαιτητική από άποψη υπολογισμού. Σε ένα νέο άρθρο, ερευνητές από τον ερευνητικό γίγαντα λένε ότι έχουν αντιμετωπίσει αυτόν τον περιορισμό με αυτό που αποκαλούν Παράλληλο τακότρο, ένα πολύ παράλληλο μοντέλο κατά τη διάρκεια της προπόνησης και συμπερασμάτων που επιτρέπει την αποτελεσματική παραγωγή ομιλίας σε λιγότερο ισχυρό υλικό.

Το κείμενο σε ομιλία είναι αυτό που είναι γνωστό ως πρόβλημα χαρτογράφησης «ένας προς πολλούς». Δεδομένου οποιουδήποτε τμήματος κειμένου, θα μπορούσαν να δημιουργηθούν πολλαπλές φωνές με διαφορετική προσώδη (τονισμό, τόνος, προφορά και ρυθμός). Τα εξελιγμένα μοντέλα, όπως το Tactoron 2, είναι επίσης επιρρεπή σε σφάλματα όπως stammering, διακοπές ομιλίας και επανάληψη λέξεων ή παράλειψη ως αποτέλεσμα, αλλά ένας τρόπος για να αντιμετωπιστεί αυτό είναι να αυξήσει τα μοντέλα ενσωματώνοντας αναπαραστάσεις που συλλαμβάνουν λανθάνουσες γλωσσικούς παράγοντες. Αυτές οι αναπαραστάσεις μπορούν να εξαχθούν από έναν κωδικοποιητή που χρησιμοποιεί βασικά φασματογράμματα αλήθειας (μια οπτική αναπαράσταση των συχνοτήτων της ομιλίας με την πάροδο του χρόνου) ως είσοδος. αυτή είναι η προσέγγιση

Στα πειράματα, για να εκπαιδεύσουν το Parallel Tacotron, οι ερευνητές λένε ότι χρησιμοποίησαν ένα σύνολο δεδομένων που περιέχει 405 ώρες ομιλίας, συμπεριλαμβανομένων 347.872 εκφράσεων από 45 ομιλητές (32 Αγγλικά ΗΠΑ, οκτώ Αγγλικά Αγγλικά και πέντε Αυστραλιανά Αγγλικά) σε 3 αγγλικές πινελιές σε συνολικά 32 άτομα που μιλούν αμερικανικά αγγλικά. Η εκπαίδευση χρειάστηκε μια μέρα χρησιμοποιώντας το Google Cloud TPUs, ειδικά για εφαρμογές που αναπτύχθηκαν ειδικά για την επιτάχυνση της AI.

Οι ερευνητές ζήτησαν από τους αναθεωρητές του ανθρώπου να εξετάσουν 1.000 προτάσεις για να αξιολογήσουν την απόδοση του Parallel Tacotron, οι οποίες συντέθηκαν χρησιμοποιώντας 10 αμερικάνικα αγγλικά ομιλητές (5 άνδρες και 5 γυναίκες) σε στυλ round-robin (100 προτάσεις ανά ομιλητή). Αν και υπάρχει περιθώριο βελτίωσης, τα αποτελέσματα δείχνουν ότι το Parallel Tacotron “λειτούργησε καλά” σε σύγκριση με την ανθρώπινη γλώσσα. Επιπλέον, το Parallel Tacotron ήταν περίπου 13 φορές ταχύτερο από το Tacotron 2.

«Πολλά μοντέλα έχουν προταθεί για να συνθέσουν διάφορες πτυχές της ομιλίας (π.χ. στυλ ομιλίας) με φυσικό τρόπο», έγραψαν οι ερευνητές. “Το παράλληλο Tacotron ταιριάζει με το βασικό Tacotron 2 από την άποψη της φυσικότητας και προσέφερε σημαντικά ταχύτερη συναγωγή από το Tacotron 2.”

Η κυκλοφορία του Parallel Tacotron, διαθέσιμη στο GitHub, έρχεται αφού η Microsoft και το Facebook περιγράφουν τις τεχνικές σύνθετης ομιλίας τους. Microsoft Γρήγορη ομιλία διαθέτει μια μοναδική αρχιτεκτονική που όχι μόνο βελτιώνει την απόδοση σε διάφορους τομείς, αλλά εξαλείφει σφάλματα όπως παραλείψεις λέξεων και επιτρέπει την ακριβή προσαρμογή της ταχύτητας και της διακοπής λέξεων. Όσο για το Facebook Σύστημα, αξιοποιεί ένα μοντέλο γλώσσας επιμέλειας για να δημιουργεί φωνές 160 φορές γρηγορότερα από ένα βασικό.


Πώς οι επιχειρήσεις ξεκινούν την επικοινωνία:

Η πανδημία οδηγεί τις νεοσύστατες επιχειρήσεις να ρίξουν μια πιο προσεκτική ματιά στην άνοδο των λύσεων επικοινωνίας τους. Μάθε πως να




[via]