Η Amazon αγκαλιάζει μοντέλα end-to-close για να βελτιώσει την αναγνώριση ομιλίας Alexa

Η Amazon αγκαλιάζει μοντέλα end-to-end για να βελτιώσει την αναγνώριση ομιλίας Alexa


Το Alexa του Amazon βελτιώνεται καλύτερα στο να αναγνωρίζει ποιος μιλάει και τι μιλάει, να κατανοεί λέξεις μέσω τεχνικών στη συσκευή και να αξιοποιεί εκπαιδευμένα μοντέλα χωρίς την ανάγκη για ανθρώπινη αναθεώρηση. Αυτό είναι σύμφωνα με τον επικεφαλής της αυτόματης αναγνώρισης ομιλίας Shehzad Mevawalla, ο οποίος μίλησε με την VentureBeat πριν από μια ομιλία στο φετινό συνέδριο Interspeech.

Η Alexa εκτελεί τώρα αναγνώριση ομιλίας “πλήρους χωρητικότητας” στη συσκευή, έχοντας προηγουμένως βασιστεί σε μοντέλα πολλαπλών gigabyte που απαιτούσαν τεράστια ποσότητα μνήμης και έτρεχαν σε διακομιστές στο cloud. Αυτή η αλλαγή οφείλεται στη μετάβαση σε μοντέλα από άκρο σε άκρο, δήλωσε ο Mevawalla ή μοντέλα τεχνητής νοημοσύνης που δέχονται ενδείξεις ακουστικής ομιλίας ως είσοδο και παράγουν άμεσα μεταγραμμένη ομιλία. Οι προηγούμενοι αναγνωριστές ομιλίας Alexa είχαν εξειδικευμένα στοιχεία που επεξεργάστηκαν τις εισόδους διαδοχικά, όπως ένα ακουστικό μοντέλο και ένα γλωσσικό μοντέλο.

“Με ένα μοντέλο από άκρο σε άκρο, καταλήγετε να αποφεύγετε να έχετε αυτά τα ξεχωριστά κομμάτια και καταλήγετε σε ένα συνδυασμένο νευρωνικό δίκτυο”, δήλωσε ο Mevawalla. “Πηγαίνετε από gigabyte σε μέγεθος μικρότερο από 100MB. Αυτό μας επιτρέπει να κάνουμε αυτά τα πράγματα σε πολύ περιορισμένο χώρο.”

Ωστόσο, τα μοντέλα εκτός σύνδεσης, τα οποία είναι πρώτα διαθέσιμα για τα Αγγλικά στις Ηνωμένες Πολιτείες, έχουν περιορισμένο υλικό, πράγμα που σημαίνει ότι χρειάζονται έναν επιταχυντή στη συσκευή για την επεξεργασία ομιλίας με αποδεκτές ταχύτητες. Αν και τα ίδια τα μοντέλα είναι μικρά, περιέχουν εκατομμύρια παραμέτρους – μεταβλητές εντός των μοντέλων που διαμορφώνουν τις προβλέψεις τους – που πρέπει να υπολογιστούν μέσω πολλαπλασιασμού μήτρας, μιας από τις βασικές λειτουργίες σε βαθιά νευρωνικά δίκτυα. Η λύση της Amazon είναι ο επεξεργαστής AZ1 Neural Edge, ο οποίος αναπτύχθηκε σε συνεργασία με το MediaTek και είναι ενσωματωμένος στα πιο πρόσφατα Echo, Echo Dot, Echo Dot with clock, Echo Dot Little ones Version και Echo Display 10.

«Βασικά το AZ1 βοηθά με αυτές τις λειτουργίες πολλαπλασιασμού μήτρας και εκφορτώνει τον περιορισμένο επεξεργαστή. Τώρα έχουμε ένα μοντέλο που λειτουργεί στη συσκευή που έχει στην πραγματικότητα την ίδια ή καλύτερη ακρίβεια από αυτό που λειτουργεί στο cloud “, δήλωσε ο Mevawalla.

Η δυνατότητα αναγνωριστικού ηχείου της Alexa, η οποία αναγνωρίζει ποιος μιλάει για να εξατομικεύσει τις απαντήσεις, έχει επίσης μετακινηθεί σε ένα μοντέλο μηχανικής μάθησης από άκρο σε άκρο. Πρόκειται για μια προσέγγιση δύο αλγορίθμων που συνδυάζει μοντέλα που εξαρτώνται από κείμενο και ανεξάρτητα από το κείμενο. Το μοντέλο που εξαρτάται από το κείμενο γνωρίζει τι λένε οι χρήστες εκ των προτέρων, ώστε να μπορεί να ταιριάζει, ενώ το μοντέλο που εξαρτάται από το κείμενο ταιριάζει με τα αντικείμενα ανεξάρτητα από το τι λέγεται.

Βελτιώσεις αναγνωριστικού ηχείου Φυσικό σημείο καμπής, μια δυνατότητα που επιτρέπει σε πολλά άτομα να συμμετέχουν σε συνομιλίες με την Alexa χωρίς να χρειάζεται να χρησιμοποιούν λέξη αφύπνισης για κάθε έκφραση. Τρία μοντέλα λειτουργούν παράλληλα για να οδηγήσουν το Natural Change Getting, το οποίο θα είναι διαθέσιμο στα Αγγλικά μόνο όταν θα κυκλοφορήσει τον επόμενο χρόνο. Ο θόρυβος ομιλίας και φόντου διακρίνεται από τις εντολές που προορίζονται για την Alexa. Το δεύτερο χρησιμοποιεί την αναγνώριση ομιλίας για να μετατρέψει την ομιλία σε κείμενο έτσι ώστε να μπορεί να αναλυθεί σε επίπεδο υπο-λέξης. Το τρίτο χρησιμοποιεί το σήμα κάμερας μιας συσκευής (εάν υπάρχει) για να αποφασίσει εάν αυτό που λέγεται κατευθύνεται στη συσκευή.

Στην περίπτωση συσκευών Echo με κάμερα, το Purely natural Change Getting μπορεί να χρησιμοποιήσει την κάμερα για να εντοπίσει πού κοιτάζει ένα άτομο, τόσο ένα άλλο άτομο όσο και τη συσκευή. Η επεξεργασία βίντεο και ομιλίας γίνεται τοπικά και τα νευρικά δίκτυα συγχωνεύονται και αποφασίζουν εάν η ομιλία προοριζόταν για την Alexa. Το Normal Switch Having δεν απαιτεί συσκευές με κάμερα, αλλά είναι πιο ακριβής σε συσκευές με κάμερα.

Σε υψηλότερο επίπεδο, η Mevawalla ισχυρίζεται ότι η Alexa έχει γίνει πιο ακριβής όταν πρόκειται για αναγνώριση φωνής μέσω της διαδικασίας συντονισμού. Η Alexa χρησιμοποιεί ένα μοντέλο “εκπαιδευτικού” εκπαιδευμένο σε εκατομμύρια δεδομένων δεδομένων που το συντονίζει σε μια σειρά ακουστικών συνθηκών, γλωσσικής μεταβλητότητας και τόνων. Αυτό το μοντέλο στη συνέχεια προσαρμόζεται για να κατανοήσει την ομιλία μιας συγκεκριμένης περιοχής ή γλώσσας. Όπως σημειώνει η Mevawalla, διαφορετικές χώρες έχουν διαφορετικά υπόβαθρα, συνθήκες θορύβου και στυλ ομιλίας.

“Η Alexa έχει δεκάδες εκατομμύρια συσκευές εκεί έξω, και με αυτό το είδος κλίμακας, είναι σίγουρα μια πρόκληση … Οι όγκοι των δεδομένων που μπορούμε να επεξεργαστούμε είναι κάτι που έχουμε βελτιώσει τον τελευταίο χρόνο”, δήλωσε η Mevawalla, προσθέτοντας ότι η ομάδα του μέτρησε βελτιώσεις ακρίβειας έως και 25%. “Η συγκέντρωση γλωσσών … είναι μια άλλη τεχνική που έχουμε εκμεταλλευτεί πολύ αποτελεσματικά. Και αυτό είναι εντελώς αναθεωρημένο, χωρίς σχολιασμένα δεδομένα που έχει μεταγράψει μια μηχανή.”


Το πρόβλημα ήχου:

Μάθετε πώς οι νέες λύσεις API που βασίζονται σε σύννεφο επιλύουν ελαττωματικό και απογοητευτικό ήχο στη διάσκεψη βίντεο. Συνδεθείτε εδώ




[via]