Google open-resource MT5, ένα πολύγλωσσο μοντέλο εκπαιδευμένο σε περισσότερες από 101 γλώσσες

Google open-source MT5, ένα πολύγλωσσο μοντέλο εκπαιδευμένο σε περισσότερες από 101 γλώσσες


Μην ξεπεράσεις Fb είναι Microsoft, και οι δύο αναλυτικοί αλγόριθμοι τεχνολογίας μηχανικής εκμάθησης στα τέλη Οκτωβρίου, Google αυτήν την εβδομάδα ανοιχτής προέλευσης ένα μοντέλο που ονομάζεται ΜΤ5 ότι η εταιρεία ισχυρίζεται ότι επιτυγχάνει πρωτοποριακά αποτελέσματα σε μια σειρά φυσικών εργασιών επεξεργασίας αγγλικών. Το MT5, μια πολύγλωσση παραλλαγή του μοντέλου T5 της Google που έχει προ-εκπαιδευτεί σε ένα σύνολο δεδομένων που καλύπτει 101 γλώσσες, περιέχει 300 εκατομμύρια έως 13 δισεκατομμύρια παραμέτρους (μεταβλητές μέσα στο μοντέλο που χρησιμοποιείται για να κάνει προβλέψεις) και προφανώς έχει αρκετή ικανότητα να μάθει πάνω από 100 γλώσσες χωρίς σημαντικά αποτελέσματα «παρεμβολών».

Ο στόχος του πολυγλωσσικού σχεδιασμού μοντέλου AI είναι να δημιουργήσει ένα μοντέλο που μπορεί να κατανοήσει περισσότερες από 7.000 γλώσσες του κόσμου. Τα πολυγλωσσικά μοντέλα AI μοιράζονται πληροφορίες μεταξύ παρόμοιων γλωσσών, προς όφελος των γλωσσών που δεν διαθέτουν πόρους και επιτρέπει την επεξεργασία γλώσσας μηδενικής λήψης ή την επεξεργασία γλώσσας που δεν έχει δει το μοντέλο. Καθώς αυξάνεται το μέγεθος των προτύπων, απαιτούν μεγαλύτερα σύνολα δεδομένων που μπορεί να είναι επίπονα και δύσκολο να δημιουργηθούν, γεγονός που οδήγησε τους ερευνητές να επικεντρωθούν σε περιεχόμενο που έχει διαχωριστεί από τον ιστό.

Το MT5 εκπαιδεύτηκε στο MC4, ένα υποσύνολο του C4, μια συλλογή περίπου 750 GB κειμένου αγγλικής γλώσσας από το κοινό Common Crawl. (Η κοινή ανίχνευση περιέχει δισεκατομμύρια ιστοσελίδες που έχουν τραβηχτεί από το Διαδίκτυο.) Παρόλο που το σύνολο δεδομένων C4 έχει σχεδιαστεί ρητά για να είναι μόνο στα Αγγλικά, το MC4 καλύπτει 107 γλώσσες με 10.000 ή περισσότερες ιστοσελίδες και σε όλες τις 71 μηνιαίες αποκόμματα που κυκλοφόρησαν μέχρι σήμερα Κοινή ανίχνευση.

Υπάρχουν ενδείξεις ότι τα γλωσσικά μοντέλα ενισχύουν τις προκαταλήψεις που υπάρχουν στα σύνολα δεδομένων στα οποία εκπαιδεύονται. Ενώ μερικοί ερευνητές Αίτηση ότι καμία τρέχουσα τεχνική μηχανικής εκμάθησης δεν προστατεύει επαρκώς από τις τοξικές εξόδους, οι ερευνητές της Google προσπάθησαν να μετριάσουν την προκατάληψη στο MT5, διπλασιάζοντας γραμμές σε έγγραφα MC4 και φιλτράροντας σελίδες που περιέχουν βωμολοχίες. Εντόπισαν επίσης την κύρια γλώσσα κάθε σελίδας χρησιμοποιώντας ένα εργαλείο και αφαίρεσαν τις σελίδες όπου η εμπιστοσύνη ήταν μικρότερη από 70%.

Η Google αναφέρει ότι το μεγαλύτερο μοντέλο MT5, που έχει 13 δισεκατομμύρια παραμέτρους, έχει ξεπεράσει κάθε σημείο αναφοράς με το οποίο έχει δοκιμαστεί από τον Οκτώβριο του 2020. Αυτό περιελάμβανε πέντε εργασίες από το πολύγλωσσο σημείο αναφοράς Xtreme. η εργασία δέσμευσης XNLI που καλύπτει 14 γλώσσες · τα σημεία αναφοράς κατανόησης ανάγνωσης XQuAD, MLQA και TyDi QA με 10, 7 και 11 γλώσσες αντίστοιχα · και το σύνολο δεδομένων αναγνώρισης παραφράσεων PAWS-X με 7 γλώσσες.

Φυσικά, είναι θέμα συζήτησης εάν τα σημεία αναφοράς αντανακλά σωστά την πραγματική απόδοση του μοντέλου. Μερικοί Εκπαίδευση προτείνουν ότι τα μοντέλα απόκρισης ανοιχτού τομέα – μοντέλα θεωρητικά ικανά να απαντούν σε νέες ερωτήσεις με νέες απαντήσεις – συχνά απλώς αποθηκεύουν τις απαντήσεις που βρίσκονται στα δεδομένα στα οποία εκπαιδεύονται, ανάλογα με το σύνολο δεδομένων. Αλλά οι ερευνητές της Google λένε ότι το MT5 είναι ένα βήμα προς ισχυρά μοντέλα που δεν απαιτούν απαιτητικές τεχνικές μοντελοποίησης.

“Συνολικά, τα αποτελέσματά μας υπογραμμίζουν τη σημασία της ικανότητας του μοντέλου στη μάθηση της διαγλωσσικής αναπαράστασης και υποδηλώνουν ότι η ενίσχυση μιας απλής συνταγής προ-κατάρτισης μπορεί να είναι μια βιώσιμη εναλλακτική λύση. [by] βασιστείτε σε … φίλτρα, παράλληλα δεδομένα ή ενδιάμεσες δραστηριότητες “, έγραψαν οι ερευνητές της Google σε ένα έγγραφο που περιγράφει το MT5.” Έχουμε δείξει ότι η συνταγή T5 εφαρμόζεται άμεσα στο πολύγλωσσο περιβάλλον και επιτυγχάνουμε εξαιρετική απόδοση σε ένα διαφοροποιημένο σύνολο σημείων αναφοράς. “


Το πρόβλημα ήχου:

Μάθετε πώς οι νέες λύσεις API που βασίζονται σε σύννεφο επιλύουν ελαττωματικό και απογοητευτικό ήχο στη διάσκεψη βίντεο. Συνδεθείτε εδώ




[via]