Μοντέλο παραμέτρων Google AI τρισ

Η Google έχει εκπαιδεύσει ένα μοντέλο γλώσσας AI με τρισεκατομμύρια παραμέτρους


Οι παράμετροι είναι το κλειδί για τους αλγόριθμους μηχανικής μάθησης. Είναι το μέρος του μοντέλου που μαθαίνεται από ιστορικά δεδομένα εκπαίδευσης. Σε γενικές γραμμές, στον τομέα της γλώσσας, ο συσχετισμός μεταξύ του αριθμού των παραμέτρων και της πολυπλοκότητας διατηρήθηκε πολύ καλά. Για παράδειγμα, το OpenAI’s GPT-3, ένα από τα μεγαλύτερα γλωσσικά μοντέλα που εκπαιδεύτηκαν ποτέ σε 175 δισεκατομμύρια παραμέτρους, μπορεί να κάνει πρωτόγονες αναλογίες, να δημιουργήσει συνταγές και ακόμη και να ολοκληρώσει βασικό κώδικα.

Σε μια από τις πιο ολοκληρωμένες δοκιμές αυτής της συσχέτισης μέχρι σήμερα, οι ερευνητές της Google έχουν αναπτύξει και συγκρίνει τεχνικές που ισχυρίζονται ότι τους επέτρεψαν να εκπαιδεύσουν ένα γλωσσικό μοντέλο που περιέχει περισσότερες από ένα τρισεκατομμύρια παραμέτρους. Λένε ότι το μοντέλο παραμέτρων 1,6 τρισεκατομμυρίων, το οποίο φαίνεται να είναι το μεγαλύτερο από το μέγεθός του μέχρι σήμερα, έχει φτάσει ταχύτητες έως και 4 φορές πιο γρήγορα από το προηγούμενο γλωσσικό μοντέλο που ανέπτυξε η Google (T5-XXL).

Όπως οι ερευνητές σε ένα χαρτί λεπτομερώς την εργασία τους, η μεγάλης κλίμακας εκπαίδευση είναι ένας αποτελεσματικός δρόμος για ισχυρά πρότυπα. Οι απλές αρχιτεκτονικές, που υποστηρίζονται από μεγάλα σύνολα δεδομένων και μετρήσεις παραμέτρων, ξεπερνούν πολύ πιο περίπλοκους αλγόριθμους. Όμως, ενώ η αποτελεσματική, μεγάλης κλίμακας εκπαίδευση είναι εξαιρετικά εντατική υπολογιστικά. Γι ‘αυτό οι ερευνητές επιδίωξαν αυτό που αποκαλούν Swap Transformer, μια “κακώς ενεργοποιημένη” τεχνική που χρησιμοποιεί μόνο ένα υποσύνολο των βαρών ενός μοντέλου ή τις παραμέτρους που μετασχηματίζουν τα δεδομένα εισόδου μέσα στο μοντέλο.

Το Change Transformer βασίζεται σε ένα συνδυασμό εμπειρογνωμόνων, ένα πρότυπο του μοντέλου τεχνητής νοημοσύνης που προτάθηκε για πρώτη φορά στις αρχές της δεκαετίας του 1990. Η ευρεία έννοια είναι να διατηρούνται πολλοί εμπειρογνώμονες ή μοντέλα εξειδικευμένα σε διαφορετικά καθήκοντα, σε ένα μεγαλύτερο μοντέλο και να έχουν ένα «δίκτυο πύλης» που επιλέγει ποιους εμπειρογνώμονες θα συμβουλευτούν για ένα δεδομένο δεδομένο.

Αυτό που νέο υπάρχει στο Switch Transformer είναι ότι αξιοποιεί αποτελεσματικά το υλικό που έχει σχεδιαστεί για πολλαπλασιασμό πυκνής μήτρας – μαθηματικές λειτουργίες που χρησιμοποιούνται ευρέως σε μοντέλα γλωσσών – όπως οι GPU της Google και οι μονάδες επεξεργασίας τανυστών (TPU). Στην κατανεμημένη κατάρτιση των ερευνητών, τα μοντέλα τους κατανέμουν μοναδικά βάρη σε διαφορετικές συσκευές, έτσι ώστε τα βάρη να αυξάνονται με τον αριθμό των συσκευών, διατηρώντας όμως τη διαχειρίσιμη μνήμη και το υπολογιστικό αποτύπωμα σε κάθε συσκευή.

Σε ένα πείραμα, οι ερευνητές προετοίμασαν αρκετά μοντέλα Change Transformer χρησιμοποιώντας 32 πυρήνες TPU στο Colossal Cleanse Crawled Corpus, ένα σύνολο δεδομένων 750 GB που εξήχθη από Reddit, Wikipedia και άλλες πηγές ιστού. Έδωσαν οδηγίες στα μοντέλα να προβλέψουν ελλείπουσες λέξεις σε αποσπάσματα όπου το 15% των λέξεων είχαν καλυφθεί, καθώς και άλλες προκλήσεις όπως η ανάκτηση του κειμένου για να απαντήσουν σε μια λίστα με όλο και πιο δύσκολες ερωτήσεις.

Οι ερευνητές λένε ότι το μοντέλο παραμέτρων 1,6 τρισεκατομμυρίων με 2.048 εμπειρογνώμονες (Switch-C) έδειξαν «καμία αστάθεια εκπαίδευσης», σε αντίθεση με ένα μικρότερο μοντέλο (Swap-XXL) που περιέχει 395 δισεκατομμύρια παραμέτρους και 64 ειδικούς. Ωστόσο, σε ένα σημείο αναφοράς – το σύνολο δεδομένων του Sanford Problem Answering (SQuAD) – Ο διακόπτης-C σημείωσε χαμηλότερο (87,7) από το Switch-XXL (89,6), το οποίο αποδίδουν οι ερευνητές στην αδιαφανή σχέση μεταξύ ως σημείο, απαιτήσεις υπολογισμού και αριθμός παραμέτρων.

Σε αυτήν την περίπτωση, το Swap Transformer έχει αποφέρει κέρδη σε μια σειρά από μεταγενέστερες επιχειρήσεις. Για παράδειγμα, επέτρεψε ταχύτητες προ-προπόνησης άνω των 7x χρησιμοποιώντας την ίδια ποσότητα υπολογιστικών πόρων, σύμφωνα με τους ερευνητές, οι οποίοι έδειξαν ότι μεγάλα αραιά μοντέλα θα μπορούσαν να χρησιμοποιηθούν για τη δημιουργία μικρότερων, πυκνότερων μοντέλων βελτιστοποιημένων σε εργασίες με 30% των ποιοτικών κερδών του μεγαλύτερου μοντέλου. Σε μια δοκιμή όπου ένα μοντέλο Switch Transformer εκπαιδεύτηκε για να μεταφράζει περισσότερες από 100 διαφορετικές γλώσσες, οι ερευνητές παρατήρησαν την «καθολική βελτίωση» σε 101 γλώσσες, με το 91% των γλωσσών να επωφελούνται από τέσσερις φορές ταχύτερη ταχύτητα από βασικό μοντέλο.

“Ενώ αυτή η εργασία έχει επικεντρωθεί σε εξαιρετικά μεγάλα μοντέλα, διαπιστώνουμε επίσης ότι τα μοντέλα με τουλάχιστον δύο ειδικούς βελτιώνουν την απόδοση, ενώ αντιμετωπίζουν εύκολα τους περιορισμούς μνήμης των κοινώς διαθέσιμων GPU ή TPU”, έγραψαν οι ερευνητές στο έγγραφο. “Δεν μπορούμε να διατηρήσουμε πλήρως την ποιότητα του μοντέλου, αλλά είναι δυνατόν να επιτύχουμε ρυθμούς συμπίεσης 10 έως 100 φορές με απόσταξη των διασκορπισμένων μοντέλων μας σε πυκνά μοντέλα, επιτυγχάνοντας περίπου το 30% του κέρδους ποιότητας του ειδικού μοντέλου.”

Σε μελλοντικές εργασίες, οι ερευνητές σκοπεύουν να εφαρμόσουν το Change Transformer σε “νέες και διαφορετικές λειτουργίες”, συμπεριλαμβανομένων εικόνων και κειμένου. Πιστεύουν ότι η έλλειψη του μοντέλου μπορεί επίσης να προσφέρει οφέλη σε μια σειρά διαφορετικών μέσων πολυτροπικά μοντέλα.

Δυστυχώς, το έργο των ερευνητών δεν έλαβε υπόψη τον αντίκτυπο αυτών των μεγάλων γλωσσικών μοντέλων στον πραγματικό κόσμο. Τα μοντέλα συχνά ενισχύουν τις προκαταλήψεις που κωδικοποιούνται σε αυτά τα δημόσια δεδομένα. ορισμένα από τα δεδομένα εκπαίδευσης δεν προέρχονται σπάνια από κοινότητες με διαβρωτικός φύλο, φυλή και θρησκευτικές προκαταλήψεις. Η εταιρεία ερευνών τεχνητής νοημοσύνης OpenAI σημειώνει ότι αυτό μπορεί να οδηγήσει σε λέξεις όπως “κακές” ή “απορροφούμενες” δίπλα στις γυναικείες αντωνυμίες και “Ισλάμ” δίπλα σε λέξεις όπως “τρομοκρατία”. Άλλες μελέτες, όπως αυτή που δημοσιεύθηκε από την Intel, το MIT και ερευνητές από την πρωτοβουλία AI CIFAR του Καναδά τον Απρίλιο, διαπίστωσαν υψηλά επίπεδα στερεοτυπικής προκατάληψης από μερικά από τα πιο δημοφιλή μοντέλα, όπως Google BERT είναι XLNet, GPT-2 από το OpenAI, είναι RoBERTa από το Facebook. Σύμφωνα με το Ινστιτούτο Διεθνών Σπουδών του Middlebury, αυτή η προκατάληψη θα μπορούσε να εκμεταλλευτεί κακόβουλους παράγοντες για να προκαλέσει διαφωνίες με τη διάδοση παραπληροφόρησης, παραπληροφόρησης και ψευδών ψευδών που “ριζοσπαστικοποιούν τα άτομα σε βίαιες ακροδεξιές ιδεολογίες και συμπεριφορές”.

Δεν είναι σαφές εάν οι πολιτικές της Google σχετικά με τη δημοσιευμένη αναζήτηση στη μηχανική μάθηση μπορεί να έχουν διαδραματίσει κάποιο ρόλο σε αυτό. Ρόιτερς ανέφεραν στα τέλη του περασμένου έτους ότι οι ερευνητές της εταιρείας υποχρεούνται τώρα να συμβουλευτούν ομάδες ισότιμων, πολιτικών και δημοσίων σχέσεων πριν εξερευνήσουν θέματα όπως η ανάλυση προσώπου και συναισθημάτων και κατηγοριοποιήσεις φυλής, φύλου ή πολιτικής σχέσης . Και στις αρχές Δεκεμβρίου, το Google απολύθηκε Η ηθική της τεχνητής νοημοσύνης Timnit Gebru φέρεται εν μέρει σε ένα ερευνητικό έγγραφο για μεγάλα γλωσσικά μοντέλα που συζήτησαν κινδύνους, συμπεριλαμβανομένης της επίδρασης του αποτυπώματος άνθρακα στις περιθωριοποιημένες κοινότητες και την τάση τους να διαιωνίσουν προσβλητική γλώσσα, ρητορική μίσους, μικρο-επιθετικότητα, στερεότυπα και άλλες απάνθρωπες γλώσσες που απευθύνονται σε συγκεκριμένες ομάδες ανθρώπων.

VentureBeat

Η αποστολή της VentureBeat είναι να είναι μια ψηφιακή πλατεία της πόλης για τους τεχνικούς υπεύθυνους λήψης αποφάσεων για να αποκτήσουν πληροφορίες σχετικά με τη μετασχηματιστική τεχνολογία και τις συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

  • ενημερωμένες πληροφορίες για θέματα που σας ενδιαφέρουν,
  • τα ενημερωτικά δελτία μας
  • πρωτοποριακό περιφραγμένο περιεχόμενο και μειωμένη πρόσβαση στις πολύτιμες εκδηλώσεις μας, όπως το Change
  • δυνατότητες δικτύωσης και άλλα.

Γίνομαι μέλος



[via]

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.