GPT-Νέο

AI Εβδομαδιαία: Γνωρίστε άτομα που θέλουν να αναπαραγάγουν και να ανοίξουν πηγές OpenPT GPT-3 OpenAI


EleutherAI

Σύμφωνα με τον Leahy, το EleutherAI ξεκίνησε ως «κάποιο είδος αστείου» TPU podcast, ένας διακομιστής Discord μηχανικής εκμάθησης, όπου ανέστειλε αστεία ότι κάποιος προσπαθεί να αναπαράγει το GPT-3. Οι Leahy, Gao και Black το έφτασαν στο λογικό τους άκρο και ίδρυσαν τον διακομιστή EleutherAI Discord, ο οποίος έγινε η βάση λειτουργίας του οργανισμού.

«Βλέπω το GPT-3 και άλλα παρόμοια αποτελέσματα ως ισχυρές ενδείξεις ότι μπορεί πραγματικά να είναι δυνατό να δημιουργηθεί [powerful models] με τίποτα εκτός από τις τρέχουσες τεχνικές μας, “είπε η Leahy στο VentureBeat σε μια συνέντευξη.” Πράγματι, αποδεικνύεται πολύ, πολύ δύσκολο, αλλά όχι αδύνατο με μια ομάδα έξυπνων ανθρώπων, όπως έχει δείξει η EleutherAI, και φυσικά με πρόσβαση σε παράλογες ποσότητες υλικού υπολογιστή. ”

Ως μέρος ενός προσωπικού έργου, η Leahy προσπάθησε προηγουμένως να αναπαράγει το GPT-2, αξιοποιώντας την πρόσβαση στον υπολογισμό μέσω του προγράμματος Tensorflow Investigation Cloud (TFRC) της Google. Η αρχική βάση κώδικα, η οποία έγινε GPT-Neo, δημιουργήθηκε για να λειτουργεί σε μονάδες επεξεργασίας τανυστών (TPU), τα προσαρμοσμένα τσιπ επιταχυντή AI της Google. Αλλά η ομάδα του EleutherAI κατέληξε στο συμπέρασμα ότι ακόμη και η γενναιόδωρη ποσότητα TPU που παρέχεται μέσω TFRC δεν θα ήταν αρκετή για να εκπαιδεύσει την έκδοση GPT-3 του GPT-Neo σε λιγότερο από δύο χρόνια.

Η τύχη του EleutherAI άλλαξε όταν επικοινωνήθηκε με την εταιρεία από την CoreWeave, έναν ανθρακωρύχο κρυπτογράφησης που εδρεύει στις ΗΠΑ και παρέχει υπηρεσίες cloud για απόδοση CGI και φόρτο εργασίας μηχανικής μάθησης. Τον περασμένο μήνα, η CoreWeave προσέφερε στην ομάδα EleutherAI πρόσβαση στο υλικό τους σε αντάλλαγμα για ένα μοντέλο ανοιχτού κώδικα τύπου GPT-3 που θα μπορούσαν να χρησιμοποιήσουν και να εξυπηρετήσουν οι πελάτες της.

Ο Leahy επιμένει ότι το έργο, το οποίο ξεκίνησε γύρω στα Χριστούγεννα, δεν θα περιλαμβάνει χρήματα ή άλλη αποζημίωση προς οποιαδήποτε κατεύθυνση. “Το CoreWeave μας δίνει πρόσβαση στο υλικό τους, δημιουργούμε ένα ανοιχτό κώδικα GPT-3 που όλοι μπορούν να χρησιμοποιήσουν (και τους ευχαριστούμε πάρα πολύ), και αυτό είναι”, είπε.

Σύνολο δεδομένων εκπαίδευσης

Η EleutherAI παραδέχεται ότι λόγω της απόφασης του OpenAI να μην κυκλοφορήσει ορισμένες βασικές λεπτομέρειες της αρχιτεκτονικής GPT-3, το GPT-Neo θα παρεκκλίνει από αυτήν τουλάχιστον με αυτούς τους τρόπους. Άλλες διαφορές θα μπορούσαν να προέλθουν από το σύνολο δεδομένων εκπαίδευσης που προτίθεται να χρησιμοποιήσει η EleutherAI, η οποία επιμελήθηκε από μια ομάδα 10 στο EleutherAI, συμπεριλαμβανομένων των Leahy, Gao και Black.

Γλωσσικά μοντέλα όπως το GPT-3 συχνά ενισχύουν τις προκαταλήψεις που κωδικοποιούνται στα δεδομένα. Ορισμένα από τα δεδομένα εκπαίδευσης δεν προέρχονται σπάνια από κοινότητες με διαβρωτικός φύλο, φυλή και θρησκευτικές προκαταλήψεις. Το OpenAI σημειώνει ότι αυτό μπορεί να οδηγήσει στην τοποθέτηση λέξεων όπως “κακό” ή “απορροφημένο” δίπλα στις γυναικείες αντωνυμίες και το “Ισλάμ” δίπλα σε λέξεις όπως “τρομοκρατία”. Άλλες μελέτες, όπως αυτή που δημοσιεύθηκε τον Απρίλιο από την Intel, το MIT και ερευνητές από το Καναδικό Ινστιτούτο Προηγμένης Έρευνας (CIFAR), βρήκαν υψηλά επίπεδα στερεοτυπικής προκατάληψης σε μερικά από τα πιο δημοφιλή μοντέλα, όπως Google BERT είναι XLNet, GPT-2 από το OpenAI, είναι RoBERTa από το Fb. Σύμφωνα με το Ινστιτούτο Διεθνών Σπουδών του Middlebury, κακόβουλοι ηθοποιοί θα μπορούσαν να εκμεταλλευτούν αυτήν την προκατάληψη για να προκαλέσουν διαφωνίες, εξαπλώνοντας παραπληροφόρηση, παραπληροφόρηση και ξεκάθαρα ψέματα που «ριζοσπαστικοποιούν τα άτομα σε βίαιες ακροδεξιές ιδεολογίες και συμπεριφορές».

Από την πλευρά τους, η ομάδα του EleutherAI αναφέρει ότι πραγματοποίησε “εκτεταμένη ανάλυση μεροληψίας” στο σύνολο δεδομένων εκπαίδευσης GPT-Neo και έλαβε “δύσκολες συντακτικές αποφάσεις” για να αποκλείσει ορισμένα σύνολα δεδομένων που θεωρούσαν “απαράδεκτα προκατειλημμένα. αρνητικά “προς ορισμένες ομάδες ή απόψεις. Το Pile, όπως λέγεται, είναι ένα σώμα 835 GB που αποτελείται από 22 μικρότερα σύνολα δεδομένων σε συνδυασμό για να παρέχει άφθονες δυνατότητες γενίκευσης.

“Συνεχίζουμε να μελετάμε προσεκτικά την απόδοση των μοντέλων μας σε διάφορες περιστάσεις και πώς μπορούμε να τα κάνουμε πιο ασφαλή”, δήλωσε ο Leahy.

Η Leahy διαφωνεί προσωπικά με την ιδέα ότι η κυκλοφορία ενός μοντέλου όπως το GPT-3 θα είχε άμεσο αρνητικό αντίκτυπο στην πόλωση. Ένας αντίπαλος που προσπαθεί να δημιουργήσει εξτρεμιστικές απόψεις θα το θεωρούσε πολύ φθηνότερο και ευκολότερο να νοικιάσει τροχόσπιτο, υποστηρίζει, όπως έχουν ήδη κάνει οι αυταρχικές κυβερνήσεις. Επιπλέον, ο Leahy λέει ότι οι συζητήσεις για διακρίσεις και προκατάληψη δείχνουν ένα πραγματικό πρόβλημα, αλλά δεν προσφέρουν πλήρη λύση. Αντί να λογοκρίνει τα δεδομένα εισόδου ενός μοντέλου, λέει ότι η ερευνητική κοινότητα AI πρέπει να εργαστεί προς συστήματα που μπορούν να «μάθουν όλα όσα μπορούν να μάθουν για το κακό και στη συνέχεια να χρησιμοποιήσουν αυτή τη γνώση για να πολεμήσουν το κακό και να γίνουν καλά» .

GPT-Νέο

“Νομίζω ότι η εμπορευματοποίηση των μοντέλων τύπου GPT-3 είναι μέρος μιας αναπόφευκτης τάσης στην πτώση της τιμής παραγωγής συναρπαστικού ψηφιακού περιεχομένου που δεν θα εκτροχιαστεί σημαντικά εάν κυκλοφορήσει ένα μοντέλο”, συνέχισε η Leahy. “Η μεγαλύτερη επιρροή που μπορούμε να έχουμε εδώ είναι να επιτρέψουμε σε περισσότερους χρήστες με λίγους πόρους, ειδικά ακαδημαϊκούς, να έχουν πρόσβαση σε αυτές τις τεχνολογίες για να τις μελετήσουν καλύτερα, ελπίζουμε, και επίσης να τρέξουμε τη δική μας μάρκα έρευνας επικεντρωμένης στην ασφάλεια σε αυτές. να έχουν όλα κλειδωμένα στα εργαστήρια της βιομηχανίας. Εξάλλου, αυτό είναι ακόμη αιχμή της έρευνας. Προβλήματα όπως η μεροληψία αναπαραγωγής θα προκύψουν φυσικά όταν τέτοια μοντέλα χρησιμοποιούνται όπως είναι στην παραγωγή χωρίς ευρύτερη έρευνα, την οποία ελπίζουμε να δούμε από τον κόσμο ακαδημαϊκό, χάρη στην καλύτερη διαθεσιμότητα μοντέλων “.

Google πρόσφατα απολύθηκε Η ηθική της τεχνητής νοημοσύνης Timnit Gebru φέρεται να αναφέρεται εν μέρει σε ένα ερευνητικό έγγραφο για μεγάλα γλωσσικά μοντέλα που συζήτησαν κινδύνους όπως ο αντίκτυπος του αποτυπώματος άνθρακα στις περιθωριοποιημένες κοινότητες. Όταν ρωτήθηκε για τις περιβαλλοντικές επιπτώσεις της εκπαίδευσης GPT-Neo, η Leahy χαρακτήρισε το θέμα «κόκκινη ρέγγα», λέγοντας ότι πιστεύει ότι είναι ένα ερώτημα εάν οι άκρες δικαιολογούν τα μέσα – δηλαδή, αν το αποτέλεσμα της εκπαίδευσης αξίζει την ενέργεια. βάλε μέσα.

“Η ποσότητα ενέργειας που πηγαίνει στην εκπαίδευση ενός τέτοιου μοντέλου είναι πολύ μικρότερη από, ας πούμε, την ενέργεια που προορίζεται για την εξυπηρέτηση οποιουδήποτε μεσαίου ιστότοπου ή μιας διατλαντικής πτήσης για να παρουσιάσει ένα έγγραφο σχετικά με τις εκπομπές άνθρακα των μοντέλων. AI σε συνέδριο ή, Θεέ μου, Bitcoin mining, »είπε ο Leahy. “Κανείς δεν παραπονιέται για το νομοσχέδιο ενέργειας του CERN (Ευρωπαϊκός Οργανισμός Πυρηνικής Έρευνας) και δεν νομίζω ότι θα έπρεπε.”

Μελλοντική δουλέια

Η EleutherAI σχεδιάζει να χρησιμοποιήσει αρχιτεκτονικές αλλαγές που η ομάδα θεώρησε χρήσιμη για την εκπαίδευση του GPT-Neo, οι οποίες αναμένουν ότι θα επιτρέψει στο μοντέλο να επιτύχει “παρόμοια” απόδοση με το GPT-3 σε περίπου το ίδιο μέγεθος (περίπου 350 GB έως 700 GB βάρη ). Στο μέλλον, σκοπεύουν να αποστάξουν το τελικό μοντέλο σε «τάξη μεγέθους περίπου» για ευκολότερη συναγωγή. Και ενώ δεν σκοπεύουν να παρέχουν οποιοδήποτε είδος εμπορικού API, αναμένουν από το CoreWeave και άλλους να διαμορφώσουν υπηρεσίες ώστε το GPT-Neo να είναι προσβάσιμο στους χρήστες.

Όσο για την επόμενη επανάληψη του GPT και εξίσου μεγάλα και περίπλοκα μοντέλα, όπως η παράμετρος τρισεκατομμυρίων της Google Διακόπτης-C, Η Leahy πιστεύει ότι πιθανότατα θα είναι πιο δύσκολο να αναπαραχθεί. Ωστόσο, υπάρχουν ενδείξεις ότι οι βελτιώσεις στην απόδοση θα μπορούσαν να αντισταθμίσουν τις αυξανόμενες απαιτήσεις υπολογισμού. Ένα OpenAI ψηφοφορία διαπίστωσε ότι από το 2012, ο απαιτούμενος όγκος επεξεργασίας για την εκπαίδευση ενός μοντέλου AI με τις ίδιες εικόνες απόδοσης σε ένα δημοφιλές σημείο αναφοράς (ImageNet) έχει μειωθεί δύο φορές κάθε 16 μήνες. Αλλά ο βαθμός στον οποίο ο υπολογισμός συμβάλλει στην απόδοση σε σχέση με τις νέες αλγοριθμικές προσεγγίσεις παραμένει ένα ανοιχτό ερώτημα.

“Φαίνεται αναπόφευκτο ότι τα μοντέλα θα συνεχίσουν να αυξάνονται στο μέγεθος όσο ακολουθούν οι αυξήσεις της απόδοσης”, δήλωσε ο Leahy. «Τα μοντέλα αρκετά μεγάλα, φυσικά, θα είναι απρόσιτα για μικρότερους ηθοποιούς, αλλά αυτό μου φαίνεται ότι είναι απλώς γεγονός. Μου φαίνεται ότι δεν υπάρχουν βιώσιμες εναλλακτικές λύσεις. Εάν τα μεγαλύτερα μοντέλα ισοδυναμούν με καλύτερη απόδοση, όποιος διαθέτει τον μεγαλύτερο υπολογιστή θα κάνει το μεγαλύτερο μοντέλο και έτσι θα έχει την καλύτερη απόδοση, τόσο εύκολο όσο ακούγεται. Μακάρι να μην ήταν, αλλά δεν υπάρχει τίποτα που να μπορεί να γίνει για αυτό. ”

Για κάλυψη AI, στείλτε συμβουλές ειδήσεων στους Khari Johnson και Kyle Wiggers και τον συντάκτη AI Seth Colaner και φροντίστε να εγγραφείτε Εβδομαδιαίο ενημερωτικό δελτίο AI και να προσθέσουμε σελιδοδείκτη στο κανάλι AI, Το αυτοκίνητο.

Ευχαριστώ για την ανάγνωση,

Kyle Wiggers

Συγγραφέας προσωπικού AI

VentureBeat

Η αποστολή της VentureBeat είναι να είναι ένα ψηφιακό τετράγωνο πόλης για τεχνικούς υπεύθυνους λήψης αποφάσεων για να αποκτήσουν πληροφορίες σχετικά με τη μετασχηματιστική τεχνολογία και τις συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

  • ενημερωμένες πληροφορίες για θέματα που σας ενδιαφέρουν
  • τα ενημερωτικά δελτία μας
  • Περιεχόμενο περιφραγμένο με κορυφαία σκέψη και μειωμένη πρόσβαση στα πολύτιμα γεγονότα μας, όπως το Completely transform
  • δυνατότητες δικτύωσης και άλλα

Γίνομαι μέλος



[via]