Οι ερευνητές πιστεύουν ότι τα πρωτοποριακά γλωσσικά μοντέλα υπολείπονται των βασικών συλλογισμών

Ερωτήσεις σχετικά με τη συλλογιστική του γλωσσικού μοντέλου


Ακόμη και εξελιγμένα γλωσσικά μοντέλα όπως το OpenAI GPT-3 αγώνα με κοινωνικά σημαντικά θέματα όπως η ηθική, η ιστορία και ο νόμος. Αυτό είναι το πιο σημαντικό αποτέλεσμα του α νέα κάρτα Συν-συγγραφέας της Κολούμπια, του Πανεπιστημίου του Σικάγου και του Πανεπιστημίου της Καλιφόρνια, ερευνητές του Μπέρκλεϊ προτείνουν μια δοκιμή 57 δραστηριοτήτων για τη μέτρηση της συλλογιστικής ικανότητας των μοντέλων. Τα μοντέλα πρέπει να διαθέτουν δεξιότητες επίλυσης προβλημάτων και εκτεταμένες γνώσεις του κόσμου για να έχουν καλή απόδοση στο τεστ. Αλλά στα πειράματα, οι συν-συγγραφείς διαπίστωσαν ότι τα μοντέλα που ανέλυσαν, συμπεριλαμβανομένης της GPT-3, συχνά δεν ήξεραν πότε ήταν λάθος.

Ο στόχος του νέου σετ δοκιμών είναι να γεφυρώσει το χάσμα μεταξύ των μοντέλων γνώσης που βλέπουν κατά τη διάρκεια της εκπαίδευσης και των υφιστάμενων μέτρων επιτυχίας στην επεξεργασία φυσικής γλώσσας. Όπως όλα τα μοντέλα μηχανικής εκμάθησης, τα μοντέλα γλωσσών μαθαίνουν μοτίβα από τεράστια σύνολα δεδομένων που προέρχονται συχνά από τη Wikipedia, το Reddit, τα ηλεκτρονικά βιβλία και άλλες πηγές ιστού. Ορισμένα πρόσφατα σημεία αναφοράς προσπάθησαν να συλλάβουν τις γλωσσικές δυνατότητες των μοντέλων, αλλά μέχρι στιγμής, υπάρχουν λίγα στοιχεία που υποδηλώνουν συσχέτιση μεταξύ της απόδοσης αναφοράς και της κατανόησης ενός μοντέλου για τη λογική της λογικής.

Οι ερευνητές λένε ότι το τεστ τους είναι διαφορετικό, καθώς αξιολογεί τα πρότυπα μεταξύ των θεμάτων που μαθαίνουν συνήθως οι άνθρωποι, όπως τα μαθηματικά, η ιστορία και η ηθική. Για να συμβεί αυτό, οι μεταπτυχιακοί και προπτυχιακοί φοιτητές συνέλεξαν 15.908 ερωτήσεις από πηγές που διατίθενται δωρεάν στο διαδίκτυο, συμπεριλαμβανομένων εξετάσεων πρακτικής για πανεπιστημιακά μαθήματα, κουίζ για αναγνώστες των εκδόσεων του Πανεπιστημίου Oxford College Push και εξετάσεις όπως Εξέταση Μεταπτυχιακών Αρχείων, Εξέταση Αδειών Ιατρικής των ΗΠΑ και Εξέταση Επαγγελματικής Πρακτικής στο ψυχολογία. Οι εργασίες ποικίλλουν σε δυσκολία από ένα στοιχειώδες επίπεδο σε ένα «προηγμένο επαγγελματικό επίπεδο», μια δειγματοληψία σύμφωνα με τους συν-συγγραφείς είναι αρκετή για τον εντοπισμό των τυφλών σημείων ενός μοντέλου.

Πάνω: Δείγμα ερωτήσεων από το σύνολο δοκιμών των ερευνητών.

“Μετρούμε την αυθαίρετη κατανόηση του κειμένου στον πραγματικό κόσμο”, έγραψαν, σημειώνοντας ότι κάθε θέμα περιέχει τουλάχιστον 100 παραδείγματα δοκιμών. “Επειδή τα μοντέλα είναι προ-εκπαιδευμένα στο Διαδίκτυο, αυτό μας επιτρέπει να δοκιμάσουμε πόσο καλά μπορούν να εξαγάγουν χρήσιμες γνώσεις από τεράστιες εταιρείες.”

Εκτός από το GPT-3, οι ερευνητές συνέκριναν το Google T5 και το Allen Institute for AI’s UnifiedQA Problem Remedy Product με το δοκιμαστικό τους σύνολο. Τα αποτελέσματα δείχνουν ότι σημαντικές προόδους έχουν καταστεί δυνατές μόνο τους τελευταίους μήνες, με μοντέλα που περιέχουν έως και 13 δισεκατομμύρια παραμέτρους που επιτυγχάνουν ακρίβεια 25% και μοντέλα με 175 δισεκατομμύρια παραμέτρους όπως η GPT-3 που επιτυγχάνει 43,9% ακρίβεια. . (Οι παράμετροι είναι τμήματα του μοντέλου που αντλήθηκαν από ιστορικά δεδομένα εκπαίδευσης.) Ωστόσο, στην περίπτωση αυτή, το GPT-3 απέτυχε να ξεχωρίσει σε κανένα θέμα. Η απόδοσή του στο σετ δοκιμών ήταν ανισορροπημένη, με σχεδόν 70% ακρίβεια για το καλύτερο θέμα του (εξωτερική πολιτική των ΗΠΑ) αλλά “σχεδόν τυχαία” απόδοση για πολλά άλλα θέματα (π.χ. χημεία κολλεγίων).

“Συνολικά, το GPT-3 πονάει σε εξαιρετικά διαδικαστικά ζητήματα”, εξήγησαν οι ερευνητές. “Είναι ιδιαίτερα φτωχό στη μοντελοποίηση της ανθρώπινης (dis) έγκρισης, όπως φαίνεται από τη χαμηλή απόδοση σε επαγγελματικά νομικά καθήκοντα και ηθικά σενάρια, [and it] Επίσης, δυσκολεύεται να εκτελέσει υπολογισμούς, τόσο πολύ ώστε να παρουσιάζει κακή απόδοση στα στοιχειώδη μαθηματικά και σε πολλά άλλα θέματα STEM με προβλήματα “plug and chug” … Ας υποθέσουμε ότι είναι εν μέρει επειδή το GPT-3 αποκτά δηλωτικές γνώσεις πιο εύκολα από τις διαδικαστικές γνώσεις. “

Τα ευρήματα υποδηλώνουν ότι τα τρέχοντα μοντέλα έχουν περιθώρια βελτίωσης, αλλά δεν είναι σαφές εάν αρκούν οι υπάρχουσες τεχνικές. Όπως επεσήμαναν οι ερευνητές, η προηγούμενη έρευνα δείχνει ότι μια 10πλάσια αύξηση του μεγέθους του μοντέλου πρέπει να συνοδεύεται από περίπου 5 φορές αύξηση των δεδομένων, κάτι που θα μπορούσε να είναι λογικά απαγορευτικό.

“Εκτός από το τεράστιο κόστος κατασκευής πολυμετρικών παραμετρικών γλωσσικών μοντέλων, τα δεδομένα μπορούν επίσης να αποτελέσουν εμπόδιο”, συνέχισαν οι ερευνητές. “Υπάρχουν πολύ λιγότερα γραπτά στους εσωτερικούς κλάδους της γνώσης από ό, τι στο καθημερινό κείμενο.”



[via]

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.