Οι ερευνητές διαπιστώνουν ότι τα γλωσσικά μοντέλα δεν ακολουθούν βασικές οδηγίες

Δοκιμή Τουρκίας


Ενα νέο χαρτί Δημοσιεύθηκε από ερευνητές που συνδέονται με το Facebook και το Πανεπιστήμιο του Τελ Αβίβ, διερευνά εάν τα μοτίβα μηχανικής εκμάθησης γλωσσών μπορούν να περιλαμβάνουν βασικά σύνολα οδηγιών. Οι ερευνητές προτείνουν μια δοκιμή που ονομάζεται Turking Check για να εξετάσει την ικανότητα ενός μοντέλου να ακολουθεί τις οδηγίες της φυσικής γλώσσας. Παρά αυτό που οι ερευνητές αναφέρονται ως μια επιεική μεθοδολογία αξιολόγησης, παρατήρησαν ότι ένα προ-εκπαιδευμένο γλωσσικό μοντέλο είχε χαμηλή απόδοση σε όλες τις δραστηριότητες.

Ένα από τα θεμελιώδη προβλήματα της τεχνητής νοημοσύνης είναι η δημιουργία ενός μοντέλου που μπορεί να γενικευτεί σε εργασίες που δεν έχουν ξαναδεί. Η πρόσφατη εργασία προτείνει μια προσέγγιση συμπερασμάτων μερικών πινελιών, στην οποία ένα γλωσσικό μοντέλο εξαρτάται από ορισμένα παραδείγματα μιας νέας εργασίας, ακολουθούμενη από την εισαγωγή για την επεξεργασία μοντέλων. Αυτή η προσέγγιση λειτουργεί καλά σε μια σειρά από εργασίες, αλλά οι συν-συγγραφείς αυτού του εγγράφου προσπάθησαν να προσδιορίσουν εάν τα γλωσσικά μοντέλα θα μπορούσαν να εκτελέσουν νέες εργασίες με την προσαρμογή τους στις οδηγίες.

Το Turking Examination αποτελείται από σημεία αναφοράς που ακολουθούν οδηγίες διαφορετικής συντακτικής πολυπλοκότητας, ξεκινώντας από εργασίες “turking”, στις οποίες ένα μοντέλο πρέπει να δημιουργήσει έγκυρα παραδείγματα δημοφιλών συνόλων δεδομένων επεξεργασίας φυσικής γλώσσας. (Αυτό προορίζεται για την προσομοίωση εργασιών που εκτελούνται συνήθως από τους λαϊκούς σε πλατφόρμες crowdsourcing, όπως το Amazon Mechanical Turk.) Ένα άλλο μέρος του τεστ εκτελεί το μοντέλο, απαριθμώντας όλα τα ονόματα που πληρούν μια απλή συνθήκη σε μια δεδομένη πρόταση. Για να περάσει το Turking Test, το μοντέλο πρέπει επίσης να γράψει μια ακόμη λέξη ή χαρακτήρα σε μια δεδομένη πρόταση.

Οι ερευνητές εφάρμοσαν το Turking Task στο GPT-2 του OpenAI, ένα μοντέλο με 1,5 δισεκατομμύρια παραμέτρους (μεταβλητές μέσα στο μοντέλο που διαμορφώνουν τις προβλέψεις του). Συνολικά, τα αποτελέσματα ήταν απογοητευτικά. Το GPT-2 πέτυχε μόνο 2% ακρίβεια στο έργο της σύνταξης μιας ακόμη λέξης, την οποία οι συγγραφείς σημειώνουν ότι ένας μαθητής δημοτικού σχολείου μπορεί εύκολα να κάνει. Το μοντέλο αγνόησε επίσης τους ρητούς περιορισμούς και τις προϋποθέσεις που εμφανίζονται στις οδηγίες, επιτυγχάνοντας μόνο ελαφρώς υψηλότερη ακρίβεια σε αόριστες δραστηριότητες από αυτές με συγκεκριμένες απαντήσεις.

«Η ανάλυση των προτύπων σφάλματος του μοντέλου αποκαλύπτει ότι το μοντέλο τείνει να αγνοεί ρητές οδηγίες και συχνά δημιουργεί έξοδο που δεν μπορεί να ερμηνευτεί ως απόπειρα επίλυσης της εργασίας», έγραψαν οι ερευνητές. «Το γεγονός ότι ένα τόσο υψηλό ποσοστό παραγωγής αποτελείται από άσκοπες επαναλήψεις δείχνει ότι το μοντέλο δεν μπορεί να κατανοήσει αυτές τις ασήμαντες οδηγίες. Ενώ αυτές οι δραστηριότητες είναι παρόμοιες και έχουν σχεδόν πανομοιότυπες οδηγίες, διαπιστώνουμε ότι τα μοτίβα επανάληψής τους διαφέρουν σημαντικά, υποδηλώνοντας ότι το μοτίβο είναι υπερβολικά ευαίσθητο σε μικρές αλλαγές στις οδηγίες. “

Τα γλωσσικά μοντέλα πρέπει να μάθουν πολλά αν θα συνομιλήσουν μια μέρα σαν να νοιάζονται τα ανθρώπινα όντα. Εκτός από την προφανή αδυναμία να ακολουθήσουν τις οδηγίες, είναι επίσης ευάλωτοι σε προκατάληψη και αγωνίζονται να κατανοήσουν τις γενικές γνώσεις. Η έρευνα δείχνει ότι τα κριτήρια αναφοράς όπως το XTREME δεν το κάνουν μετρήστε καλά τη γνώση των μοντέλων και ότι μοντέλα όπως το T-ULRv2 μπορούν να δείξουν τοξικότητα π.χ. προκατάληψη για συγκεκριμένες δημογραφικές ομάδες.

Η κάλυψη των κενών πιθανότατα θα απαιτήσει νέες τεχνικές και προσεγγίσεις. Ο Sam Altman είναι διευθύνων σύμβουλος της OpenAI, της εταιρείας πίσω από το GPT-2 και το GPT-3 (διάδοχός του). Απαντώντας σε δημόσιες αντιδράσεις στο GPT-3, ο Altman είπε πρόσφατα ότι “η διαφημιστική εκστρατεία είναι πάρα πολύ. Είναι εντυπωσιακό, αλλά εξακολουθεί να έχει σοβαρές αδυναμίες και μερικές φορές κάνει πολύ ανόητα λάθη. Η AI θα αλλάξει τον κόσμο, αλλά [cutting-edge language models] είναι απλώς μια πρώτη γεύση. Έχουμε ακόμη πολλά να ανακαλύψουμε. “


Το πρόβλημα ήχου:

Μάθετε πώς οι νέες λύσεις API που βασίζονται σε σύννεφο επιλύουν ελαττωματικό και απογοητευτικό ήχο στη διάσκεψη βίντεο Συνδεθείτε εδώ




[via]