Το Dynabench του Facebook στοχεύει να κάνει τα μοντέλα AI πιο ισχυρά μέσω κατανεμημένων εργαζομένων

Facebook Dynabench


Το Facebook παρουσίασε σήμερα Dynabench, μια πλατφόρμα συλλογής δεδομένων και συγκριτικής αξιολόγησης που χρησιμοποιεί ανθρώπους και μοντέλα “ξανά και ξανά” για τη δημιουργία απαιτητικών συνόλων δεδομένων. Αξιοποιώντας μια τεχνική που ονομάζεται συλλογή δυναμικών αντιπαραθέσεων, το Dynabench μετρά πόσο εύκολα οι άνθρωποι μπορούν να ξεγελάσουν το AI, το οποίο το Fb πιστεύει ότι είναι ένας καλύτερος δείκτης της ποιότητας ενός μοντέλου από ό, τι παρέχουν τα σημερινά σημεία αναφοράς.

Ορισμένες μελέτες υποδηλώνουν ότι τα κοινά χρησιμοποιούμενα κριτήρια αξιολόγησης έχουν κακή δουλειά για την εκτίμηση της πραγματικής απόδοσης της τεχνητής νοημοσύνης. Ένα πρόσφατο σχέση διαπίστωσε ότι το 60% -70% των απαντήσεων που παρέχονται από μοντέλα επεξεργασίας φυσικής γλώσσας (NLP) ενσωματώθηκαν κάπου στα εκπαιδευτικά σύνολα αναφοράς, υποδεικνύοντας ότι τα μοντέλα συχνά απλώς απομνημόνευαν τις απαντήσεις. Μια άλλη μελέτη, μια μετα-ανάλυση περισσότερων από 3.000 άρθρων σχετικά με την τεχνητή νοημοσύνη, διαπίστωσε ότι οι μετρήσεις που χρησιμοποιούνται για τη σύγκριση των μοντέλων AI και μηχανικής μάθησης τείνουν να είναι ασυνεπείς, ανομοιογενείς και όχι ιδιαίτερα ενημερωτικοί.

Η προσπάθεια του Facebook να αντιμετωπίσει αυτό προφανώς εμπνεύστηκε από τη δοκιμή Turing, μια δοκιμή της ικανότητας ενός μηχανήματος να επιδεικνύει συμπεριφορά ισοδύναμη με (ή διακριτή από) του ανθρώπου. Καθώς οι χρήστες χρησιμοποιούν το Dynabench για να αξιολογήσουν την απόδοση των μοντέλων τους, η πλατφόρμα παρακολουθεί ποια παραδείγματα παραπλανούν τα μοντέλα και οδηγούν σε εσφαλμένες προβλέψεις. Αυτά τα παραδείγματα βελτιώνουν τα συστήματα και γίνονται μέρος πιο απαιτητικών συνόλων δεδομένων που εκπαιδεύουν την επόμενη γενιά μοντέλων, τα οποία με τη σειρά τους μπορούν να συγκριθούν με το Dynabench για να δημιουργήσουν έναν «ενάρετο κύκλο» της ερευνητικής προόδου. Τουλάχιστον στη θεωρία.

“Το Dynabench είναι ουσιαστικά ένα επιστημονικό πείραμα για να διαπιστώσει εάν η ερευνητική κοινότητα AI μπορεί να μετρήσει καλύτερα τις δυνατότητες των συστημάτων μας και να κάνει ταχύτερη πρόοδο”, εξήγησαν οι ερευνητές του Facebook Douwe Kiela και η Adina Williams σε μια δημοσίευση ιστολογίου. «Παρουσιάζουμε το Dynabench με τέσσερις γνωστές επιχειρήσεις NLP. Σκοπεύουμε να ανοίξουμε το Dynabench στον κόσμο για όλους τους τύπους επιχειρήσεων, γλωσσών και τρόπων. Ελπίζουμε να ενθαρρύνουμε τους “hackers μοντέλων” να παρουσιάσουν ενδιαφέροντα νέα παραδείγματα λανθασμένων μοντέλων και να ενθαρρύνουμε τους “μοντέλους” να δημιουργήσουν νέα μοντέλα με λιγότερες αδυναμίες.

Το Facebook δεν είναι ο πρώτος που προτείνει μια προσέγγιση με επίκεντρο το πλήθος στην ανάπτυξη μοντέλων. Το 2017, το Εργαστήριο Υπολογιστικής Γλωσσολογίας και Επεξεργασίας Πληροφοριών στο Πανεπιστήμιο του Μέριλαντ ξεκίνησε μια πλατφόρμα που ονομάζεται Crack It, Build It, η οποία επιτρέπει στους ερευνητές να παρουσιάσουν μοντέλα στους χρήστες που είναι υπεύθυνοι για την παροχή παραδειγμάτων για να τους νικήσουν. Ένα 2019 χαρτί περιέγραψε μια ρύθμιση όπου οι λάτρεις των κουίζ έλαβαν οδηγίες να δημιουργήσουν επικυρωμένες ερωτήσεις μέσω ζωντανών αγώνων ανθρώπου-υπολογιστή. Και πιο πρόσφατα, ερευνητές από το University College London εξερεύνησε η επίδραση της κατάρτισης μοντέλων AI σε σύνολα δεδομένων “που έχουν συλλεγεί δυσμενώς” που παρασκευάζονται από ανθρώπους.

Το ίδιο το Facebook έχει παίξει με την ιδέα της μόχλευσης της ανθρώπινης εκπαίδευσης και της συγκριτικής αξιολόγησης AI. Το ίδρυμα για το Dynabench μπορεί να βρίσκεται σε ένα έγγραφο που δημοσιεύθηκε από τους ερευνητές του Facebook AI το 2018, στο οποίο οι συν-συγγραφείς προτείνουν τη χρήση gamification για να παρακινήσουν τους χρήστες να εκπαιδεύσουν καλύτερα μοντέλα καθώς συνεργάζονται μεταξύ τους. Αυτό το θεμελιώδες έργο βοήθησε Βελτιστοποίηση της Η ανίχνευση καταχρηστικής γλώσσας από το Facebook οδήγησε στην απελευθέρωση ενός συνόλου δεδομένων – Adversarial Purely natural Language Inference – που δημιουργήθηκε έχοντας τους σχολιαστές να ξεγελάσουν μοντέλα σχετικά με τις δραστηριότητες συμπερασμάτων. Επιπλέον, η μελέτη του 2018 πιθανότατα ενημέρωσε την ανάπτυξη του Fantasy RPG που βασίζεται σε κείμενο που πρόσφατα πιλότισε το Fb παιχνίδι το οποίο επαναλαμβάνει μεταξύ της συλλογής δεδομένων από εθελοντές και των μοντέλων επανεκπαίδευσης σε συλλεγόμενα δεδομένα, επιτρέποντας στους ερευνητές να λάβουν δεδομένα στο ένα πέμπτο της τιμής ανά έκφραση του crowdsourcing.

Facebook Dynabench

«Το βρίσκουμε συναρπαστικό, διότι αυτή η προσέγγιση δείχνει ότι είναι δυνατό να κατασκευαστεί συνεχώς βελτιωμένα μοντέλα που μαθαίνουν από την αλληλεπίδραση με ανθρώπους στη φύση (σε αντίθεση με τα πειράματα με πληρωμένους συνεργάτες)», έγραψε οι συν-συγγραφείς ενός εγγράφου που περιγράφει το παιχνίδι με βάση το παιχνίδι. σε κείμενο, αναφερόμενοι στην πρακτική της πληρωμής των εργαζομένων σε πλήθος μέσω πλατφορμών όπως το Amazon Mechanical Turk για την πραγματοποίηση εκπαίδευσης AI και συγκριτικής αξιολόγησης. “Αυτό αντιπροσωπεύει μια αλλαγή παραδείγματος από την περιορισμένη διαμόρφωση του συνόλου στατικών δεδομένων που επικρατεί σε μεγάλο μέρος της κοινοτικής εργασίας.”

Στο Dynabench, η συγκριτική αξιολόγηση πραγματοποιείται στο cloud σε πολλούς γύρους χρησιμοποιώντας το Torchserve και το Captum, μια βιβλιοθήκη ερμηνείας για το πλαίσιο μηχανικής εκμάθησης του Fb PyTorch. Κατά τη διάρκεια κάθε γύρου, ένας ερευνητής ή μηχανικός επιλέγει ένα ή περισσότερα μοντέλα για χρήση ως στόχο δοκιμής. Το Dynabench συλλέγει παραδείγματα χρησιμοποιώντας αυτά τα πρότυπα και δημοσιεύει περιοδικά ενημερωμένα σύνολα δεδομένων στην κοινότητα. Όταν τα νέα μοντέλα αιχμής καταγράφουν τα περισσότερα ή όλα τα παραδείγματα που ξεγελούσαν τα προηγούμενα μοντέλα, είναι δυνατό να ξεκινήσετε έναν νέο γύρο με αυτά τα καλύτερα μοντέλα στον κύκλο.

Οι σχολιαστές Crowdsourced συνδέονται με το Dynabench χρησιμοποιώντας το Mephisto, μια πλατφόρμα για την εκκίνηση, την παρακολούθηση και την αναθεώρηση του φόρτου εργασίας της επιστήμης δεδομένων. Λαμβάνουν σχόλια σχετικά με την απάντηση ενός δεδομένου μοντέλου σχεδόν αμέσως, επιτρέποντάς τους να χρησιμοποιούν τακτικές όπως η εστίαση του μοντέλου σε λάθος λέξη ή η απόπειρα απάντησης σε ερωτήσεις που απαιτούν σε βάθος γνώση του πραγματικού κόσμου.

Το Fb δηλώνει ότι όλα τα παραδείγματα στο Dynabench επικυρώνονται από άλλους σχολιαστές και ότι εάν αυτοί οι σχολιαστές διαφωνούν με την αρχική ετικέτα, το παράδειγμα απορρίπτεται. Εάν το παράδειγμα είναι προσβλητικό ή υπάρχει κάτι άλλο λάθος, οι σχολιαστές μπορούν να επισημάνουν το παράδειγμα, το οποίο θα προκαλέσει μια κριτική από ειδικούς. (Το Fb ισχυρίζεται ότι προσέλαβε έναν ειδικό γλωσσολόγο για το σκοπό αυτό.)

Facebook Dynabench

Η πρώτη επανάληψη του Dynabench επικεντρώνεται σε τέσσερις κύριες δραστηριότητες – συμπεράσματα φυσικής γλώσσας, απάντηση ερωτήσεων, ανάλυση συναισθημάτων και ρητορική μίσους – στον τομέα της αγγλικής NLP, η οποία σύμφωνα με την Kiela και τον Williams υποφέρει περισσότερο από τον γρήγορο «κορεσμό» των σημείων αναφοράς. . (Ενώ η ερευνητική κοινότητα χρειάστηκε περίπου 18 χρόνια για να εκτελέσει επιδόσεις σε επίπεδο ανθρώπου στο σημείο αναφοράς μηχανικής όρασης MNIST και περίπου έξι χρόνια για να ξεπεράσει τους ανθρώπους στο ImageNet, τα μοντέλα κέρδισαν τους ανθρώπους στο σημείο αναφοράς GLUE για κατανόηση γλώσσας μετά μόλις ένα χρόνο.) Το Fb συνεργάστηκε με ερευνητές με ακαδημαϊκά ιδρύματα όπως το Πανεπιστήμιο της Βόρειας Καρολίνας στο Chapel Hill, το University College London και το Stanford για να εντοπίσουν, να αναπτύξουν και να διατηρήσουν επιχειρήσεις στο Dynabench και η εταιρεία το λέει Θα χρησιμοποιήσει τη χρηματοδότηση για να ενθαρρύνει τους ανθρώπους να καταγράφουν δραστηριότητες – ένα κρίσιμο βήμα στη διαδικασία συγκριτικής αξιολόγησης.

Ο Κίελα και ο Ουίλιαμς λένε ότι επειδή η διαδικασία μπορεί να επαναληφθεί συχνά, το Dynabench μπορεί να χρησιμοποιηθεί για τον εντοπισμό προκαταλήψεων και τη δημιουργία παραδειγμάτων που ελέγχουν εάν το μοντέλο τις έχει ξεπεράσει. Υποστηρίζουν επίσης ότι το Dynabench κάνει τα μοντέλα πιο ανθεκτικά σε ευπάθειες και άλλες αδυναμίες, επειδή οι ανθρώπινοι σχολιαστές μπορούν να δημιουργήσουν πολλά παραδείγματα σε μια προσπάθεια να τους ξεγελάσουν.

“Τελικά, αυτή η μέτρηση θα αντικατοπτρίζει καλύτερα την απόδοση των μοντέλων AI στις περιστάσεις που έχουν μεγαλύτερη σημασία: όταν αλληλεπιδρά με ανθρώπους, που συμπεριφέρονται και αντιδρούν με περίπλοκους και μεταβαλλόμενους τρόπους που δεν μπορούν να αντικατοπτρίζονται σε ένα καθορισμένο σύνολο σημείων. δεδομένα, “έγραψε. «Το Dynabench μπορεί να το αμφισβητήσει με τρόπους που δεν μπορεί να σταθεί μια στατική δοκιμή. Για παράδειγμα, ένας φοιτητής πανεπιστημίου μπορεί να προσπαθήσει να περάσει μια εξέταση μόνο απομνημονεύοντας ένα μεγάλο σύνολο γεγονότων. Αλλά αυτή η στρατηγική δεν θα λειτουργούσε σε προφορικές εξετάσεις, όπου ο μαθητής πρέπει να δείξει αληθινή κατανόηση όταν υποβάλλεται σε βάθος και απρόσμενες ερωτήσεις. “

Facebook Dynabench

Απομένει να δούμε σε ποιο βαθμό το Dynabench μετριάζει την προκατάληψη του μοντέλου, λαμβάνοντας ιδιαίτερα υπόψη το κακό ιστορικό του Fb σε αυτό το θέμα. Πρόσφατο Νιου Γιορκ Ταιμς σχέση βρήκαν στοιχεία ότι ο αλγόριθμος προτάσεων του Facebook έχει ενθαρρύνει την ανάπτυξη του QAnon, μιας χαλαρά συνδεδεμένης ομάδας που ισχυρίζεται ότι ένας παιδόφιλος ενωμένος σχεδιάζει εναντίον του Προέδρου Ντόναλντ Τραμπ. Ενας ξεχωριστός έρευνα αποκάλυψε ότι στο Instagram στις ΗΠΑ το 2019, οι μαύροι χρήστες είχαν περίπου 50% περισσότερες πιθανότητες να απενεργοποιήσουν τους λογαριασμούς τους από αυτοματοποιημένα συστήματα εποπτείας από εκείνα των οποίων η δραστηριότητα έδειχνε ότι ήταν λευκοί. Τον Ιανουάριο, αναπληρωτής καθηγητής του Πανεπιστημίου του Σιάτλ, Caitlin Ring Carlson δημοσιευμένα αποτελέσματα από ένα πείραμα στο οποίο αυτή και μια συνάδελφος συνέλεξαν περισσότερες από 300 αναρτήσεις που φάνηκε ότι παραβιάζουν τους κανόνες ρητορικής μίσους του Facebook και τις ανέφεραν μέσω των εργαλείων της υπηρεσίας. μόνο οι μισές από τις δημοσιεύσεις καταργήθηκαν τελικά. Και τον Μάιο, λόγω ενός σφάλματος που αργότερα επιδιορθώθηκε, το αυτοματοποιημένο σύστημα του Facebook απειλείται απαγορεύουν στους διοργανωτές μιας ομάδας που εργάζεται να ράβει μάσκες στην πλατφόρμα να σχολιάζουν ή να δημοσιεύουν, ενημερώνοντάς τους ότι η ομάδα θα μπορούσε να ακυρωθεί εντελώς.

Το Fb λέει ότι ενώ το Dynabench δεν παρέχει προς το παρόν εργαλεία για τον μετριασμό της προκατάληψης, μια μελλοντική κυκλοφορία θα μπορούσε να συμβεί καθώς ωριμάζει η έρευνα. “Η μέτρηση της προκατάληψης εξακολουθεί να είναι μια ανοιχτή ερώτηση στην ερευνητική κοινότητα”, δήλωσε εκπρόσωπος του Fb στο VentureBeat μέσω email. “Ως ερευνητική κοινότητα, πρέπει να κατανοήσουμε τι είδους προκαταλήψεις δεν θέλουμε να έχουν τα μοντέλα και να τα μετριάζουν ενεργά … Με το Dynabench, οι σχολιαστές προσπαθούν να εκμεταλλευτούν τις αδυναμίες του μοντέλου και αν ένα μοντέλο έχει ανεπιθύμητες προκαταλήψεις, οι σχολιαστές θα το κάνουν. ικανά να τα εκμεταλλευτούν για να δημιουργήσουν παραδείγματα που εξαπατούν το μοντέλο. Αυτά τα παραδείγματα στη συνέχεια γίνονται μέρος του συνόλου δεδομένων και πρέπει να επιτρέπουν στις προσπάθειες των ερευνητών να μετριάσουν την ανεπιθύμητη προκατάληψη. “

Αυτό αναιρεί το γεγονός ότι το μοντέλο crowdsourcing μπορεί να είναι από μόνο του προβληματικό. Πέρυσι, Ενσύρματο έχουν αναφερθεί σχετικά με την ευαισθησία πλατφορμών όπως το Amazon Mechanical Turk σε αυτοματοποιημένα bots. Ακόμα και όταν οι εργαζόμενοι είμαστε επαληθεύσιμα ανθρώπινα, ενθαρρύνονται από την αμοιβή και όχι από τους τόκους, τα οποία μπορούν να οδηγήσουν σε δεδομένα χαμηλής ποιότητας, ιδίως όταν αντιμετωπίζονται με κακή μεταχείριση και πληρώνονται κάτω από τις τιμές της αγοράς Βαθμολογήστε το. Περιλαμβάνονται ερευνητές Niloufar Salehi προσπάθησαν να αντιμετωπίσουν τα μειονεκτήματα του Amazon Mechanical Turk με προσπάθειες όπως το Dynamo, ένα συλλογικό εργαζόμενο ανοιχτής πρόσβασης, αλλά μπορούν να κάνουν πολλά.

Από την πλευρά του Fb, λέει ότι η ανοιχτή φύση του Dynabench θα συμβάλει στην αποφυγή των κοινών παγίδων του crowdsourcing. Η εταιρεία σχεδιάζει να διασφαλίσει ότι ο καθένας μπορεί να δημιουργήσει τις επιχειρήσεις του σε μια σειρά διαφορετικών γλωσσών και ότι ορισμένοι σχολιαστές αποζημιώνονται για οποιαδήποτε εργασία συμβάλλουν.

“Το Dynabench επιτρέπει σε οποιονδήποτε να προσφέρεται εθελοντικά ως σχολιαστής και να δημιουργεί παραδείγματα για την πρόκληση μοντέλων”, δήλωσε ο εκπρόσωπος. «Σχεδιάζουμε επίσης να συμπληρώσουμε τις εθελοντικές προσπάθειες με αμειβόμενους σχολιαστές, ιδίως για εργασίες που θα ωφελήσουν τους ειδικούς. θα αποζημιώσουμε αυτούς τους σχολιαστές δίκαια (όπως κάνουμε για ερευνητικά προγράμματα AI σε άλλες πλατφόρμες crowdsourcing) και θα λάβουμε ένα πρόσθετο μπόνους εάν δημιουργήσουν επιτυχώς παραδείγματα που παραπλανούν τα μοντέλα. “

Όσο για την Κίελα και τον Ουίλιαμς, χαρακτηρίζουν το Dynabench ως επιστημονικό πείραμα για να επιταχύνει την πρόοδο στην έρευνα για την τεχνητή νοημοσύνη. «Ελπίζουμε ότι θα βοηθήσει να δείξει στον κόσμο τι μπορούν να επιτύχουν τα σύγχρονα μοντέλα τεχνητής νοημοσύνης και πόση δουλειά πρέπει να κάνουμε», έγραψαν.



[via]

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.