Γυμναστήριο Salesforce Robustness

Οι ερευνητές του Salesforce απελευθερώνουν το πλαίσιο για να ελέγξουν την ανθεκτικότητα του μοντέλου NLP


Στο υποπεδίο της μηχανικής μάθησης γνωστή ως επεξεργασία φυσικής γλώσσας (NLP), το τεστ αντοχής είναι η εξαίρεση παρά ο κανόνας. Αυτό είναι ιδιαίτερα προβληματικό λόγω της εργασίας που δείχνει ότι πολλά μοντέλα NLP εκμεταλλεύονται πλαστές συνδέσεις που αναστέλλουν την απόδοσή τους εκτός συγκεκριμένων δοκιμών. Ενας σχέση διαπίστωσε ότι το 60% έως 70% των απαντήσεων που παρέχονται από τα μοντέλα NLP ενσωματώθηκαν κάπου στα εκπαιδευτικά σύνολα αναφοράς, υποδεικνύοντας ότι τα μοντέλα συνήθως απλώς απομνημόνευαν τις απαντήσεις. Μια άλλη μελέτη, μια μετα-ανάλυση περισσότερων από 3.000 άρθρων σχετικά με την τεχνητή νοημοσύνη, διαπίστωσε ότι οι μετρήσεις που χρησιμοποιήθηκαν για τη σύγκριση των μοντέλων AI και μηχανικής μάθησης τείνουν να είναι ασυνεπείς, ανομοιογενείς και όχι ιδιαίτερα ενημερωτικοί.

Αυτό παρακίνησε τη Nazneen Rajani, μια ανώτερη ερευνήτρια στο Salesforce που ηγείται του ομίλου NLP της εταιρείας, να δημιουργήσει ένα οικοσύστημα για την αξιολόγηση της ευρωστίας των μοντέλων μηχανικής μάθησης. Μαζί με τον αναπληρωτή καθηγητή Επιστήμης Υπολογιστών του Στάνφορντ Christopher Ré και το Πανεπιστήμιο της Βόρειας Καρολίνας στο Mohit Bansal στο Chapel Hill, ο Rajani και η ομάδα ανέπτυξαν Δύναμη γυμναστικής, που στοχεύει στην ενοποίηση του μωσαϊκού των υφιστάμενων βιβλιοθηκών αντοχής για να επιταχύνει την ανάπτυξη νέων στρατηγικών δοκιμών μοντέλου NLP.

“Ενώ τα υπάρχοντα εργαλεία ευρωστίας εφαρμόζουν συγκεκριμένες στρατηγικές όπως αντιφατικές επιθέσεις ή αυξήσεις βάσει μοντέλων, το Robustness Gymnasium παρέχει ένα ενιαίο κατάστημα για να εκτελεί και να συγκρίνει ένα ευρύ φάσμα στρατηγικών αξιολόγησης”, δήλωσε ο Rajani στο VentureBeat μέσω email. “Ελπίζουμε ότι το Robustness Gym θα κάνει τη δοκιμή ευρωστίας ένα βασικό συστατικό στον αγωγό μηχανικής μάθησης.”

Πάνω: το μπροστινό ταμπλό για το Robustness Gymnasium.

Πιστωτική εικόνα: Έρευνα Salesforce

Το Robustness Gymnasium παρέχει καθοδήγηση στους ασκούμενους για το πώς οι βασικές μεταβλητές – η εργασία τους, οι ανάγκες αξιολόγησης και οι περιορισμοί πόρων – μπορούν να βοηθήσουν να δοθεί προτεραιότητα στις αξιολογήσεις που πρέπει να εκτελεστούν. Η σουίτα περιγράφει την επίδραση μιας δεδομένης εργασίας μέσω μιας γνωστής δομής και προηγούμενων αξιολογήσεων. ανάγκες όπως δοκιμές γενίκευσης, δικαιοσύνης ή ασφάλειας · και περιορισμούς όπως η ικανότητα, η πρόσβαση σε υπολογιστές και το ανθρώπινο δυναμικό.

Το Robustness Health club χωρίζει όλες τις δοκιμές αντοχής σε τέσσερα “ιδιώματα” αξιολόγησης: υποπληθυσμούς, μετασχηματισμούς, σύνολα αξιολόγησης και επιθετικές επιθέσεις. Οι επαγγελματίες μπορούν να δημιουργήσουν αυτό που ονομάζεται ενότητες, όπου κάθε ενότητα ορίζει μια συλλογή παραδειγμάτων αξιολόγησης που κατασκευάζονται χρησιμοποιώντας ένα ή συνδυασμό ιδεών αξιολόγησης. Οι χρήστες σκαλωσιάζονται σε μια απλή ροή εργασίας δύο βημάτων, διαχωρίζοντας την αποθήκευση δομημένων πλευρικών πληροφοριών σχετικά με τα παραδείγματα από τα παξιμάδια και τα μπουλόνια της δημιουργίας προγραμματισμένων τμημάτων χρησιμοποιώντας αυτές τις πληροφορίες.

Το Robustness Fitness center ενοποιεί επίσης τμήματα και αποτελέσματα για πρωτότυπο, επανάληψη και συνεργασία. Οι επαγγελματίες μπορούν να οργανώσουν τις ενότητες σε ένα δοκιμαστικό κρεβάτι που μπορούν να ενημερωθούν και να κοινοποιηθούν, επιτρέποντας σε μια κοινότητα χρηστών να δημιουργήσει σημεία αναφοράς μαζί και να παρακολουθεί την πρόοδο. Για αναφορές, το Robustness Gym παρέχει τυπικές και προσαρμοσμένες αναφορές ευρωστίας που μπορούν να δημιουργηθούν αυτόματα από παγκάκια δοκιμών και να περιληφθούν σε προσαρτήματα χαρτιού.

Γυμναστήριο Salesforce Robustness

Πάνω: Η ονομαζόμενη οντότητα που συνδέει την απόδοση εμπορικών API με ακαδημαϊκά μοντέλα χρησιμοποιώντας το Robustness Health club.

Πιστωτική εικόνα: Έρευνα Salesforce

Σε μία μελέτη περίπτωσης, ο Rajani και οι συν-συγγραφείς είχαν μια ομάδα μοντελοποίησης συναισθημάτων σε μια «μεγάλη εταιρεία τεχνολογίας» για να μετρήσουν την προκατάληψη του μοντέλου τους χρησιμοποιώντας υποπληθυσμούς και μετασχηματισμούς. Μετά τη δοκιμή του συστήματος σε 172 φέτες που εκτείνονται σε τρία ιδιώματα αξιολόγησης, η ομάδα μοντελοποίησης βρήκε υποβάθμιση απόδοσης σε 16 φέτες έως και 18%.

Σε μια πιο αποκαλυπτική δοκιμή, ο Rajani και η ομάδα χρησιμοποίησαν το Robustness Gym για να συγκρίνουν τα εμπορικά API NLP από τη Microsoft (API ανάλυσης κειμένου), το Google (API Cloud Purely natural Language) και το Amazon (API Understand) με συστήματα ανοιχτού κώδικα BOOTLEG. WAT και REL σε δύο σύνολα δεδομένων αναφοράς για τη σύνδεση ονομαστικών οντοτήτων. (Η σύνδεση ονομαστικών οντοτήτων περιλαμβάνει τον εντοπισμό βασικών στοιχείων σε ένα κείμενο, όπως ονόματα ατόμων, τοποθεσιών, επωνυμιών, χρηματικών αξιών και πολλά άλλα.) Διαπίστωσαν ότι τα εμπορικά συστήματα αγωνίστηκαν να συνδέσουν σπάνιες ή λιγότερο δημοφιλείς οντότητες, ήταν ευαίσθητα στην κεφαλαιοποίηση οντοτήτων και συχνά αγνόησαν τα συμφραζόμενα στοιχεία κατά την πρόβλεψη. Η Microsoft έχει ξεπεράσει άλλα εμπορικά συστήματα, αλλά η BOOTLEG έχει νικήσει τα άλλα όσον αφορά τη συνέπεια.

“Τόσο η Google όσο και η Microsoft παρουσιάζουν εξαιρετική απόδοση σε ορισμένα θέματα, για παράδειγμα η Google στο” alpine athletics “και η Microsoft στο” skating “… [but] τα εμπορικά συστήματα αποφεύγουν το δύσκολο πρόβλημα των διφορούμενων διφορούμενων οντοτήτων υπέρ της επιστροφής της πιο δημοφιλούς απάντησης, “έγραψε ο Rajani και συν-συγγραφείς στην εφημερίδα περιγράφοντας το έργο τους.” Συνολικά, τα ευρήματά μας υποδηλώνουν ότι τα ακαδημαϊκά συστήματα αιχμής ουσιαστικά υπερτερούν εμπορικά API για σύνδεση ονομαστικών οντοτήτων “.

Γυμναστήριο Salesforce Robustness

Πάνω: Συνοπτική απόδοση μοντέλου σε σύγκριση με τη χρήση του Robustness Fitness center.

Πιστωτική εικόνα: Έρευνα Salesforce

Σε ένα τελικό πείραμα, η ομάδα του Rajani εφάρμοσε πέντε υποπληθυσμούς που καταγράφουν περίληψη περίληψης, απόσταξη περιεχομένου, προκατάληψη θέσης, διασπορά πληροφοριών και αναδιάταξη πληροφοριών. Μετά τη σύγκριση επτά μοντέλων NLP, συμπεριλαμβανομένων των T5 και του Google Pegasus σε ένα σύνολο δεδομένων ανοιχτού κώδικα σε αυτούς τους υποπληθυσμούς, οι ερευνητές διαπίστωσαν ότι τα μοντέλα προσπάθησαν να αποδώσουν καλά σε εξαιρετικά αποσταγμένα παραδείγματα, απαιτούσαν μεγαλύτερες ποσότητες αφαίρεσης ή περιείχε πολλές αναφορές οντοτήτων. Παραδόξως, μοντέλα με διαφορετικούς μηχανισμούς πρόβλεψης φάνηκαν να κάνουν “εξαιρετικά συσχετισμένα” σφάλματα, υποδηλώνοντας ότι οι υπάρχουσες μετρήσεις δεν μπορούν να αποτυπώσουν σημαντικές διαφορές στην απόδοση.

«Χρησιμοποιώντας το Robustness Gymnasium, αποδεικνύουμε ότι η ευρωστία παραμένει μια πρόκληση ακόμη και για εταιρικούς γίγαντες όπως η Google και η Amazon», δήλωσε ο Rajani. “Συγκεκριμένα, δείχνουμε ότι τα δημόσια API αυτών των εταιρειών αποδίδουν σημαντικά χειρότερα από τους απλούς αλγόριθμους αντιστοίχισης συμβολοσειρών για την εργασία αποσαφήνισης οντοτήτων όταν αξιολογούνται σε σπάνιες οντότητες (ουρά).”

Τόσο το παραπάνω έγγραφο όσο και ο πηγαίος κώδικας του Robustness Fitness center είναι διαθέσιμοι σήμερα.

VentureBeat

Η αποστολή της VentureBeat είναι να είναι ένα ψηφιακό τετράγωνο πόλης για τεχνικούς υπεύθυνους λήψης αποφάσεων για να αποκτήσουν πληροφορίες σχετικά με τη μετασχηματιστική τεχνολογία και τις συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

  • ενημερωμένες πληροφορίες για θέματα που σας ενδιαφέρουν
  • τα ενημερωτικά δελτία μας
  • Περιεχόμενο περιφραγμένο με κορυφαία σκέψη και μειωμένη πρόσβαση στα πολύτιμα γεγονότα μας, όπως το Change
  • δυνατότητες δικτύωσης και άλλα

Γίνομαι μέλος



[via]

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.