Οι ερευνητές αναπτύσσουν μια τεχνική επανεγγραφής φράσεων για να ξεγελάσουν τους ταξινομητές κειμένων

Οι ερευνητές αναπτύσσουν μια τεχνική επανεγγραφής φράσεων για να ξεγελάσουν τους ταξινομητές κειμένων


ΕΝΑ πρόσφατο έγγραφο συν-συγγραφέας των ερευνητών του MIT επισημαίνει το πρόβλημα των επιθέσεων σε επίπεδο ποινής εναντίον των ταξινομητών κειμένου, στις οποίες ένας εισβολέας μεταβάλλει μια πρόταση για να προκαλέσει εσφαλμένη ταξινόμηση, διατηρώντας παράλληλα την κυριολεκτική έννοια της πρότασης.

Οι ταξινομητές κειμένου χρησιμοποιούνται σε μια μεγάλη ποικιλία εφαρμογών, ειδικά στην επεξεργασία εγγράφων. Αυτά τα συστήματα επιτρέπουν στις εταιρείες να διαρθρώνουν, να ομαλοποιούν και να τυποποιούν επιχειρηματικές πληροφορίες όπως e mail, νομικά έγγραφα, ιστοσελίδες και συνομιλίες συνομιλίας. Οι επιθέσεις σε αυτούς τους ταξινομητές θα μπορούσαν να είναι καταστροφικές σε κλάδους όπως ο στεγαστικός δανεισμός, ο οποίος βασίζεται όλο και περισσότερο στην τεχνητή νοημοσύνη για την επεξεργασία των εκατοντάδων σελίδων που σχετίζονται με υποθήκες.

Το πλαίσιο τους – Υπό όρους δειγματοληψία BERT (CBS) – τροφοδοτεί προτάσεις από ένα μοντέλο γλώσσας AI στο RewritingSampler, μια παρουσία του CBS που ξαναγράφει προτάσεις ειδικά για να επιτεθεί σε ταξινομητές. Στα πειράματα, οι ερευνητές δηλώνουν ότι το CBS και το RewritingSampler επιτυγχάνουν ένα καλύτερο ποσοστό επιτυχίας επίθεσης από τις υπάρχουσες μεθόδους επιπέδου λέξεων.

Το πλαίσιο CBS και το RewritingSampler των ερευνητών ξεκινούν με μια πρόταση σπόρου και επαναλαμβάνουν επαναλαμβανόμενα δείγματα και αντικαθιστούν λέξεις στην πρόταση για καθορισμένο αριθμό φορών. Χρησιμοποιούν άθροισμα ενσωματώσεων λέξεων – ένας τύπος αναπαράστασης λέξεων που επιτρέπει σε λέξεις με παρόμοιο νόημα να έχουν παρόμοια αναπαράσταση – για να ελαχιστοποιήσουν τις σημασιολογικές διαφορές μεταξύ των αρχικών και των ξαναγραφών προτάσεων. Το μοντέλο γλώσσας GPT-2 του OpenAI ελέγχει την ποιότητα της γραμματικής, επιτρέποντας τον ευέλικτο έλεγχο και την επανεγγραφή των προτάσεων.

Σε πειράματα που περιλαμβάνουν σύνολα δεδομένων ταξινόμησης κειμένων ειδήσεων, κριτικές ταινιών, κριτικές Yelp και κριτικές ταινιών IMDB, μαζί με δύο σύνολα δεδομένων φυσικής γλώσσας, οι ερευνητές διαπίστωσαν ότι η προσέγγισή τους “πέρασε μια βασική γραμμή. Για παράδειγμα, δεδομένης της φράσης “Η Τουρκία βρίσκεται σε καλό δρόμο για ένταξη στην ΕΕ”, την οποία ο ταξινομητής προορισμού θα ταξινόμησε ως “Κόσμος”, η επανεγγραφόμενη φράση “Η ΕΕ θέτει την Τουρκία σε καλό δρόμο για ένταξη στην ΕΕ. Ο πλήρης τίτλος “παράγει την ταξινόμηση” Business “. Θεωρητικά, εάν η μέθοδος επρόκειτο να χρησιμοποιηθεί σε ένα σύστημα ταξινόμησης πραγματικού κόσμου, ένα έγγραφο με την ένδειξη “Αιτήσεις δανείου της Νέας Υόρκης για τον Οκτώβριο” θα μπορούσε να επισημανθεί ως “μη επείγον” και όχι “έγκαιρο”, καθυστερώντας την επεξεργασία.

«Οι περισσότερες μέθοδοι επίθεσης εχθρικών που έχουν σχεδιαστεί για να εξαπατήσουν έναν ταξινομητή κειμένου αλλάζουν την πρόβλεψη του ταξινομητή κειμένου αλλάζοντας μερικές λέξεις ή χαρακτήρες. Λίγες προσπάθειες να επιτεθούν στους ταξινομητές ξαναγράφοντας μια ολόκληρη πρόταση, λόγω των εγγενών δυσκολιών της αναδιατύπωσης σε επίπεδο προτάσεων και του προβλήματος καθορισμού κριτηρίων για νόμιμη επανεγγραφή, “έγραψαν οι ερευνητές.” Επιλύουμε τα προβλήματα. [with our framework]. “

Το έργο αναπτύσσεται TextFooler, ένα πλαίσιο για τη σύνθεση παραδειγμάτων αντιφατικών κειμένων που σχεδιάστηκαν από ερευνητές στο εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT (CSAIL), του Πανεπιστημίου του Χονγκ Κονγκ και του Οργανισμού Επιστήμης, Τεχνολογίας και Έρευνας της Σιγκαπούρης. Όπως και οι συν-συγγραφείς αυτής της τελευταίας εργασίας, οι δημιουργοί του TextFooler σημειώνουν ότι ενώ το σύστημα μπορεί να χρησιμοποιηθεί κατά λάθος για επιθέσεις, μπορεί επίσης να χρησιμοποιηθεί για να δοκιμάσει την ευρωστία των μοντέλων και να βελτιώσει τη γενίκευσή τους μέσω της εκπαίδευσης ανταγωνιστών.

“Εαυτός [language models] είναι ευάλωτοι σε στοχευμένες επιθέσεις εναντίον, οπότε οι συνέπειες θα μπορούσαν να είναι καταστροφικές, “δήλωσε ο Di Jin, φοιτητής του MIT Ph.D. και επικεφαλής συγγραφέας του ερευνητικού εγγράφου TextFooler.” Αυτά τα εργαλεία πρέπει να έχουν αποτελεσματικές αμυντικές προσεγγίσεις. για να προστατεύσουμε τον εαυτό μας και, για να δημιουργήσουμε ένα τέτοιο ασφαλές αμυντικό σύστημα, πρέπει πρώτα να εξετάσουμε τις αντιφατικές μεθόδους “.


Το πρόβλημα ήχου:

Μάθετε πώς οι νέες λύσεις API που βασίζονται σε σύννεφο επιλύουν ελαττωματικό και απογοητευτικό ήχο στη διάσκεψη βίντεο Συνδεθείτε εδώ




[via]