Πρακτικές στρατηγικές για την ελαχιστοποίηση της προκατάληψης στη μηχανική μάθηση

Πρακτικές στρατηγικές για την ελαχιστοποίηση της προκατάληψης στη μηχανική μάθηση


Εδώ και χρόνια βλέπουμε τους τίτλους: “Οι ερευνητές βρίσκουν ελαττώματα στους αλγόριθμους που χρησιμοποιούνται… “για όλες σχεδόν τις περιπτώσεις χρήσης AI, συμπεριλαμβανομένων χρηματοδότηση, φροντίδα υγείας, εκπαίδευση, αστυνομία, ή αναγνώριση του αντικειμένου. Οι περισσότεροι καταλήγουν στο συμπέρασμα ότι εάν ο αλγόριθμος είχε χρησιμοποιήσει μόνο τα σωστά δεδομένα, είχε ελεγχθεί καλά ή είχε εκπαιδευτεί για να ελαχιστοποιήσει την ολίσθηση με την πάροδο του χρόνου, τότε δεν θα υπήρχε προκατάληψη. Αλλά το ερώτημα δεν είναι Εαυτός ένα μοντέλο μηχανικής μάθησης θα κάνει συστηματική διάκριση εις βάρος ανθρώπων, οι οποίοι, πότε και πώς.

Υπάρχουν πολλές πρακτικές στρατηγικές που μπορούν να υιοθετηθούν για την οργάνωση, την παρακολούθηση και τον μετριασμό της προκατάληψης μέσω ενός διαφορετικού μέτρου αντίκτυπου. Για μοντέλα που χρησιμοποιούνται σήμερα στην παραγωγή, μπορείτε να ξεκινήσετε με τα βασικά όργανα και τον ορισμό του αντικτύπου σε πραγματικό χρόνο. Για αναλυτικά στοιχεία ή μοντέλα που χρησιμοποιούνται σε εφάπαξ ή περιοδική λήψη αποφάσεων, θα επωφεληθείτε από όλες τις στρατηγικές εκτός από την παρακολούθηση επιπτώσεων σε πραγματικό χρόνο. Και αν σκέφτεστε να προσθέσετε AI στο προϊόν σας, θα θελήσετε να κατανοήσετε αυτές τις αρχικές και συνεχείς απαιτήσεις για να ξεκινήσετε και να παραμείνετε σε καλό δρόμο.

Που

Για να μετρήσετε την προκατάληψη, πρέπει πρώτα να καθορίσετε ποιοι επηρεάζουν τα μοτίβα σας. Είναι διδακτικό να το δούμε από δύο οπτικές γωνίες: από την προοπτική της επιχείρησής σας και από την προοπτική των ατόμων που επηρεάζονται από τους αλγόριθμους. Και οι δύο γωνίες είναι σημαντικές για τον καθορισμό και τη μέτρηση, επειδή το μοντέλο σας θα επηρεάσει και τα δύο.

Εσωτερικά, η επιχειρηματική σας ομάδα καθορίζει τα τμήματα, τα προϊόντα και τα αποτελέσματα που ελπίζετε να επιτύχετε με βάση τη γνώση της αγοράς, το λειτουργικό κόστος και τους οδηγούς κέρδους. Τα άτομα που επηρεάζονται από τους αλγορίθμους σας μπορεί μερικές φορές να είναι ο άμεσος πελάτης των μοντέλων σας, αλλά, πιο συχνά, δεν είναι οι άνθρωποι που επηρεάζονται από τους πελάτες που πληρώνουν για τον αλγόριθμο. Για παράδειγμα, σε περίπτωση που αρκετά νοσοκομεία των ΗΠΑ χρησιμοποίησαν έναν αλγόριθμο για την παροχή υγειονομικής περίθαλψης σε ασθενείς, οι πελάτες ήταν τα νοσοκομεία που αγόρασαν το λογισμικό, αλλά οι άνθρωποι που επηρεάστηκαν από τις προκατειλημμένες αποφάσεις του μοντέλου ήταν οι ασθενείς.

Λοιπόν, πώς αρχίζετε να ορίζετε “ποιος” Πρώτα, βεβαιωθείτε εσωτερικά ότι επισημαίνετε τα δεδομένα σας με διάφορα επιχειρηματικά τμήματα, ώστε να μπορείτε να μετρήσετε τις διαφορές στον αντίκτυπο. Για τα άτομα που είναι τα θέματα των μοντέλων σας, θα πρέπει να γνωρίζετε τι έχετε άδεια να συλλέξετε ή τουλάχιστον τι έχετε εξουσιοδότηση για παρακολούθηση. Επίσης, να γνωρίζετε τις κανονιστικές απαιτήσεις για τη συλλογή και αποθήκευση δεδομένων σε συγκεκριμένους τομείς, όπως η υγειονομική περίθαλψη, οι αιτήσεις δανείων και οι αποφάσεις πρόσληψης.

πότε

Ο καθορισμός του πότε να μετρηθεί είναι εξίσου σημαντικός με το ποιος επηρεάζετε. Ο κόσμος αλλάζει γρήγορα είναι αργά και τα δεδομένα εκπαίδευσης που έχετε μπορεί να περιέχουν μικρο και / ή μακρο μοτίβα που θα αλλάζουν με την πάροδο του χρόνου. Δεν αρκεί η αξιολόγηση δεδομένων, χαρακτηριστικών ή μοντέλων μόνο μία φορά, ειδικά αν τοποθετείτε ένα μοντέλο στην παραγωγή. Ακόμα και στατικά δεδομένα ή “Γεγονότα” που εμείς Το ξέρω ήδη σίγουρα αλλάζει με το χρόνο. Επιπλέον, τα μοντέλα ξεπερνούν τους δημιουργούς τους και χρησιμοποιούνται συχνά εκτός του αρχικά προβλεπόμενου περιβάλλοντος. Επομένως, ακόμη και αν το μόνο που έχετε είναι το αποτέλεσμα ενός μοντέλου (δηλαδή ένα API για το οποίο πληρώνετε), είναι σημαντικό να καταγράφετε συνεχώς τον αντίκτυπο, όποτε το μοντέλο σας παρέχει αποτέλεσμα.

Πως

Για να μετριάσετε την προκατάληψη, πρέπει να γνωρίζετε Πως τα μοντέλα σας επηρεάζουν άτομα και καθορισμένα επιχειρηματικά τμήματα. Τα μοντέλα είναι αποτελεσματικά κατασκευασμένα για να κάνουν διακρίσεις: ποιος είναι πιθανό να εξοφλήσει ένα δάνειο, ποιος είναι κατάλληλος για τη δουλειά και ούτω καθεξής. Ένα επιχειρηματικό τμήμα μπορεί συχνά να κερδίζει ή να εξοικονομεί περισσότερα ευνοώντας μόνο ορισμένες ομάδες ανθρώπων. Ωστόσο, από νομική και ηθική άποψη, αυτά τα επιχειρηματικά μέτρα μπορούν να κάνουν διακρίσεις εναντίον ατόμων σε προστατευόμενες τάξεις, κωδικοποιώντας πληροφορίες σχετικά με την προστατευόμενη τάξη τους στα χαρακτηριστικά από τα οποία μαθαίνουν τα μοντέλα. Μπορείτε να θεωρήσετε τόσο τα τμήματα όσο και τα άτομα ως ομάδες, επειδή τα μετράτε εξίσου.

Για να κατανοήσετε πώς επηρεάζονται οι ομάδες με διαφορετικό τρόπο, πρέπει να έχετε ετικέτα δεδομένων σε κάθε μία για να υπολογίσετε τον διαφορετικό αντίκτυπο με την πάροδο του χρόνου. Για κάθε ομάδα, πρώτα υπολογίστε το ποσοστό επιτυχίας σε ένα χρονικό παράθυρο: πόσα θετικά αποτελέσματα έλαβε μια ομάδα Στη συνέχεια, συγκρίνετε κάθε ομάδα με μια άλλη σχετική ομάδα για να αποκτήσετε τον διαφορετικό αντίκτυπο διαιρώντας μια μειονεκτική ομάδα με το αποτέλεσμα μιας προνομιακής ομάδας.

Ακολουθεί ένα παράδειγμα: Εάν συλλέξετε δυαδικά δεδομένα φύλου για προσλήψεις και το 20% των γυναικών προσλαμβάνεται αλλά το 90% των ανδρών προσλαμβάνεται, η διαφορετική επίπτωση θα είναι ,2 διαιρούμενη με ,9 ή ,22.

Σας συνιστούμε να καταγράψετε και τις τρεις αυτές τιμές, για σύγκριση ομάδας και να ενημερώσετε κάποιον για τον διαφορετικό αντίκτυπο. Στη συνέχεια, οι αριθμοί πρέπει να είναι με βάση τα συμφραζόμενα, με άλλα λόγια, ποιος πρέπει να είναι ο αριθμός. Μπορείτε να εφαρμόσετε αυτήν τη μέθοδο σε οποιαδήποτε σύγκριση ομάδας. για ένα τμήμα της επιχείρησης, μπορεί να είναι ιδιωτικό έναντι δημόσιων νοσοκομείων, ή για μια ομάδα ασθενών, μπορεί να είναι μαύρο έναντι ιθαγενών.

Πρακτικές στρατηγικές

Μόλις ξέρετε ποιος μπορεί να επηρεαστεί, ποιος επηρεάζει τις αλλαγές με την πάροδο του χρόνου και πώς να το μετρήσετε, υπάρχουν πρακτικές στρατηγικές για να προετοιμάσετε το σύστημά σας για τον μετριασμό της μεροληψίας.

Το παρακάτω σχήμα είναι ένα απλοποιημένο διάγραμμα ενός συστήματος ML με δεδομένα, λειτουργικότητα, ένα μοντέλο και ένα άτομο για το οποίο συλλέγετε δεδομένα στον κύκλο. Ενδέχεται να έχετε ολόκληρο το σύστημα υπό τον έλεγχό σας ή να αγοράζετε λογισμικό ή υπηρεσίες για διάφορα στοιχεία. Τα ιδανικά σενάρια και οι στρατηγικές μετριασμού μπορούν να χωριστούν σύμφωνα με τα στοιχεία του συστήματος: δεδομένα, χαρακτηριστικά, μοντέλο, ενδιαφερόμενο άτομο.

Δεδομένα

Σε έναν ιδανικό κόσμο, το σύνολο δεδομένων σας είναι μια μεγάλη, με ετικέτες, χρονοσειρές βάσει συμβάντων. Αυτό επιτρέπει:

  • Εκπαίδευση και δοκιμές σε πολλαπλά χρονικά διαστήματα
  • Δημιουργία βάσης διαφορετικών μέτρων αντίκτυπου με την πάροδο του χρόνου πριν από την κυκλοφορία
  • Λειτουργικότητα και ενημέρωση μοντέλου για να ανταποκρίνονται στις αλλαγές των ατόμων
  • Αποτρέψτε τη μελλοντική διαρροή δεδομένων στην εκπαίδευση
  • Στατιστική παρακολούθηση εισερχόμενων δεδομένων για λήψη ειδοποίησης κατά τη μετακίνηση δεδομένων
  • Έλεγχος όταν ο διαφορετικός αντίκτυπος είναι εκτός αποδεκτών ορίων

Εάν, ωστόσο, έχετε σχεσιακά δεδομένα που ενισχύουν τις δυνατότητές σας ή καταγράφετε στατικά δεδομένα για να αυξήσετε το σύνολο δεδομένων σας βάσει συμβάντων, σας συνιστούμε:

  • Καταγράψτε τα δεδομένα σας πριν από την ενημέρωση
  • Χρησιμοποιήστε μαζικές διαδικασίες για να ενημερώσετε τα δεδομένα σας
  • Δημιουργήστε ένα πρόγραμμα για την αξιολόγηση των μεταγενέστερων δυνατοτήτων
  • Παρακολουθήστε τις διαφορετικές επιπτώσεις ζωντανά με την πάροδο του χρόνου
  • Βάλτε μέτρα αντίκτυπου στο πλαίσιο εξωτερικών πηγών όπου είναι δυνατόν

Χαρακτηριστικά

Στην ιδανική περίπτωση, τα δεδομένα στα οποία έχουν πρόσβαση οι επιστήμονες των δεδομένων σας, ώστε να μπορούν να σχεδιάσουν λειτουργίες, θα πρέπει να περιέχουν ανώνυμες ετικέτες για το ποιος θα επικυρώσει τον διαφορετικό αντίκτυπο (π.χ. ετικέτες επιχειρηματικών τομέων και χαρακτηριστικά ατόμων). Αυτό επιτρέπει στους επιστήμονες δεδομένων να:

  • Βεβαιωθείτε ότι τα σετ προπόνησης μοντέλου περιλαμβάνουν αρκετούς πρωταθλητές μεταξύ τμημάτων και ομάδων ατόμων για να μάθετε με ακρίβεια ομάδες
  • Δημιουργήστε σύνολα δοκιμών και επικύρωσης που αντικατοπτρίζουν την κατανομή του πληθυσμού κατ ‘όγκο που θα αντιμετωπίσει το μοντέλο σας για να κατανοήσετε την αναμενόμενη απόδοση
  • Μετρήστε το διαφορετικό αντίκτυπο στα σύνολα επικύρωσης προτού το μοντέλο σας είναι ενεργό

Εάν, ωστόσο, δεν έχετε όλα τα τμήματα ή τις δυνατότητες των ατόμων, πρέπει να μεταβείτε στην ενότητα μοντέλου παρακάτω, καθώς οι επιστήμονες δεδομένων σας δεν μπορούν να ελέγξουν αυτές τις μεταβλητές χωρίς την ετικέτα διαθέσιμη όταν οι επιστήμονες δεδομένων σχεδιάζουν χαρακτηριστικά. .

Πρότυπο

Με ιδανικά δεδομένα που βασίζονται σε συμβάντα και σενάρια χαρακτηριστικών χαρακτηριστικών, μπορείτε να:

  • Εκπαιδεύστε, δοκιμάστε και επικυρώστε το μοντέλο σας σε διαφορετικά χρονικά διαστήματα
  • Λάβετε μια αρχική εικόνα των μικρο και μακροοικονομικών αλλαγών στον αναμενόμενο αντίκτυπο
  • Σχεδιάστε πότε οι λειτουργίες και τα πρότυπα θα καταστούν παρωχημένα με βάση αυτά τα πρότυπα
  • Αντιμετώπιση προβλημάτων λειτουργιών που ενδέχεται να αντικατοπτρίζουν κωδικοποιημένη προκατάληψη και να τα καταργήσουν από την προπόνηση
  • Κάντε εναλλαγή μεταξύ της μηχανικής χαρακτηριστικών και της εκπαίδευσης μοντέλων για να μετριάσετε τις διαφορετικές επιπτώσεις πριν από την κυκλοφορία ενός μοντέλου

Ακόμη και για μη επιθεωρήσιμα μοντέλα, η πρόσβαση σε ολόκληρο τον αγωγό επιτρέπει πιο λεπτομερή επίπεδα επίλυσης προβλημάτων. Ωστόσο, εάν έχετε πρόσβαση μόνο σε ένα API του μοντέλου που αξιολογείτε, μπορείτε:

  • Δυνατότητα επισήμανσης του μοντέλου στην παραγωγή
  • Καταγράψτε τις εισόδους που παρέχετε
  • Καταγράψτε τις προβλέψεις που θα έκανε το μοντέλο σας
  • Μετρήστε μεταξύ τμημάτων και ατόμων έως ότου είστε βέβαιοι ότι αναλαμβάνετε την ευθύνη για τον διαφορετικό αντίκτυπο

Σε κάθε περίπτωση, βεβαιωθείτε ότι παρακολουθείτε σε πραγματικό χρόνο και παρακολουθείτε διαφορετικό αντίκτυπο με την πάροδο του χρόνου.

Πρόσωπο

Στην ιδανική περίπτωση, θα πρέπει να είστε σε θέση να αποθηκεύετε μόνιμα δεδομένα για άτομα, συμπεριλαμβανομένων προσωπικών στοιχείων αναγνώρισης (PII). Ωστόσο, εάν δεν είστε εξουσιοδοτημένοι να αποθηκεύετε μόνιμα δημογραφικά δεδομένα σε άτομα:

  • Ελέγξτε αν μπορείτε να το κάνετε ανώνυμα σύνολο δεδομένα αντίκτυπου, βάσει δημογραφικών ομάδων, κατά τη στιγμή της πρόβλεψης
  • Βάλτε το μοντέλο σας σε παραγωγή πίσω από μια σημαία χαρακτηριστικών για να παρακολουθείτε τις αποφάσεις του θα ειχε επηρέασε διαφορετικά τις διάφορες ομάδες
  • Συνεχίστε να παρακολουθείτε τις αλλαγές στις δυνατότητες και τα πρότυπα με την πάροδο του χρόνου και την έκδοση

Με συνεχή παρακολούθηση διαφορετικών εισροών, αποφάσεων και αριθμών αντίκτυπου με την πάροδο του χρόνου, θα εξακολουθείτε να μπορείτε:

  • Λάβετε ειδοποίηση όταν η διαφορετική τιμή αντίκτυπου είναι εκτός αποδεκτού εύρους
  • Μάθετε εάν πρόκειται για ένα εφάπαξ συμβάν ή για διαρκές πρόβλημα
  • Πιο εύκολα να συσχετίσετε τι έχει αλλάξει στη συμβολή σας και τον διαφορετικό αντίκτυπο για να κατανοήσετε καλύτερα τι θα μπορούσε να συμβεί

Καθώς τα μοντέλα πολλαπλασιάζονται σε κάθε προϊόν που χρησιμοποιούμε, θα επιταχύνουν την αλλαγή και θα επηρεάσουν τη συχνότητα των δεδομένων που συλλέγουμε και των μοντέλων που κατασκευάζουμε. Η προηγούμενη απόδοση δεν είναι πάντα πρόβλεψη της μελλοντικής συμπεριφοράς, οπότε φροντίστε να συνεχίσετε να ορίζετε ποιος, πότε και πώς να μετρήσετε και να δημιουργήσετε ένα playbook για το τι πρέπει να κάνετε όταν βρείτε συστηματική προκατάληψη, συμπεριλαμβανομένου του ποιος πρέπει να προειδοποιεί και πώς να παρέμβετε.

Ο Δρ Charna Parkey είναι διευθυντής της επιστήμης δεδομένων στο Κασκάδα, όπου εργάζεται στην ομάδα προϊόντων της εταιρείας για να παρέχει μια εμπορικά διαθέσιμη πλατφόρμα δεδομένων για μηχανική μάθηση. Είναι παθιασμένη με τη χρήση της επιστήμης δεδομένων για την καταπολέμηση της συστημικής καταπίεσης. Έχει πάνω από 15 χρόνια εμπειρίας στην επιστήμη δεδομένων επιχειρήσεων και προσαρμοστικούς αλγόριθμους στον κλάδο της άμυνας και της τεχνολογίας εκκίνησης και έχει συνεργαστεί με δεκάδες εταιρείες Fortune 500 στο έργο του ως επιστήμονας δεδομένων. Κατέχει διδακτορικό. Ηλεκτρολόγων Μηχανικών από το Πανεπιστήμιο της Κεντρικής Φλόριντα.



[via]

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.