Οι ερευνητές διαπίστωσαν ότι οι ετικέτες στα σύνολα δεδομένων όρασης υπολογιστή αποτυπώνουν ελάχιστα τη φυλετική ποικιλομορφία

Οι ερευνητές διαπίστωσαν ότι οι ετικέτες στα σύνολα δεδομένων όρασης υπολογιστή αποτυπώνουν ελάχιστα τη φυλετική ποικιλομορφία


Τα σύνολα δεδομένων αποτελούν σημαντικό παράγοντα προόδου στο μηχανογραφημένο όραμακαι πολλές εφαρμογές όρασης υπολογιστή απαιτούν σύνολα δεδομένων που περιλαμβάνουν ανθρώπινα πρόσωπα. Αυτά τα σύνολα δεδομένων έχουν συχνά ετικέτες που υποδηλώνουν φυλετική ταυτότητα, εκφραζόμενες ως κατηγορία που αντιστοιχεί σε πρόσωπα. Αλλά ιστορικά, λίγη προσοχή έχει δοθεί στην εγκυρότητα, την κατασκευή και τη σταθερότητα αυτών των κατηγοριών. Ο αγώνας είναι μια αφηρημένη και μπερδεμένη έννοια, και οι πολύ συνεπείς αναπαραστάσεις μιας φυλετικής ομάδας μεταξύ των συνόλων δεδομένων θα μπορούσαν να είναι ενδεικτικές των στερεοτύπων.

Οι ερευνητές του Northeastern College προσπάθησαν να το κάνουν αυτό αυτή μελετάει αυτές οι ετικέτες διευθύνσεων στο πλαίσιο φυλετικών κατηγοριών και δίκαιης τεχνητής νοημοσύνης. Σε ένα άρθρο, υποστηρίζουν ότι οι ετικέτες δεν είναι αξιόπιστες ως δείκτες ταυτότητας, επειδή ορισμένες ετικέτες ορίζονται πιο σταθερά από άλλες και επειδή τα σύνολα δεδομένων φαίνεται ότι “συστηματικά” κωδικοποιούν στερεότυπα φυλετικών κατηγοριών.

Η έγκαιρη έρευνά τους έρχεται μετά τη δημοσίευση του Deborah Raji και του συν-συγγραφέα Genevieve Fried κεντρική μελέτη εξετάστε σύνολα δεδομένων αναγνώρισης προσώπου που έχουν συγκεντρωθεί για 43 χρόνια. Διαπίστωσαν ότι οι ερευνητές, καθοδηγούμενοι από την έκρηξη στις απαιτήσεις δεδομένων μηχανικής μάθησης, σταδιακά εγκαταλείφθηκαν απαιτώντας τη συγκατάθεση των ανθρώπων, τους οδήγησαν να συμπεριλάβουν ακούσια φωτογραφίες ανηλίκων, να χρησιμοποιούν ρατσιστικές και σεξιστικές ετικέτες και να έχουν ασυνεπή ποιότητα και φωτισμό.

Οι φυλετικές ετικέτες χρησιμοποιούνται στην οπτική μηχανή χωρίς ορισμό ή μόνο με ασαφείς και νεφελώδεις ορισμούς, παρατηρούν συν-συγγραφείς από τα σύνολα δεδομένων που ανέλυσαν (FairFace, BFW, RFW και LAOFIW). Υπάρχουν μυριάδες συστήματα φυλετικής ταξινόμησης και ορολογίας, κάποια αμφισβητήσιμη συνοχή, με ένα σύνολο δεδομένων που ομαδοποιεί “άτομα με προγονική προέλευση στην υποσαχάρια Αφρική, την Ινδία, το Μπαγκλαντές, το Μπουτάν, μεταξύ άλλων”. Άλλα σύνολα δεδομένων χρησιμοποιούν ετικέτες που θα μπορούσαν να θεωρηθούν προσβλητικές, όπως το “Mongoloid”.

Επιπλέον, ορισμένα σύνολα δεδομένων μηχανικής όρασης χρησιμοποιούν την ετικέτα “Ινδός / Νότιας Ασίας”, την οποία οι ερευνητές επισημαίνουν ως παράδειγμα των παγίδων φυλετικών κατηγοριών. Εάν η ετικέτα “Ινδός” αναφέρεται μόνο στη χώρα της Ινδίας, είναι αυθαίρετο υπό την έννοια ότι τα σύνορα της Ινδίας αντιπροσωπεύουν τον διαχωρισμό μιας αποικιακής αυτοκρατορίας σε πολιτική βάση. Πράγματι, οι φυλετικές ετικέτες αντιστοιχούν σε μεγάλο βαθμό σε γεωγραφικές περιοχές, συμπεριλαμβανομένων πληθυσμών με μια σειρά γλωσσών, πολιτισμών, χωρικού και χρονικού διαχωρισμού και φαινοτύπων. Ετικέτες όπως “Νότια Ασία” θα έπρεπε Περιλαμβάνουν πληθυσμούς της βορειοανατολικής Ινδίας, οι οποίοι ενδέχεται να εμφανίζουν πιο κοινά χαρακτηριστικά στην Ανατολική Ασία, αλλά οι εθνοτικές ομάδες αγκαλιάζουν φυλετικές γραμμές και οι ετικέτες μπορούν να τα χωρίσουν, τοποθετώντας ορισμένα μέλη σε μία φυλετική κατηγορία και άλλα σε διαφορετική κατηγορία.

“Το τυπικό σύνολο φυλετικών κατηγοριών, που χρησιμοποιούνται συχνά, για παράδειγμα” Ασιάτης “,” μαύρο “,” λευκό “,” Νότια Ασία “- δεν είναι, με την πρώτη ματιά, αδύνατο να εκπροσωπήσει σημαντικό αριθμό ανθρώπων”, γράφουν οι οι συν-συγγραφείς. «Αποκλείει προφανώς τους αυτόχθονες λαούς της Αμερικής και δεν είναι σαφές πού πρέπει να βρίσκονται οι εκατοντάδες εκατομμύρια άνθρωποι που ζουν στην Εγγύς Ανατολή, τη Μέση Ανατολή ή τη Βόρεια Αφρική. Μπορεί να εξεταστεί το ενδεχόμενο επέκτασης του αριθμού των φυλετικών κατηγοριών, αλλά οι φυλετικές κατηγορίες δεν θα είναι πάντοτε σε θέση να εκφράσουν πολυφυλετικά άτομα ή φυλετικά διφορούμενα άτομα. Η εθνική καταγωγή ή η εθνική καταγωγή μπορούν να χρησιμοποιηθούν, αλλά τα σύνορα των χωρών είναι συχνά αποτέλεσμα ιστορικών συνθηκών και δεν αντικατοπτρίζουν τις διαφορές στην εμφάνιση και πολλές χώρες δεν είναι φυλετικά ομοιογενείς. “

Εξίσου προβληματικοί, οι ερευνητές διαπίστωσαν ότι τα πρόσωπα στα σύνολα δεδομένων που αναλύθηκαν υπέστησαν συστηματικά φυλετικές διαφωνίες μεταξύ των σχολιαστών. Όλα τα σύνολα δεδομένων φαίνεται να περιλαμβάνουν και να αναγνωρίζουν έναν πολύ συγκεκριμένο τύπο ατόμου ως μαύρο – ένα στερεότυπο – ενώ έχουν ευρύτερους (και λιγότερο συνεπείς) ορισμούς για άλλες φυλετικές κατηγορίες. Επιπλέον, η συνέπεια της φυλετικής αντίληψης ποικίλλει μεταξύ των εθνικών ομάδων, με τους Φιλιππινέζους σε ένα σύνολο δεδομένων να θεωρούνται λιγότερο σταθερά ως Ασιάτες από τους Κορεάτες, για παράδειγμα.

«Είναι δυνατόν να εξηγήσουμε μερικά από τα αποτελέσματα με καθαρά πιθανοτικό τρόπο: τα ξανθά μαλλιά είναι σχετικά σπάνια εκτός της Βόρειας Ευρώπης, οπότε τα ξανθά μαλλιά αποτελούν ισχυρό σήμα από τη Βόρεια Ευρώπη και, ως εκ τούτου, ανήκουν στην κατηγορία Λευκό. Αλλά εάν τα σύνολα δεδομένων είναι προσανατολισμένα σε εικόνες που συλλέγονται από άτομα στις Ηνωμένες Πολιτείες, τότε οι Ανατολικοί Αφρικανοί ενδέχεται να μην περιλαμβάνονται στα σύνολα δεδομένων, με αποτέλεσμα μια έντονη διαφωνία σχετικά με τη φυλετική ετικέτα να εκχωρηθεί σε Αιθίοπες έναντι χαμηλής διαφωνίας. γενικά, “εξήγησαν οι συν-συγγραφείς.

Αυτές οι προκαταλήψεις φυλετικής σήμανσης θα μπορούσαν να αναπαραχθούν και να ενισχυθούν εάν δεν αντιμετωπιστούν, προειδοποιούν οι συν-συγγραφείς, υποθέτοντας την εγκυρότητα με επικίνδυνες συνέπειες όταν διαχωρίζονται από το πολιτιστικό πλαίσιο. Στην πραγματικότητα, πολλές μελέτες, συμπεριλαμβανομένου του ορόσημου Αποχρώσεις φύλου δουλειά των Joy Buolamwini, Dr. Timnit Gebru, Dr. Helen Raynham and Raji – και του VentureBeat ανάλυση Τα δημόσια δεδομένα αναφοράς έχουν δείξει ότι οι αλγόριθμοι αναγνώρισης προσώπου είναι ευαίσθητοι σε διάφορες προκαταλήψεις. Ένα κοινό στοιχείο σύγχυσης είναι η τεχνολογία και οι τεχνικές που προτιμούν το ελαφρύτερο δέρμα, που περιλαμβάνουν τα πάντα, από σέπια φιλμ έως ψηφιακές φωτογραφικές μηχανές χαμηλής αντίθεσης. Αυτές οι προκαταλήψεις μπορούν να κωδικοποιηθούν σε αλγόριθμους έτσι ώστε η απόδοσή τους σε άτομα με πιο σκούρο δέρμα να είναι χαμηλότερη από ότι σε άτομα με ανοιχτόχρωμο δέρμα.

“Ένα σύνολο δεδομένων μπορεί να έχει τον ίδιο αριθμό ατόμων σε φυλετικές κατηγορίες, αλλά αποκλείει εθνότητες ή άτομα που δεν ταιριάζουν στα στερεότυπα”, έγραψαν. «Είναι δελεαστικό να πιστεύουμε ότι η ισότητα μπορεί να είναι καθαρά μαθηματική και ανεξάρτητη από τις κατηγορίες που χρησιμοποιούνται για τη δημιουργία ομάδων, αλλά η μέτρηση της ισότητας των συστημάτων στην πράξη ή η κατανόηση του αντίκτυπου της όρασης του υπολογιστή σε σχέση με τον φυσικό κόσμο απαιτεί απαραίτητα αναφορές. υπάρχουν στον πραγματικό κόσμο, όσο αόριστα “.

VentureBeat

Η αποστολή της VentureBeat είναι να είναι ένα ψηφιακό τετράγωνο πόλης για τεχνικούς υπεύθυνους λήψης αποφάσεων για να αποκτήσουν πληροφορίες σχετικά με τη μετασχηματιστική τεχνολογία και συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

  • ενημερωμένες πληροφορίες για θέματα που σας ενδιαφέρουν
  • τα ενημερωτικά δελτία μας
  • Περιεχόμενο περιφραγμένο με κορυφαία σκέψη και μειωμένη πρόσβαση στις πολύτιμες εκδηλώσεις μας, όπως το Change
  • δυνατότητες δικτύωσης και άλλα

Γίνομαι μέλος



[via]