Η Microsoft εξηγεί πώς έχει βελτιώσει τις αυτόματες λεζάντες εικόνων στις υπηρεσίες γνωστικών υπηρεσιών Azure

Λεζάντες εικόνας Microsoft AI


Η Microsoft ξεκίνησε σήμερα μια νέα υπηρεσία υπολογιστή όρασης που ισχυρίζεται ότι μπορεί να δημιουργήσει λεζάντες εικόνων που, σε ορισμένες περιπτώσεις, είναι πιο ακριβείς από τις περιγραφές που γράφονται από άτομα. Η εταιρεία καλεί την υπηρεσία, διαθέσιμη ως μέρος του Azure Cognitive Companies Personal computer Eyesight, μια «σημαντική ανακάλυψη στην έρευνα» και ένα παράδειγμα της δέσμευσής του για προσβάσιμη AI.

Οι αυτόματες λεζάντες εικόνων έχουν πολλές περιπτώσεις ευρείας χρήσης, βοηθώντας κυρίως χρήστες με αναπηρίες. Σύμφωνα με Παγκόσμιος Οργανισμός Υγείας, ο αριθμός των ατόμων με προβλήματα όρασης όλων των ηλικιών εκτιμάται σε 285 εκατομμύρια, εκ των οποίων 39 εκατομμύρια είναι τυφλοί.

Η ακρίβεια γίνεται ακόμη πιο κρίσιμη όταν οι χρήστες με προβλήματα όρασης βασίζονται σε υπότιτλους για καθημερινές εργασίες. Σύμφωνα με ένα αυτή μελετάει από ερευνητές του Πανεπιστημίου της Ιντιάνα, του Πανεπιστημίου της Ουάσινγκτον και της Microsoft, οι τυφλοί τείνουν να αποδίδουν μεγάλη πίστη στους λεζάντες που δημιουργούνται αυτόματα, δημιουργώντας μη υποστηριζόμενες αφηγήσεις για να συμφιλιώσουν τις διαφορές μεταξύ των πλαισίων εικόνας και των ασυνεπή λεζάντων. Όταν τους ζητήθηκε να αναγνωρίσουν λεζάντες εικόνων στο Twitter που μπορεί να είναι λανθασμένοι, ακόμη και οι τυφλοί χρήστες που περιγράφουν ότι είναι ικανοί και συνεπείς στο διπλό έλεγχο τείνουν να εμπιστεύονται τους αυτόματους υπότιτλους, οι ερευνητές διαπίστωσαν, ανεξάρτητα από το αν είχαν ή όχι τους υπότιτλους έννοια.

Στις αρχές του 2017, η Microsoft ΕΠΙΚΑΙΡΟΠΟΙΗΜΕΝΟ Εφαρμογές του Workplace 365 όπως το Phrase και το PowerPoint με αυτόματους λεζάντες εικόνων, που υποστηρίζονται από Laptop or computer Vision Cognitive Products and services. (Το Cognitive Solutions είναι μια σουίτα API και SDK που βασίζεται σε σύννεφο και είναι διαθέσιμη σε προγραμματιστές που ενσωματώνουν τις δυνατότητες τεχνητής νοημοσύνης και μηχανικής μάθησης στις εφαρμογές και τις υπηρεσίες τους.) Πιο πρόσφατα, η εταιρεία ξεκίνησε το Viewing AI, μια εφαρμογή για κινητά που έχει σχεδιαστεί για να βοηθήσει οι χρήστες με προβλήματα όρασης και οι χρήστες με προβλήματα όρασης περιηγούνται στον κόσμο γύρω τους.

Ωστόσο, ενώ το Place of work 365 και το Looking at AI θα μπορούσαν να καταγράφουν αυτόματα εικόνες καλύτερα από κάποιες βασικές γραμμές AI, οι μηχανικοί της Microsoft εφάρμοσαν νέες τεχνικές για να τις βελτιώσουν περαιτέρω.

Οι μηχανικοί περιγράφουν την τεχνική τους σε μια δημοσίευση του Σεπτεμβρίου που δημοσιεύτηκε στο Arxiv.org, έναν διακομιστή προεκτύπωσης. Ονομάζεται προεκπαίδευση οπτικού λεξιλογίου, ή VIVO για συντομία, αξιοποιεί μεγάλες ποσότητες μη σχολιασμένων φωτογραφιών για να μάθει ένα λεξιλόγιο για λεζάντα εικόνας. (Συνήθως, η κατάρτιση προτύπων αυτόματων λεζάντων απαιτεί εταιρικά σώματα που περιέχουν σχολιασμούς που παρέχονται από ανθρώπινες ετικέτες) Κλείστε μεταξύ τους (για παράδειγμα, “πρόσωπο” ΚΑΙ “άνθρωπος”, “ακορντεόν” και “όργανο”). Μόλις δημιουργηθεί το οπτικό λεξιλόγιο, ένα πρότυπο λεζάντας αυτόματης εικόνας μπορεί να ρυθμιστεί χρησιμοποιώντας ένα σύνολο δεδομένων αντίστοιχων εικόνων και λεζάντων.

Πάνω: αποτελέσματα υποτίτλων εικόνας στο nocaps. Β: Ένα βασικό σημείο χωρίς την προσθήκη της προ-εκπαίδευσης VIVO. V: Με το VIVO
προ-κατάρτιση. Το κόκκινο κείμενο αντιπροσωπεύει νέα αντικείμενα. Το χρώμα του πλαισίου οριοθέτησης είναι πιο φωτεινό όταν η ομοιότητα είναι μεγαλύτερη.

Πιστωτική εικόνα: Microsoft

Κατά τη διάρκεια της διαδικασίας κατάρτισης του μοντέλου, μία ή περισσότερες ετικέτες αποκρύπτονται τυχαία και ζητείται από το μοντέλο να προβλέψει τις καλυμμένες ετικέτες που εξαρτώνται από τα χαρακτηριστικά της περιοχής εικόνας και άλλων ετικετών. Παρόλο που το σύνολο δεδομένων που χρησιμοποιείται για την τελειοποίηση καλύπτει μόνο ένα μικρό υποσύνολο των πιο κοινών αντικειμένων στο οπτικό λεξιλόγιο, το προ-εκπαιδευμένο μοντέλο του VIVO μπορεί να γενικεύσει σε οποιαδήποτε εικόνα αντιπροσωπεύει παρόμοιες σκηνές (π.χ. άτομα που κάθονται μαζί σε ένα καναπές). Στην πραγματικότητα, είναι μια από τις λίγες μεθόδους προ-κατάρτισης για τη δημιουργία λεζάντων που δεν βασίζεται σε σχολιασμούς υπότιτλων, επιτρέποντάς του να λειτουργεί με υπάρχοντα σύνολα δεδομένων εικόνας που έχουν αναπτυχθεί για εργασίες ετικετών εικόνας και εντοπισμού αντικειμένων. .

Η Microsoft συνέκρινε το προ-εκπαιδευμένο μοντέλο της VIVO με το nocaps, μια δοκιμή που έχει σχεδιαστεί για να ενθαρρύνει την ανάπτυξη μοντέλων λεζάντας εικόνων που μπορούν να μάθουν οπτικές έννοιες από εναλλακτικές πηγές δεδομένων. Αξιολογείται σε δεκάδες χιλιάδες λεζάντες που δημιουργούνται από τον άνθρωπο και περιγράφουν χιλιάδες εικόνες, το μοντέλο πέτυχε πρωτοποριακά αποτελέσματα με ουσιαστικές βελτιώσεις για αντικείμενα που δεν είχε ξαναδεί. Επιπλέον, σε μια μέτρηση που ονομάζεται Βαθμολογία περιγραφή εικόνας βάσει συναίνεσης (CIDEr), η οποία στοχεύει στη μέτρηση της ομοιότητας μιας δημιουργημένης λεζάντας με τεκμηριωμένες προτάσεις αλήθειας που γράφτηκαν από ανθρώπους, το μοντέλο ξεπέρασε κατά πολύ την ανθρώπινη απόδοση. στατιστικά σημαντικό.

Εκτός από την τελευταία έκδοση του Cognitive Products and services Laptop Eyesight API, η Microsoft λέει ότι το μοντέλο περιλαμβάνεται πλέον στο Looking at AI. Θα κυκλοφορήσει σε προϊόντα και υπηρεσίες της Microsoft, συμπεριλαμβανομένων των Word και Outlook, για Windows και Mac και PowerPoint για Home windows, Mac και Website αργότερα φέτος, αντικαθιστώντας ένα πρότυπο λεζάντας εικόνας που χρησιμοποιείται από το 2015.

“Δεδομένου του πλεονεκτήματος αυτού, έχουμε εργαστεί για να επιταχύνουμε την ολοκλήρωση αυτής της καινοτομίας στην έρευνα και να την φέρουμε στην Azure AI και στην κατασκευή”, δήλωσε ο Eric Boyd, εταιρικός αντιπρόεδρος της πλατφόρμας, στο τηλέφωνο VentureBeat νωρίτερα αυτή την εβδομάδα. AI από τη Microsoft. «Είναι ένα πράγμα να έχουμε μια συστροφή σε κάτι που λειτουργεί σε μια λεπτή εγκατάσταση στο εργαστήριο. Αλλά να έχουμε κάτι τέτοιο [in a few months] μπορούμε να δοκιμάσουμε τον εαυτό μας με πίεση και να λειτουργήσουμε σε μεγάλη κλίμακα και μέρος του Azure … δείχνει πώς μπορούμε να πάμε από την ανακάλυψη της έρευνας έως την παραγωγή των πραγμάτων. “



[via]

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.