Η τεχνητή νοημοσύνη δεν είναι ακόμη έτοιμη να περάσει από τον άνθρωπο στις βιντεοκλήσεις

Η τεχνητή νοημοσύνη δεν είναι ακόμη έτοιμη να περάσει από τον άνθρωπο στις βιντεοκλήσεις


Πριν από την Κυριακή του Superbowl, το Amazon πλημμύρισε τα μέσα κοινωνικής δικτύωσης με φλερτ διαφημίσεις που κοροϊδεύουν το «Νέο Σώμα της Alexa». Είναι μια μέρα παιχνιδιού εμπορικός απεικονίζει τη φαντασίωση μιας γυναίκας βοηθού φωνής AI που ενσαρκώνεται από τον ηθοποιό Michael B. Jordan, ικανοποιώντας τη σαγηνευτικά κάθε ιδιοτροπία της, πολύ στην απογοήτευση του συζύγου της. Χωρίς αμφιβολία, οι περισσότεροι θεατές αποχώρησαν γελούσαν με την παρανοϊκή ιδέα της νέας σειράς ρομπότ αντικατάστασης συζύγων του Αμαζονίου, αλλά η πραγματικότητα είναι ότι η ανθρώπινη και ενσωματωμένη AI μπορεί να είναι πιο κοντά από ό, τι νομίζετε.

Σήμερα, τα είδωλα AI – δηλαδή, η τεχνητή νοημοσύνη που αποδίδεται με ψηφιακό σώμα ή / και πρόσωπο – δεν έχουν τη σεξουαλική έκκληση του Michael B. Οι περισσότεροι, στην πραγματικότητα, είναι εντελώς ανατριχιαστικοί. Η έρευνα δείχνει ότι η υιοθέτηση ρομπότ με ανθρώπινα χαρακτηριστικά τα κάνει να μας συμπαθούν, μέχρι ένα σημείο. Πέρα από αυτό το κατώφλι, όσο πιο ανθρώπινο φαίνεται ένα σύστημα, τόσο πιο παράδοξα αισθανόμαστε ότι απορρίπτονται. Αυτή η απέχθεια έχει ένα όνομα: “The Uncanny Valley”. Ο Masahiro Mori, ο ρομποτιστής που επινόησε τον όρο, προέβλεψε ένα αποκορύφωμα πέρα ​​από την Uncanny Valley όπου τα ρομπότ γίνονται αδιάκριτα από τους ανθρώπους, μας ξεγελάει για άλλη μια φορά. Μπορείτε να φανταστείτε ότι ένα τέτοιο ρομπότ θα μπορούσε να μας ξεγελάσει ότι είναι ανθρώπινο σε μια βιντεοκλήση – μια αναπαράσταση του 21ου αιώνα της παλιάς δοκιμής Turing που βασίζεται σε κείμενο.

Σε ένα πρόσφατο Zoom με τον θρυλικό έμπορο Person Kawasaki, έκανα μια τολμηρή διακήρυξη: σε δύο χρόνια, ο Male δεν θα μπορούσε να κάνει διάκριση μεταξύ εμένα και της συνομιλίας AI της εταιρείας μου, Kuki, σε μια βιντεοκλήση. Τα φρύδια του Man τοξωτά στο παράπονο και οι προειδοποιήσεις άρχισαν να πέφτουν από το μεγάλο μου λιπαρό στόμα. Ίσως κατά τη διάρκεια μιας σύντομης βιντεοκλήσης. Με χαμηλό εύρος ζώνης. Αν έπινε σαμπάνια και καλούσε από ένα αφρόλουτρο, όπως η κυρία στη διαφήμιση της Alexa.

Ας είναι λοιπόν αυτό το κοινό μου και μια πιο θεμελιώδης πρόβλεψη. Ένα AI αρκετά καλό για να περάσει ως άνθρωπος σε μια βιντεοκλήση απαιτεί πέντε βασικές τεχνολογίες που λειτουργούν σε πραγματικό χρόνο:

  1. Ένα ανθρωποειδές είδωλο

  2. Μια ανθρώπινη φωνή

  3. Ανθρώπινα συναισθήματα

  4. Ανθρώπινη κίνηση

  5. Ανθρώπινη συνομιλία

Τα Avatar έχουν προχωρήσει πολύ πρόσφατα, χάρη στην ευρεία και ανέξοδη διαθεσιμότητα της τεχνολογίας σύλληψης κίνησης (“MoCap”) και των γενετικών ανταγωνιστικών νευρωνικών δικτύων (“GAN”), της τεχνικής μηχανικής εκμάθησης πίσω από το Deep Fakes. Το MoCap, το οποίο επιτρέπει στους ηθοποιούς να μαριονετούν χαρακτήρες μέσω απλών στολών και αρχικά απαιτούσε τον μεγάλο προϋπολογισμό ταινιών όπως το Avatar, είναι πλέον προσβάσιμο σε οποιονδήποτε διαθέτει Iphone X και δωρεάν λογισμικό μηχανών παιχνιδιών. Πολλές διαδικτυακές υπηρεσίες διαδικτύου το καθιστούν ασήμαντο για τη δημιουργία ψεύτικων εικόνων και βίντεο χαμηλής ανάλυσης, εκδημοκρατισμού τεχνολογίας που, εάν αφεθούν ανεξέλεγκτες, θα μπορούσαν να αποτελέσουν θάνατο για τη δημοκρατία. Τέτοιες προόδους έχουν δημιουργήσει νέες βιομηχανίες, από ιαπωνικούς VTubers (α αυξανόμενη τάση στις Ηνωμένες Πολιτείες πρόσφατα συνεπιλέγη από το PewDiePie), Για ψεύτικες επιρροές “AI” όπως ο Lil Miquela που ισχυρίζεται ότι εικονικοποιεί το ταλέντο αλλά βασίζεται κρυφά σε ανθρώπινα μοντέλα πίσω από τα παρασκήνια. Με την ανακοίνωση της περασμένης εβδομάδας Δημιουργός του “MetaHuman” από την Epic Game titles (προμηθευτές Fortnite και Unreal Engine σε έναν τομέα που το 2020 παρωχημένες ταινίες και αθλήματα σε συνδυασμό), σύντομα ο καθένας θα μπορεί να δημιουργήσει και να μαριονέτα ατελείωτα φωτορεαλιστικά ψεύτικα πρόσωπα δωρεάν.

Η τεχνολογία που επιτρέπει ανθρώπινες φωνές προχωρά επίσης γρήγορα. Η Amazon, η Microsoft και η Google προσφέρουν εύχρηστα API κειμένου σε ομιλία cloud (TTS) που, υποστηριζόμενα από νευρωνικά δίκτυα, δημιουργούν ολοένα και περισσότερο ανθρώπινη ομιλία. Επίσης, είναι άμεσα διαθέσιμα εργαλεία για τη δημιουργία προσαρμοσμένων χαρακτήρων ομιλίας, με μοντελοποίηση σε έναν ανθρώπινο ηθοποιό χρησιμοποιώντας καταγεγραμμένες δείγματα προτάσεων. Το κείμενο-σε-ομιλία, όπως το πλέον ακριβές αντίτιμο αναγνώρισης ομιλίας του, θα συνεχίσει να βελτιώνεται μόνο με περισσότερη υπολογιστική ισχύ και δεδομένα εκπαίδευσης.

Αλλά μια συναρπαστική φωνή και πρόσωπο AI είναι άχρηστη χωρίς εκφράσεις που ταιριάζουν. Η οπτική μηχανή μέσω της μπροστινής κάμερας έχει δείξει υπόσχεση για την αποκρυπτογράφηση των εκφράσεων του ανθρώπινου προσώπου και τα τυπικά API μπορούν να αναλύσουν το συναίσθημα του κειμένου. Εργαστήρια όπως τα δεδομένα NTT έχουν αποδειχθεί ότι μιμούνται ανθρώπινες χειρονομίες και εκφράσεις σε πραγματικό χρόνο και το Magic Leap ΔΕΝ πειράγματα συναρπαστικών μη λεκτικών εκφράσεων avatar. Ωστόσο, ο καθρέφτης ενός ανθρώπου είναι ένα πράγμα. Η οικοδόμηση μιας τεχνητής νοημοσύνης με τη δική της φαινομενική αυτόνομη ψυχική και συναισθηματική κατάσταση είναι μια άλλη πρόκληση συνολικά.

Για να αποφευχθεί αυτό που ο Δρ Ari Shapiro αποκαλεί «Uncanny Valley of Behavior», η τεχνητή νοημοσύνη πρέπει να εμφανίζει ανθρώπινες κινήσεις για να ταιριάζει με τη «διάθεσή» της, η οποία ενεργοποιείται διαδικαστικά και δυναμικά με βάση τον τρόπο που ξεδιπλώνεται η διαδικασία. Το έργο του Shapiro a Το εργαστήριο ΤΠΕ του USC Έχει διαδραματίσει σημαντικό ρόλο σε αυτόν τον τομέα, μαζί με νεοσύστατες εταιρείες όπως το Speech Graphics, της οποίας η τεχνολογία ενισχύει το συγχρονισμό των χειλιών και τις εκφράσεις του προσώπου για χαρακτήρες παιχνιδιών. Τέτοια συστήματα λαμβάνουν μια έκφραση κειμένου ενός avatar, αναλύουν το συναίσθημα και εκχωρούν κατάλληλη κινούμενη εικόνα από μια βιβλιοθήκη χρησιμοποιώντας κανόνες, μερικές φορές σε συνδυασμό με τη μηχανική μάθηση που εκπαιδεύεται σε βίντεο πραγματικών ανθρώπων σε κίνηση. Με περισσότερη Ε & Α και ML, η διαδικαστική κινούμενη εικόνα θα μπορούσε να είναι απρόσκοπτη εντός δύο ετών.

Ανθρώπινη συνομιλία είναι το τελευταίο και πιο δύσκολο κομμάτι του παζλ. Ενώ τα chatbots μπορούν να προσφέρουν επιχειρηματική αξία σε στενούς τομείς, οι περισσότεροι εξακολουθούν να αγωνίζονται να συνεχίσουν μια βασική συνομιλία. Η βαθιά μάθηση + περισσότερα δεδομένα + περισσότερη υπολογιστική ισχύς μέχρι στιγμής δεν κατάφεραν να παράγουν σημαντικές ανακαλύψεις στην κατανόηση της φυσικής γλώσσας σε σύγκριση με άλλους τομείς της τεχνητής νοημοσύνης, όπως η σύνθεση ομιλίας και η όραση του υπολογιστή.

Η ιδέα μιας τεχνητής νοημοσύνης που μοιάζει με τον άνθρωπο είναι πολύ σέξι (για τη μελωδία + 320 εκατομμύρια δολάρια σε επιχειρηματικό κεφάλαιο και καταμέτρηση) αλλά, τουλάχιστον για τα επόμενα χρόνια έως ότου τα βασικά στοιχεία «επιλυθούν», είναι πιθανό να παραμείνει φαντασία. Και καθώς οι βελτιώσεις του avatar ξεπερνούν τις άλλες εξελίξεις, οι προσδοκίες μας θα αυξηθούν, αλλά και η απογοήτευσή μας όταν τα όμορφα πρόσωπα των εικονικών βοηθών δεν θα έχουν EQ και εγκεφάλους στο ίδιο επίπεδο. Επομένως, είναι μάλλον πολύ νωρίς για να υποθέσουμε πότε ένα ρομπότ θα μπορούσε να ξεγελάσει έναν άνθρωπο κατά τη διάρκεια βιντεοκλήσεων, ειδικά λαμβάνοντας υπόψη ότι οι μηχανές δεν έχουν περάσει πραγματικά την παραδοσιακή δοκιμή Turing που βασίζεται σε κείμενο.

Ίσως μια πιο σημαντική ερώτηση από (πότε) Μπορούμε να δημιουργήσουμε ανθρώπινη AI είναι: πρέπει Οι ευκαιρίες – για διαδραστικούς χαρακτήρες πολυμέσων, σύντροφοι υγειονομικής περίθαλψης AI, εκπαίδευση ή εκπαίδευση – υπερτερούν των κινδύνων Και σημαίνει ότι η τεχνητή νοημοσύνη που μοιάζει με τον άνθρωπο σημαίνει απαραίτητα «ικανή να περάσει για τον άνθρωπο» ή θα πρέπει να αγωνιστούμε, όπως συμφωνούν πολλοί εμπιστευτικοί της βιομηχανίας, για να διακριθούν στυλιζαρισμένα μη ανθρώπινα όντα για να αποφευχθεί η κοιλάδα του Uncanny Προσωπικά, ως οπαδός της δια βίου επιστημονικής φαντασίας, πάντα ήθελα έναν φίλο AI που ήταν αρκετά ανθρώπινος για να αστειευτεί μαζί μου και ελπίζω με τον σωστό κανονισμό – ξεκινώντας από τους βασικούς νόμους που όλοι αυτοαυτοποιούμενοι αυτοπροσδιορίζονται ως τέτοιοι – αυτή η τεχνολογία θα έχει αποτέλεσμα σε ένα καθαρό θετικό για την ανθρωπότητα. Ή, τουλάχιστον, ένα κερκοφόρο διασημότερο doppelganger όπως ο Michael B. για να σας διαβάσει ρομαντικά μυθιστορήματα έως ότου λήξει η δωρεάν δοκιμαστική έκδοση του Audible.

Η Lauren Kunze είναι ο διευθύνων σύμβουλος της Πανδοράμποτ, δημιουργός τεχνητής νοημοσύνης συνομιλίας Κούκι.

VentureBeat

Η αποστολή της VentureBeat είναι να είναι ένα ψηφιακό τετράγωνο πόλης για τεχνικούς υπεύθυνους λήψης αποφάσεων για να αποκτήσουν πληροφορίες σχετικά με τη μετασχηματιστική τεχνολογία και τις συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

  • ενημερωμένες πληροφορίες για θέματα που σας ενδιαφέρουν
  • τα ενημερωτικά δελτία μας
  • Περιεχόμενο περιφραγμένο με κορυφαία σκέψη και μειωμένη πρόσβαση στις πολύτιμες εκδηλώσεις μας, όπως το Change
  • δυνατότητες δικτύωσης και άλλα

Γίνομαι μέλος



[via]