Η DeepMind θέλει να διδάξει ρομπότ να παίζουν επιτραπέζια παιχνίδια

DeepMind AI


Ο έλεγχος των φυσικών συστημάτων με αφηρημένους στόχους είναι μια ανεπίλυτη πρόκληση στο AI. Για να ενθαρρύνουν την ανάπτυξη τεχνικών που θα μπορούσαν να το ξεπεράσουν, οι ερευνητές του DeepMind δημιούργησαν προσαρμοσμένα σενάρια για τον κινητήρα φυσικής MuJoCo που δίνει τη δυνατότητα σε έναν παράγοντα AI να συντονίζει την αντίληψη, το σκεπτικό και τον έλεγχο του κινητήρα με την πάροδο του χρόνου. Πιστεύουν ότι η βιβλιοθήκη, την οποία έχουν δημοσιοποιήσει, μπορεί να συμβάλει στη γεφύρωση του χάσματος μεταξύ αφηρημένου σχεδιασμού και ενσωματωμένου ελέγχου.

Η πρόσφατη εργασία στη μηχανική μάθηση οδήγησε σε αλγόριθμους ικανούς να κυριαρχήσουν επιτραπέζια παιχνίδια όπως Αρχή, σκάκι και σόγκι. Αυτοί οι αλγόριθμοι παρατηρούν τις καταστάσεις του παιχνιδιού και ελέγχουν αυτές τις καταστάσεις απευθείας με τις ενέργειές τους, σε αντίθεση με τους ανθρώπους, οι οποίοι δεν σκέφτονται απλώς τις κινήσεις, αλλά κοιτάζουν το ταμπλό και χειρίζονται τα κομμάτια του παιχνιδιού με τα δάχτυλά τους. Εκτός από τα παιχνίδια, πολλά προβλήματα στον πραγματικό κόσμο απαιτούν έναν συνδυασμό αντίληψης, σχεδιασμού και εκτέλεσης, τον οποίο ακόμη και οι μεγάλοι αλγόριθμοι δεν καταφέρνουν να καταγράψουν.

Η λύση της ομάδας είναι μια σειρά από προκλήσεις που ενσωματώνουν εργασίες από παιχνίδια (π.χ. Tic-tac-toe, Sokoban) σε περιβάλλοντα όπου οι πράκτορες πρέπει να ελέγχουν ένα φυσικό σώμα για να εκτελούν κινήσεις. Για παράδειγμα, για να τοποθετήσετε ένα μόνο τρία του είδους, ένας πράκτορας πρέπει να φτάσει στο ταμπλό με βραχίονα 9 μοιρών ελευθερίας και να αγγίξει το αντίστοιχο σημείο σε αυτόν τον πίνακα. Η εκμάθηση να παίζετε tic-tac-toe και να εκτελείτε μια κίνηση προσέγγισης εμπίπτει στις δυνατότητες των τρεχουσών προσεγγίσεων AI, αλλά οι περισσότεροι πράκτορες αγωνίζονται όταν αντιμετωπίζουν και τα δύο προβλήματα ταυτόχρονα.

Στο MuJoBan, το οποίο βασίζεται στο Sokoban, ένας πράκτορας που βρίσκεται σε ένα πλέγμα πρέπει να πιέζει κουτιά για να στοχεύσει θέσεις. Μόνο ένα κουτί μπορεί να ωθείται κάθε φορά και τα κουτιά μπορούν να ωθούνται μόνο, όχι τραβηγμένα. Το MuJoXo είναι παρόμοιο με το tic-tac-toe, με τυχαιότητα για να διασφαλιστεί ότι τα κομμάτια δεν είναι τέλεια ευθυγραμμισμένα στο ταμπλό. Το τελευταίο παιχνίδι, το MuJoGo, είναι ένας πίνακας Go 7×7 που έχει σχεδιαστεί για επίλυση σε περίπου 50 κινήσεις (2,5 δευτερόλεπτα).

Στα πειράματα, οι ερευνητές σχεδίασαν δείκτες για να ολοκληρώσουν διάφορες εργασίες παιχνιδιού. Οι πράκτορες χρησιμοποίησαν μια ενότητα σχεδιασμού για να χαρτογραφήσουν τις καταστάσεις του Παιχνιδιού Earth Truth για να προσδιορίσουν τις καταστάσεις και να σχεδιάσουν τις ενέργειες που απαιτούνται για την επίτευξή τους. Χρησιμοποίησαν επίσης μια βοηθητική δραστηριότητα για να ενθαρρύνουν τους πράκτορες να ακολουθούν τις οδηγίες, έτσι ώστε ένας πράκτορας να λαμβάνει ανταμοιβή όταν εκτελεί ενέργειες που είχαν ως αποτέλεσμα τις κινήσεις του παιχνιδιού που προτείνονται από τις οδηγίες. (Η “ανταμοιβή” αναφέρεται σε θετικά σχόλια που ενισχύουν τις επιθυμητές συμπεριφορές ή κινήσεις παιχνιδιών, ανάλογα με την περίπτωση.)

Οι ερευνητές αναφέρουν ότι οι πράκτορες δεν μπόρεσαν να λύσουν περισσότερα από τα μισά επίπεδα στο MuJoBan μετά από εκτεταμένη προπόνηση, τα οποία αποδίδουν σε έναν συνδυασμό πολλαπλών βημάτων λογικής και προκλήσεων ελέγχου. Ο απλούστερος πράκτορας πήρε περίπου ένα εκατομμύριο παιχνίδια προτού μπορέσουν να παίξουν το MuJoXo “πειστικά” και δεν έδειξαν κανένα σημάδι προόδου στο MuJoGo ακόμα και μετά από δισεκατομμύρια εκπαιδευτικά βήματα.

«Προβλήματα που απαιτούν συλλογισμό και λήψη αποφάσεων σε μακροχρόνιες κλίμακες με χρήση αισθητήρα κινητήρα ελέγχου δεν μπορούν ακόμη να λυθούν από άκρο σε άκρο. Αυτά τα προβλήματα προκύπτουν συχνά στην ανθρώπινη συμπεριφορά, αλλά εξακολουθούν να είναι δύσκολο να πλαισιωθούν και σπάνια μελετηθούν σε ελεγχόμενο πειραματικό περιβάλλον “, έγραψαν οι ερευνητές σε μια εργασία που περιγράφει το έργο.” Ελπίζουμε ότι τα περιβάλλοντα που παρέχονται εδώ θα ενθαρρύνουν την έρευνα σχετικά με τον τρόπο εισαγωγής με συνέπεια αυτές τις δυνατότητες στην επόμενη γενιά παραγόντων AI. “

Και τα τρία σενάρια είναι διαθέσιμα στις GitHub.



[via]

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.