Οι ερευνητές περιγράφουν λεπτομερώς το LaND, AI που μαθαίνει από αυτόνομους διαδρόμους οχημάτων

Οι ερευνητές περιγράφουν λεπτομερώς το LaND, AI που μαθαίνει από αυτόνομους διαδρόμους οχημάτων


Οι ερευνητές της UC Berkeley AI λένε ότι έχουν δημιουργήσει μια τεχνητή νοημοσύνη για αυτόνομα οχήματα που οδηγούν σε αόρατα και πραγματικά τοπία που ξεπερνά τις κορυφαίες μεθόδους για παράδοση ρομπότ που οδηγούν σε πεζοδρόμια. Που ονομάζεται ΓηΓια να μάθετε πώς μπορείτε να πλοηγηθείτε από τους διαδρόμους, το σύστημα πλοήγησης μελετά γεγονότα αποδέσμευσης και, στη συνέχεια, προβλέπει πότε θα απεμπλακεί στο μέλλον. Η προσέγγιση στοχεύει να παρέχει αυτό που οι ερευνητές αποκαλούν απαραίτητη μετατόπιση της προοπτικής για την αποδέσμευση για την κοινότητα του AI.

Η αποδέσμευση περιγράφει κάθε περίπτωση όπου ένα αυτόνομο σύστημα αντιμετωπίζει δύσκολες συνθήκες και πρέπει να επιστρέψει τον έλεγχο σε ανθρώπινο χειριστή. Τα συμβάντα απεμπλοκής είναι αμφισβητούμενα, π.χ. κάποιοι λένε ξεπερασμένο, μετρικό για τη μέτρηση των δυνατοτήτων ενός αυτοκινούμενου συστήματος οχήματος. Οι ερευνητές της τεχνητής νοημοσύνης συχνά αποσυνδέονται ως σήμα για την αντιμετώπιση προβλημάτων ή τον εντοπισμό σφαλμάτων συστημάτων πλοήγησης για ρομπότ παράδοσης σε πεζοδρόμια ή αυτόνομα οχήματα στους δρόμους, αλλά η LaND αντιμετωπίζει τους διαδρόμους ως μέρος των δεδομένων εκπαίδευσης.

Με αυτόν τον τρόπο, σύμφωνα με τους μηχανικούς της Berkeley AI Investigation, το ρομπότ μπορεί να μάθει από σύνολα δεδομένων που συλλέγονται φυσικά κατά τη διάρκεια της διαδικασίας δοκιμής. Άλλα συστήματα έμαθαν απευθείας από εκπαιδευτικά δεδομένα που συλλέχθηκαν από ενσωματωμένους αισθητήρες, αλλά οι ερευνητές λένε ότι μπορεί να απαιτεί πολλά δεδομένα με ετικέτα και να είναι ακριβό.

“Τα αποτελέσματά μας δείχνουν ότι το LaND μπορεί να μάθει επιτυχώς να πλοηγείται σε διάφορα περιβάλλοντα οδοστρώματος πραγματικού κόσμου, ξεπερνώντας τόσο τη μαθηματική μάθηση όσο και τη μάθηση ενίσχυσης”, γράφει η εφημερίδα. “Η βασική μας αντίληψη είναι ότι εάν το ρομπότ μπορεί να μάθει επιτυχώς να εκτελεί ενέργειες που αποφεύγουν την αποδέσμευση, τότε το ρομπότ θα εκτελέσει με επιτυχία την επιθυμητή εργασία. Βασικά, σε αντίθεση με τους συμβατικούς αλγόριθμους εκμάθησης ενίσχυσης, οι οποίοι χρησιμοποιούν συναρτήσεις ανταμοιβής. συγκεκριμένη εργασία, η προσέγγισή μας δεν χρειάζεται καν να γνωρίζει την εργασία: η εργασία καθορίζεται έμμεσα μέσω του σήματος αποδέσμευσης. Ωστόσο, παρόμοια με τους τυπικούς αλγόριθμους εκμάθησης ενίσχυσης, η προσέγγισή μας βελτιώνεται συνεχώς επειδή η η μάθηση ενισχύει τις ενέργειες που αποφεύγουν την αποδέσμευση “.

Το LaND χρησιμοποιεί ενισχυτική εκμάθηση, αλλά αντί να αναζητά μια ανταμοιβή, κάθε συμβάν αποδέσμευσης αντιμετωπίζεται ως ένας τρόπος για να μάθετε απευθείας από τους αισθητήρες εισόδου, όπως μια κάμερα, λαμβάνοντας υπόψη παράγοντες όπως η γωνία διεύθυνσης και εάν έχει ενεργοποιηθεί. τη λειτουργία αυτονομίας. Οι ερευνητές εξέτασαν λεπτομερώς το LaND σε εφημερίδα και κωδικός που δημοσιεύθηκε την περασμένη εβδομάδα στο αποθετήριο προτύπων arXiv.

Πάνω: Πρόβλεψη διαδρομής LaND

Η ομάδα συγκέντρωσε δεδομένα εκπαίδευσης για να χτίσει το LaND οδηγώντας ένα ρομπότ Clearpath Jackal στα πεζοδρόμια του Μπέρκλεϋ. Ένας οδηγός ανθρώπινης ασφάλειας συνόδευσε το ρομπότ για να επαναφέρει την πορεία του ή να αναλάβει τον έλεγχο της οδήγησης για μικρό χρονικό διάστημα εάν το ρομπότ μπήκε σε δρόμο, δρόμο ή άλλο εμπόδιο. Συνολικά, συγκεντρώθηκαν σχεδόν 35.000 σημεία δεδομένων και σχεδόν 2.000 διάδρομοι δημιουργήθηκαν κατά τη διάρκεια της εκπαίδευσης LaND στα πεζοδρόμια του Μπέρκλεϋ. Ξεκινώντας το ρομπότ παράδοσης Kiwibot λειτουργεί επίσης στο UC Berkeley και σε κοντινά πεζοδρόμια.

Σε σύγκριση με ένα αρχείο αλγόριθμος μάθησης βαθιάς ενίσχυσης (Kendall et al.) Και η κλωνοποίηση συμπεριφοράς, μια κοινή μέθοδος μάθησης της απομίμησης, τα αρχικά πειράματα έδειξαν ότι το LaND ταξίδεψε μεγαλύτερες αποστάσεις στα πεζοδρόμια πριν από την απεμπλοκή.

Σε μελλοντικές εργασίες, οι συγγραφείς δηλώνουν ότι το LaND μπορεί να συνδυαστεί με υπάρχοντα συστήματα πλοήγησης, ειδικά με μεθόδους απομιμήσεως μάθησης που χρησιμοποιούν δεδομένα εμπειρογνωμόνων για καλύτερα αποτελέσματα. Η μελέτη τρόπων με τους οποίους το ρομπότ θα ειδοποιεί τους χειριστές του όταν χρειάζεται ανθρώπινη παρακολούθηση θα μπορούσε να μειώσει το κόστος.

Σε μια άλλη πρόσφατη εργασία που επικεντρώθηκε στη συγκράτηση του κόστους εκπαίδευσης για ρομποτικά συστήματα, τον Αύγουστο μια ομάδα ερευνητών του UC Berkeley AI δημιούργησε μια απλή μέθοδο για την εκπαίδευση συστημάτων σύλληψης που χρησιμοποιεί ένα $ 18-grabber και ένα GoPro συλλέξτε εκπαιδευτικά δεδομένα για ρομποτικά συστήματα πρόσφυσης. Πέρυσι, παρουσίασαν ερευνητές του Μπέρκλεϊ, συμπεριλαμβανομένου του Pieter Abbeel, συν-συγγραφέα της έρευνας του LaND Μπλε, ένα γενικό ρομπότ που κοστίζει ένα κλάσμα των υπαρχόντων ρομποτικών συστημάτων.



[via]

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.