Το ενημερωμένο DeepSpeed ​​της Microsoft μπορεί να εκπαιδεύσει μοντέλα AI τρισεκατομμυρίων παραμέτρων με λιγότερες GPU

Το ενημερωμένο DeepSpeed ​​της Microsoft μπορεί να εκπαιδεύσει μοντέλα AI τρισεκατομμυρίων παραμέτρων με λιγότερες GPU


Η Microsoft κυκλοφόρησε σήμερα ένα αναβαθμισμένη έκδοση του δικού του Βαθιά ταχύτητα βιβλιοθήκη που εισάγει μια νέα προσέγγιση για την εκπαίδευση μοντέλων AI που περιέχουν τρισεκατομμύρια παραμέτρους, τις εσωτερικές μεταβλητές του μοντέλου που ενημερώνουν τις προβλέψεις του. Η εταιρεία λέει ότι η τεχνική, που ονομάζεται 3D παραλληλισμός, προσαρμόζεται σε διαφορετικές ανάγκες απαιτήσεων φόρτου εργασίας για την τροφοδοσία εξαιρετικά μεγάλων μοντέλων, ενώ ισορροπεί την αποτελεσματικότητα κλιμάκωσης.

Τα τεράστια μονόκλινα μοντέλα AI με δισεκατομμύρια παραμέτρους έχουν σημειώσει μεγάλη πρόοδο σε έναν αριθμό προκλητικών τομέων. Οι μελέτες δείχνουν ότι λειτουργούν καλά επειδή μπορούν να απορροφήσουν τις αποχρώσεις της γλώσσας, της γραμματικής, της γνώσης, των εννοιών και του πλαισίου, επιτρέποντάς τους να συνοψίσουν την ομιλία, εποπτευόμενο περιεχόμενο σε ζωντανές συζητήσεις παιχνιδιών, ανάλυση σύνθετων νομικών εγγράφων και ακόμη και δημιουργία κώδικα από την ανάλυση GitHub. Όμως, η εκπαίδευση μοντέλων απαιτεί τεράστιους υπολογιστικούς πόρους. Σύμφωνα με το OpenAI του 2018 ανάλυση, από το 2012 έως το 2018, ο υπολογισμός που χρησιμοποιήθηκε στις μεγαλύτερες προπονήσεις τεχνητής νοημοσύνης αυξήθηκε περισσότερο από 300.000 φορές με χρόνο διπλασιασμού 3,5 μηνών, υπερβαίνοντας κατά πολύ τον ρυθμό του Νόμου του Μουρ.

Το βελτιωμένο DeepSpeed ​​αξιοποιεί τρεις τεχνικές για να επιτρέψει την κατάρτιση μοντέλου “τρισεκατομμύρια κλίμακας”: παράλληλη εκπαίδευση δεδομένων, παράλληλη εκπαίδευση μοντέλου και παράλληλη εκπαίδευση αγωγών. Η εκπαίδευση ενός μοντέλου με τρισεκατομμύρια παραμέτρους θα απαιτούσε τη συνδυασμένη μνήμη τουλάχιστον 400 GPU Nvidia A100 (που έχουν 40 GB μνήμης το καθένα) και η Microsoft εκτιμά ότι θα χρειαστούν 4.000 A100s με απόδοση 50% για περίπου 100 ημέρες έως ολοκληρώστε την εκπαίδευση. Αυτό δεν ταιριάζει με το Υπερυπολογιστής AI Η Microsoft έχει σχεδιαστεί από κοινού με το OpenAI, το οποίο περιέχει πάνω από 10.000 κάρτες γραφικών, αλλά η επίτευξη υψηλής απόδοσης επεξεργασίας τείνει να είναι δύσκολη σε αυτήν την κλίμακα.

Το DeepSpeed ​​χωρίζει μεγάλα μοντέλα σε μικρότερα συστατικά (στρώματα) σε τέσσερα στάδια αγωγών. Τα επίπεδα σε κάθε φάση του αγωγού χωρίζονται περαιτέρω μεταξύ τεσσάρων “εργαζομένων”, οι οποίοι εκτελούν την πραγματική εκπαίδευση. Κάθε αγωγός αντιγράφεται σε δύο περιπτώσεις παράλληλα με τα δεδομένα και οι εργαζόμενοι χαρτογραφούνται σε συστήματα πολλαπλών GPU. Χάρη σε αυτές και σε άλλες βελτιώσεις απόδοσης, η Microsoft αναφέρει ότι ένα μοντέλο με τρισεκατομμύρια παραμέτρους θα μπορούσε να κλιμακώσει έως και 800 Nvidia V100 GPU.

Η τελευταία έκδοση του DeepSpeed ​​περιλαμβάνει επίσης το ZeRO-Offload, μια τεχνολογία που αξιοποιεί τη μνήμη και τον υπολογισμό πόρων τόσο σε GPU όσο και σε κεντρικούς υπολογιστές τους για να επιτρέψει την εκπαίδευση έως 13 δισεκατομμυρίων μοντέλων παραμέτρων σε ένα μόνο V100 . Η Microsoft ισχυρίζεται ότι είναι 10 φορές μεγαλύτερη από την τελευταία λέξη της τεχνολογίας, καθιστώντας την εκπαίδευση προσβάσιμη σε επιστήμονες δεδομένων με λιγότερους υπολογιστικούς πόρους.

“Αυτά τα [new techniques in DeepSpeed] προσφέρουν υψηλή απόδοση επεξεργασίας, μνήμης και επικοινωνίας και βελτιώστε την εκπαίδευση μοντέλων με δισεκατομμύρια έως τρισεκατομμύρια παραμέτρους, “έγραψε η Microsoft σε ένα ανάρτηση. “Οι τεχνολογίες επιτρέπουν επίσης εξαιρετικά μεγάλες ακολουθίες εισόδου και συστήματα υλικού ισχύος με μία μόνο GPU, σύμπλεγμα υψηλών σημείων με χιλιάδες GPU ή συμπλέγματα χαμηλών σημείων με πολύ αργά δίκτυα Ethernet … Εμείς [continue] να καινοτομήσουμε με γρήγορο ρυθμό, ωθώντας τα όρια της ταχύτητας και της κλιμάκωσης για εκπαίδευση βαθιάς μάθησης. “



[via]

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.