Γιατί οι μικρές βελτιώσεις μοντέλων φέρνουν μεγάλες αλλαγές
Ο αγώνας για τη δημιουργία του μεγαλύτερου δυνατού μοντέλου τεχνητής νοημοσύνης προσκρούει σε έναν τοίχο φθίνουσας απόδοσης. Ενώ οι τίτλοι ειδήσεων εστιάζουν συχνά σε τεράστια συστήματα με τρισεκατομμύρια παραμέτρους, η πραγματική πρόοδος συντελείται στο περιθώριο. Μικρές βελτιώσεις στον τρόπο με τον οποίο αυτά τα μοντέλα επεξεργάζονται δεδομένα επιφέρουν τεράστιες αλλαγές σε όσα μπορεί να κάνει το λογισμικό στην καθημερινότητά μας. Απομακρυνόμαστε από μια περίοδο όπου η ωμή κλίμακα ήταν η μόνη μέτρηση που είχε σημασία. Σήμερα, η εστίαση είναι στο πόση νοημοσύνη μπορούμε να χωρέσουμε σε ένα μικρότερο αποτύπωμα. Αυτή η στροφή καθιστά την τεχνολογία πιο προσιτή και γρήγορη για όλους. Δεν πρόκειται πλέον για την κατασκευή ενός μεγαλύτερου εγκεφάλου. Πρόκειται για το να κάνουμε τους υπάρχοντες εγκεφάλους να λειτουργούν με πολύ μεγαλύτερη αποδοτικότητα. Όταν ένα μοντέλο γίνεται δέκα τοις εκατό μικρότερο αλλά διατηρεί την ακρίβειά του, δεν εξοικονομεί απλώς χρήματα από το κόστος των server. Επιτρέπει μια ολόκληρη νέα κατηγορία εφαρμογών που ήταν προηγουμένως αδύνατες λόγω περιορισμών του hardware. Αυτή η μετάβαση είναι η σημαντικότερη τάση στον τομέα της τεχνολογίας αυτή τη στιγμή, καθώς μεταφέρει τη δύναμη της προηγμένης υπολογιστικής ισχύος από τα τεράστια data centers στην παλάμη του χεριού σας.
Το τέλος της εποχής «το μεγαλύτερο είναι καλύτερο»
Για να καταλάβουμε γιατί αυτές οι μικρές τροποποιήσεις έχουν σημασία, πρέπει να δούμε τι ακριβώς είναι. Το μεγαλύτερο μέρος της προόδου προέρχεται από τρεις τομείς: επιμέλεια δεδομένων, quantization και αρχιτεκτονικές βελτιώσεις. Για πολύ καιρό, οι ερευνητές πίστευαν ότι περισσότερα δεδομένα ήταν πάντα καλύτερα. «Ξεσκόνισαν» ολόκληρο το internet και τα τροφοδότησαν σε μηχανές. Τώρα, γνωρίζουμε ότι τα δεδομένα υψηλής ποιότητας είναι πολύ πιο πολύτιμα από την απλή ποσότητα. Καθαρίζοντας τα datasets και αφαιρώντας τις περιττές πληροφορίες, οι μηχανικοί μπορούν να εκπαιδεύσουν μικρότερα μοντέλα που ξεπερνούν σε απόδοση τους μεγαλύτερους προκατόχους τους. Αυτό συχνά ονομάζεται δεδομένα ποιότητας textbook. Ένας άλλος σημαντικός παράγοντας είναι το quantization. Πρόκειται για τη διαδικασία μείωσης της ακρίβειας των αριθμών που χρησιμοποιεί ένα μοντέλο για τους υπολογισμούς του. Αντί για δεκαδικούς υψηλής ακρίβειας, ένα μοντέλο μπορεί να χρησιμοποιεί απλούς ακέραιους. Αυτό ακούγεται σαν να καταστρέφει τα αποτελέσματα, αλλά τα έξυπνα μαθηματικά επιτρέπουν στο μοντέλο να παραμένει σχεδόν εξίσου έξυπνο, απαιτώντας ένα κλάσμα της μνήμης. Μπορείτε να διαβάσετε περισσότερα για αυτές τις τεχνικές αλλαγές στην πρόσφατη έρευνα για το QLoRA και τη συμπίεση μοντέλων.
Τέλος, υπάρχουν αρχιτεκτονικές αλλαγές όπως οι μηχανισμοί attention που εστιάζουν στα πιο σχετικά μέρη μιας πρότασης. Δεν πρόκειται για τεράστιες αναδιαρθρώσεις. Είναι λεπτές προσαρμογές στα μαθηματικά που επιτρέπουν στο σύστημα να αγνοεί τον θόρυβο. Όταν συνδυάζετε αυτούς τους παράγοντες, έχετε ένα μοντέλο που χωράει σε ένα τυπικό laptop αντί να απαιτεί ένα δωμάτιο γεμάτο εξειδικευμένα chips. Οι άνθρωποι συχνά υπερεκτιμούν την ανάγκη για τεράστια μοντέλα για απλές εργασίες. Υποτιμούν το πόση λογική μπορεί να χωρέσει σε μερικά δισεκατομμύρια παραμέτρους. Βλέπουμε μια τάση όπου το «αρκετά καλό» γίνεται το πρότυπο για τα περισσότερα καταναλωτικά προϊόντα. Αυτό επιτρέπει στους developers να ενσωματώνουν έξυπνες λειτουργίες σε apps χωρίς να χρεώνουν συνδρομή για την κάλυψη υψηλού κόστους cloud. Είναι μια θεμελιώδης αλλαγή στον τρόπο με τον οποίο κατασκευάζεται και διανέμεται το λογισμικό.
Γιατί η τοπική νοημοσύνη μετράει περισσότερο από τη δύναμη του cloud
Ο παγκόσμιος αντίκτυπος αυτών των μικρών βελτιώσεων είναι δύσκολο να υπερεκτιμηθεί. Το μεγαλύτερο μέρος του κόσμου δεν έχει πρόσβαση στο internet υψηλής ταχύτητας που απαιτείται για την αλληλεπίδραση με τεράστια μοντέλα που βασίζονται στο cloud. Όταν η νοημοσύνη απαιτεί συνεχή σύνδεση με έναν server στη Βιρτζίνια ή το Δουβλίνο, παραμένει μια πολυτέλεια για τους πλούσιους. Οι μικρές βελτιώσεις μοντέλων το αλλάζουν αυτό, επιτρέποντας στο λογισμικό να τρέχει τοπικά σε hardware μεσαίας κατηγορίας. Αυτό σημαίνει ότι ένας φοιτητής σε μια αγροτική περιοχή ή ένας εργαζόμενος σε μια αναδυόμενη αγορά μπορεί να έχει πρόσβαση στο ίδιο επίπεδο βοήθειας με κάποιον σε ένα tech hub. Ισοπεδώνει το πεδίο του ανταγωνισμού με τρόπο που η ωμή κλιμάκωση δεν θα μπορούσε ποτέ. Το κόστος της νοημοσύνης πέφτει προς το μηδέν. Αυτό είναι ιδιαίτερα σημαντικό για την ιδιωτικότητα και την ασφάλεια. Όταν τα δεδομένα δεν χρειάζεται να εγκαταλείψουν μια συσκευή, ο κίνδυνος παραβίασης είναι σημαντικά χαμηλότερος. Οι κυβερνήσεις και οι πάροχοι υγειονομικής περίθαλψης εξετάζουν αυτά τα αποδοτικά μοντέλα ως έναν τρόπο παροχής υπηρεσιών χωρίς να θέτουν σε κίνδυνο τα δεδομένα των πολιτών.
Η στροφή επηρεάζει επίσης το περιβάλλον. Οι εκπαιδεύσεις μεγάλης κλίμακας καταναλώνουν τεράστιες ποσότητες ηλεκτρικής ενέργειας και νερού για ψύξη. Εστιάζοντας στην αποδοτικότητα, ο κλάδος μπορεί να μειώσει το αποτύπωμα άνθρακα ενώ συνεχίζει να προσφέρει καλύτερα προϊόντα. Επιστημονικά περιοδικά όπως το Nature έχουν αναδείξει πώς η αποδοτική AI θα μπορούσε να μειώσει το περιβαλλοντικό κόστος του κλάδου. Ορίστε μερικοί τρόποι με τους οποίους εκδηλώνεται αυτή η παγκόσμια αλλαγή:
- Τοπικές υπηρεσίες μετάφρασης που λειτουργούν χωρίς καμία σύνδεση στο internet.
- Εργαλεία ιατρικής διάγνωσης που τρέχουν σε φορητά tablets σε απομακρυσμένες κλινικές.
- Εκπαιδευτικό λογισμικό που προσαρμόζεται στις ανάγκες του μαθητή σε hardware χαμηλού κόστους.
- Φιλτράρισμα ιδιωτικότητας σε πραγματικό χρόνο για βιντεοκλήσεις που συμβαίνει εξ ολοκλήρου στη συσκευή.
- Αυτοματοποιημένη παρακολούθηση καλλιεργειών για αγρότες χρησιμοποιώντας φθηνά drones και τοπική επεξεργασία.
Δεν πρόκειται μόνο για το να γίνουν τα πράγματα πιο γρήγορα. Πρόκειται για το να γίνουν καθολικά. Όταν οι απαιτήσεις hardware μειώνονται, η δυνητική βάση χρηστών αυξάνεται κατά δισεκατομμύρια ανθρώπους. Αυτή η τάση συνδέεται στενά με τις τελευταίες τάσεις στην ανάπτυξη AI που δίνουν προτεραιότητα στην προσβασιμότητα έναντι της ωμής ισχύος.
Μια Τρίτη με έναν offline βοηθό
Σκεφτείτε μια μέρα στη ζωή ενός μηχανικού πεδίου, του Marcus. Εργάζεται σε υπεράκτιες ανεμογεννήτριες όπου η πρόσβαση στο internet είναι ανύπαρκτη. Στο παρελθόν, αν ο Marcus συναντούσε μια μηχανική βλάβη που δεν αναγνώριζε, έπρεπε να βγάλει φωτογραφίες, να περιμένει μέχρι να επιστρέψει στην ακτή και να συμβουλευτεί ένα εγχειρίδιο ή έναν ανώτερο συνάδελφο. Αυτό θα μπορούσε να καθυστερήσει τις επισκευές για μέρες. Τώρα, μεταφέρει ένα ανθεκτικό tablet με ένα εξαιρετικά βελτιστοποιημένο τοπικό μοντέλο. Στρέφει την κάμερα στα εξαρτήματα της ανεμογεννήτριας και το μοντέλο αναγνωρίζει το πρόβλημα σε πραγματικό χρόνο. Παρέχει έναν οδηγό επισκευής βήμα προς βήμα με βάση τον συγκεκριμένο σειριακό αριθμό του μηχανήματος. Το μοντέλο που χρησιμοποιεί ο Marcus δεν είναι ένας γίγαντας τρισεκατομμυρίων παραμέτρων. Είναι μια μικρή, εξειδικευμένη έκδοση που βελτιώθηκε για να κατανοεί τη μηχανολογία. Αυτό είναι ένα συγκεκριμένο παράδειγμα του πώς μια μικρή βελτίωση στην αποδοτικότητα του μοντέλου δημιουργεί μια τεράστια αλλαγή στην παραγωγικότητα.
Αργότερα εκείνη την ημέρα, ο Marcus χρησιμοποιεί την ίδια συσκευή για να μεταφράσει ένα τεχνικό έγγραφο από έναν ξένο προμηθευτή. Η μετάφραση είναι σχεδόν τέλεια επειδή το μοντέλο εκπαιδεύτηκε σε ένα μικρό αλλά υψηλής ποιότητας σύνολο κειμένων μηχανικής. Δεν χρειάστηκε ποτέ να ανεβάσει ούτε ένα αρχείο στο cloud. Αυτή η αξιοπιστία είναι που καθιστά την τεχνολογία χρήσιμη στον πραγματικό κόσμο. Πολλοί άνθρωποι υποθέτουν ότι η AI πρέπει να είναι generalist για να είναι χρήσιμη, αλλά ο Marcus αποδεικνύει ότι τα εξειδικευμένα, μικρά συστήματα είναι συχνά ανώτερα για επαγγελματικές εργασίες. Η μικρή φύση του μοντέλου είναι στην πραγματικότητα ένα χαρακτηριστικό, όχι ένα bug. Σημαίνει ότι το σύστημα είναι πιο γρήγορο, πιο ιδιωτικό και φθηνότερο στη λειτουργία. Ο Marcus έλαβε την τελευταία του ενημέρωση την περασμένη εβδομάδα και η διαφορά στην ταχύτητα ήταν αμέσως αισθητή.
Το BotNews.today χρησιμοποιεί εργαλεία τεχνητής νοημοσύνης για την έρευνα, συγγραφή, επιμέλεια και μετάφραση περιεχομένου. Η ομάδα μας ελέγχει και επιβλέπει τη διαδικασία για να διατηρεί τις πληροφορίες χρήσιμες, σαφείς και αξιόπιστες.
Η αντίφαση εδώ είναι ότι ενώ τα μοντέλα γίνονται μικρότερα, η δουλειά που κάνουν γίνεται μεγαλύτερη. Βλέπουμε μια απομάκρυνση από τη συνομιλία με ένα bot προς την ενσωμάτωση ενός εργαλείου σε μια ροή εργασίας. Οι άνθρωποι τείνουν να υπερεκτιμούν τη σημασία του να μπορεί ένα μοντέλο να γράφει ποίηση. Υποτιμούν την αξία ενός μοντέλου που μπορεί να εξάγει τέλεια δεδομένα από ένα θολό τιμολόγιο ή να εντοπίσει μια ρωγμή σε μια ατσάλινη δοκό. Αυτές είναι οι εργασίες που κινούν την παγκόσμια οικονομία. Καθώς αυτές οι μικρές βελτιώσεις συνεχίζονται, η γραμμή μεταξύ έξυπνου λογισμικού και κανονικού λογισμικού θα εξαφανιστεί. Όλα θα λειτουργούν απλώς καλύτερα. Αυτή είναι η πραγματικότητα του τρέχοντος τεχνολογικού περιβάλλοντος.
Δύσκολες ερωτήσεις για το αντάλλαγμα της αποδοτικότητας
Ωστόσο, πρέπει να εφαρμόσουμε λίγο σωκρατικό σκεπτικισμό σε αυτή την τάση. Αν κινούμαστε προς μικρότερα, πιο βελτιστοποιημένα μοντέλα, τι αφήνουμε πίσω μας; Ένα δύσκολο ερώτημα είναι αν η εστίαση στην αποδοτικότητα οδηγεί σε ένα οροπέδιο «αρκετά καλού». Αν ένα μοντέλο είναι βελτιστοποιημένο για να είναι γρήγορο, χάνει την ικανότητα να χειρίζεται ακραίες περιπτώσεις που ένα μεγαλύτερο μοντέλο μπορεί να εντοπίσει; Πρέπει να αναρωτηθούμε αν η βιασύνη για τη συρρίκνωση των μοντέλων δημιουργεί ένα νέο είδος bias. Αν χρησιμοποιούμε μόνο δεδομένα υψηλής ποιότητας για την εκπαίδευση αυτών των συστημάτων, ποιος ορίζει τι είναι ποιότητα; Μπορεί κατά λάθος να φιλτράρουμε τις φωνές και τις προοπτικές περιθωριοποιημένων ομάδων επειδή τα δεδομένα τους δεν ταιριάζουν στο πρότυπο textbook.
Έχετε μια ιστορία, εργαλείο, τάση ή ερώτηση σχετικά με την τεχνητή νοημοσύνη που πιστεύετε ότι πρέπει να καλύψουμε; Στείλτε μας την ιδέα σας για άρθρο — θα χαρούμε να την ακούσουμε.
Υπάρχει επίσης το ερώτημα του κρυφού κόστους. Ενώ η λειτουργία ενός μικρού μοντέλου είναι φθηνή, η έρευνα και η ανάπτυξη που απαιτούνται για τη συρρίκνωση ενός μεγάλου μοντέλου είναι απίστευτα ακριβές. Μήπως απλώς μεταφέρουμε την κατανάλωση ενέργειας από τη φάση του inference στη φάση της εκπαίδευσης και της βελτιστοποίησης; Επίσης, καθώς αυτά τα μοντέλα γίνονται πιο κοινά σε προσωπικές συσκευές, τι συμβαίνει με την ιδιωτικότητά μας; Ακόμα κι αν το μοντέλο τρέχει τοπικά, τα metadata σχετικά με το πώς το χρησιμοποιούμε θα μπορούσαν ακόμα να συλλέγονται. Πρέπει να αναρωτηθούμε αν η ευκολία της τοπικής νοημοσύνης αξίζει την πιθανότητα για πιο επεμβατική παρακολούθηση. Αν κάθε app στο τηλέφωνό σας έχει τον δικό του μικρό εγκέφαλο, ποιος παρακολουθεί τι μαθαίνουν αυτοί οι εγκέφαλοι για εσάς; Πρέπει επίσης να εξετάσουμε τη μακροζωία του hardware. Αν το λογισμικό συνεχίζει να γίνεται πιο αποδοτικό, θα συνεχίσουν οι εταιρείες να μας ωθούν να αναβαθμίζουμε τις συσκευές μας κάθε χρόνο; Ή μήπως αυτό θα οδηγήσει σε μια βιώσιμη εποχή όπου ένα τηλέφωνο πέντε ετών είναι ακόμα απόλυτα ικανό να τρέχει τα πιο πρόσφατα εργαλεία; Αυτές είναι οι αντιφάσεις που πρέπει να αντιμετωπίσουμε καθώς η τεχνολογία εξελίσσεται.
Η μηχανική πίσω από τη συμπίεση
Για τους power users και τους developers, η στροφή προς μικρότερα μοντέλα είναι θέμα τεχνικών λεπτομερειών. Η σημαντικότερη μέτρηση δεν είναι πλέον μόνο ο αριθμός των παραμέτρων. Είναι τα bits ανά παράμετρο. Βλέπουμε μια κίνηση από 16-bit floating point weights σε 8-bit και ακόμα και 4-bit quantization. Αυτό επιτρέπει σε ένα μοντέλο που κανονικά θα απαιτούσε 40 gigabytes VRAM να χωρέσει σε λιγότερα από 10 gigabytes. Αυτή είναι μια τεράστια αλλαγή για τον τοπικό αποθηκευτικό χώρο και τις απαιτήσεις GPU. Οι developers εξετάζουν τώρα το LoRA, ή Low-Rank Adaptation, για να κάνουν fine-tune αυτά τα μοντέλα σε συγκεκριμένες εργασίες χωρίς να επανεκπαιδεύουν ολόκληρο το σύστημα. Αυτό κάνει τις ενσωματώσεις ροής εργασίας πολύ πιο εύκολες. Μπορείτε να βρείτε τεχνική τεκμηρίωση για αυτές τις μεθόδους στο MIT Technology Review.
Κατά την κατασκευή εφαρμογών, πρέπει να λάβετε υπόψη τα ακόλουθα τεχνικά όρια:
- Το memory bandwidth είναι συχνά μεγαλύτερο bottleneck από την ωμή υπολογιστική ισχύ για τοπικό inference.
- Τα όρια API για τα μοντέλα cloud γίνονται λιγότερο σχετικά καθώς το τοπικό hosting καθίσταται βιώσιμο για παραγωγή.
- Η διαχείριση του context window παραμένει πρόκληση για τα μικρότερα μοντέλα, καθώς τείνουν να χάνουν τα ίχνη μεγάλων συνομιλιών πιο γρήγορα.
- Η επιλογή μεταξύ ακρίβειας FP8 και INT4 μπορεί να επηρεάσει σημαντικά το ποσοστό hallucination σε δημιουργικές εργασίες.
- Οι απαιτήσεις τοπικού αποθηκευτικού χώρου συρρικνώνονται, αλλά η ανάγκη για δίσκους NVMe υψηλής ταχύτητας παραμένει για γρήγορη φόρτωση μοντέλων.
Βλέπουμε επίσης την άνοδο του speculative decoding, όπου ένα μικροσκοπικό μοντέλο προβλέπει τα επόμενα tokens και ένα μεγαλύτερο μοντέλο τα επαληθεύει. Αυτή η υβριδική προσέγγιση προσφέρει την ταχύτητα ενός μικρού μοντέλου με την ακρίβεια ενός γίγαντα. Είναι ένας έξυπνος τρόπος να παρακαμφθούν οι παραδοσιακοί συμβιβασμοί του μεγέθους του μοντέλου. Για όποιον θέλει να παραμείνει μπροστά σε αυτόν τον τομέα, η κατανόηση αυτών των τεχνικών συμπίεσης είναι πιο σημαντική από το να ξέρει πώς να χτίσει ένα μοντέλο από το μηδέν. Το μέλλον ανήκει στους optimizers που μπορούν να κάνουν περισσότερα με λιγότερα. Η εστίαση μετατοπίζεται από την ωμή ισχύ στην έξυπνη μηχανική.
Ο κινούμενος στόχος της βέλτιστης απόδοσης
Το συμπέρασμα είναι ότι η εποχή όπου «το μεγαλύτερο είναι πάντα καλύτερο» φτάνει στο τέλος της. Οι πιο σημαντικές εξελίξεις δεν αφορούν πλέον την προσθήκη περισσότερων επιπέδων ή περισσότερων δεδομένων. Αφορούν τη βελτίωση, την αποδοτικότητα και την προσβασιμότητα. Βλέπουμε μια στροφή που θα κάνει την προηγμένη υπολογιστική ισχύ τόσο κοινή όσο μια αριθμομηχανή. Αυτή η πρόοδος δεν είναι απλώς ένα τεχνικό επίτευγμα. Είναι ένα κοινωνικό επίτευγμα. Φέρνει τη δύναμη της πιο προηγμένης έρευνας σε όλους, ανεξάρτητα από το hardware ή τη σύνδεση στο internet. Είναι ο εκδημοκρατισμός της νοημοσύνης από την πίσω πόρτα της βελτιστοποίησης.
Σημείωση συντάκτη: Δημιουργήσαμε αυτόν τον ιστότοπο ως έναν πολύγλωσσο κόμβο ειδήσεων και οδηγών τεχνητής νοημοσύνης για άτομα που δεν είναι φανατικοί των υπολογιστών, αλλά εξακολουθούν να θέλουν να κατανοήσουν την τεχνητή νοημοσύνη, να τη χρησιμοποιούν με μεγαλύτερη αυτοπεποίθηση και να παρακολουθούν το μέλλον που ήδη έρχεται.
Βρήκατε κάποιο λάθος ή κάτι που χρειάζεται διόρθωση; Ενημερώστε μας.Καθώς κοιτάζουμε προς το επόμενο διάστημα, το ανοιχτό ερώτημα παραμένει: θα συνεχίσουμε να βρίσκουμε τρόπους να συρρικνώνουμε τη νοημοσύνη, ή θα φτάσουμε τελικά σε ένα φυσικό όριο που θα μας αναγκάσει να επιστρέψουμε στο cloud; Προς το παρόν, η τάση είναι ξεκάθαρη. Το μικρό είναι το νέο μεγάλο. Τα συστήματα που θα χρησιμοποιούμε αύριο θα ορίζονται όχι από το πόσα γνωρίζουν, αλλά από το πόσο καλά χρησιμοποιούν όσα έχουν.