Η επόμενη μεγάλη αλλαγή στα AI chips: Ταχύτητα, μέγεθος ή απόδοση;
Ο αγώνας για ταχύτερη τεχνητή νοημοσύνη έχει μετατοπιστεί από τις απλές συχνότητες ρολογιού σε μια περίπλοκη μάχη για την αρχιτεκτονική των συστημάτων. Δεν αρκεί πλέον να στριμώχνουμε περισσότερα τρανζίστορ σε ένα κομμάτι πυριτίου. Η βιομηχανία έχει φτάσει σε ένα σημείο όπου η ταχύτητα μεταφοράς δεδομένων μεταξύ επεξεργαστή και μνήμης είναι πιο σημαντική από τον ίδιο τον επεξεργαστή. Αυτή η αλλαγή καθορίζει την τρέχουσα εποχή του hardware. Εταιρείες που κάποτε εστίαζαν μόνο στον σχεδιασμό chip, τώρα διαχειρίζονται παγκόσμιες εφοδιαστικές αλυσίδες και προηγμένες τεχνικές συσκευασίας για να παραμείνουν σχετικές. Η πρόσφατη τάση κινείται προς ολιστικά συστήματα όπου η δικτύωση και η μνήμη είναι εξίσου ζωτικής σημασίας με τις λογικές πύλες. Αυτή η εξέλιξη αλλάζει τον τρόπο με τον οποίο γράφεται το software και τον τρόπο με τον οποίο οι κυβερνήσεις αντιλαμβάνονται την εθνική ασφάλεια. Αν θέλετε να καταλάβετε πού πηγαίνει η τεχνολογία, κοιτάξτε τις συνδέσεις μεταξύ των chip και όχι τα ίδια τα chip. Η ισχύς μιας πλατφόρμας εξαρτάται πλέον από την ικανότητά της να ενσωματώνει αυτά τα ανόμοια μέρη σε μια ενιαία, συνεκτική μονάδα. Όσοι αγνοούν τα φυσικά όρια του hardware θα δουν τα software όνειρά τους να βαλτώνουν λόγω latency και θερμότητας.
Στοιβάζοντας πυρίτιο για να σπάσουμε το «τείχος» της μνήμης
Για να κατανοήσετε την τρέχουσα αλλαγή, πρέπει να δείτε πώς συναρμολογούνται φυσικά τα chip. Για δεκαετίες, η βιομηχανία ακολουθούσε έναν επίπεδο σχεδιασμό. Είχαμε έναν επεξεργαστή και μια μνήμη, τοποθετημένα χωριστά σε μια πλακέτα. Σήμερα, αυτή η απόσταση είναι ο κύριος εχθρός της απόδοσης. Για να το λύσουν αυτό, οι κατασκευαστές στρέφονται στο advanced packaging. Αυτό περιλαμβάνει τη στοίβαξη εξαρτημάτων το ένα πάνω στο άλλο ή δίπλα-δίπλα σε μια εξειδικευμένη βάση που ονομάζεται interposer. Αυτή η τεχνική, γνωστή ως Chip on Wafer on Substrate, επιτρέπει τη μεταφορά τεράστιων όγκων δεδομένων σε ταχύτητες που ήταν προηγουμένως αδύνατες. Δεν πρόκειται για μια μικρή βελτίωση, αλλά για μια θεμελιώδη αλλαγή στον τρόπο που κατασκευάζουμε υπολογιστές. Όταν στοιβάζετε **High Bandwidth Memory** απευθείας δίπλα στους πυρήνες επεξεργασίας, εξαλείφετε τα μποτιλιαρίσματα που επιβραδύνουν τα μεγάλα γλωσσικά μοντέλα. Γι’ αυτό εταιρείες όπως η NVIDIA κυριαρχούν. Δεν πουλάνε απλώς ένα chip, αλλά ένα στενά ενσωματωμένο πακέτο που περιλαμβάνει μνήμη και high speed interconnects.
Η ίδια η μνήμη έχει επίσης αλλάξει. Η standard RAM δεν μπορεί να συμβαδίσει με τις απαιτήσεις του σύγχρονου AI. Η βιομηχανία έχει στραφεί προς εξειδικευμένη μνήμη που προσφέρει πολύ υψηλότερο throughput. Αυτή η μνήμη είναι ακριβή και δύσκολη στην παραγωγή, γεγονός που δημιουργεί ένα bottleneck στην εφοδιαστική αλυσίδα. Αν μια εταιρεία δεν μπορεί να εξασφαλίσει αρκετή από αυτή τη μνήμη, οι προηγμένοι επεξεργαστές της είναι ουσιαστικά άχρηστοι. Αυτή η εξάρτηση δείχνει ότι η ιστορία του hardware είναι πλέον μια ιστορία συστημάτων. Δεν μπορείς να μιλάς για τον εγκέφαλο χωρίς να μιλάς για τις φλέβες που μεταφέρουν το αίμα. Η μετάβαση από τις 2D στις 3D δομές είναι το πιο σημαντικό τεχνικό σήμα στην αγορά σήμερα. Διαχωρίζει τους σοβαρούς παίκτες από εκείνους που απλώς επαναλαμβάνουν παλιά σχέδια. Αυτή η μετάβαση απαιτεί τεράστιες επενδύσεις σε εγκαταστάσεις παραγωγής που μπορούν να διαχειριστούν τέτοια ακρίβεια. Μόνο λίγες εταιρείες στον κόσμο, όπως η TSMC, έχουν τη δυνατότητα να το κάνουν σε κλίμακα.
Η γεωπολιτική πραγματικότητα του AI είναι άρρηκτα συνδεδεμένη με το πού κατασκευάζονται αυτά τα chip. Το μεγαλύτερο μέρος της προηγμένης παραγωγής συγκεντρώνεται σε λίγα τετραγωνικά χιλιόμετρα στην Ταϊβάν. Αυτή η συγκέντρωση δημιουργεί ένα single point of failure για την παγκόσμια οικονομία. Αν η παραγωγή εκεί σταματήσει, ολόκληρος ο τεχνολογικός τομέας παραλύει. Οι κυβερνήσεις ξοδεύουν πλέον δισεκατομμύρια δολάρια για την κατασκευή εγχώριων εργοστασίων, αλλά αυτά τα έργα χρειάζονται χρόνια για να ολοκληρωθούν. Οι περιορισμοί στις εξαγωγές έχουν επίσης γίνει σημαντικός παράγοντας. Η κυβέρνηση των ΗΠΑ έχει περιορίσει την πώληση high end AI chips σε ορισμένες χώρες για να διατηρήσει το τεχνολογικό προβάδισμα. Αυτό ανάγκασε τις εταιρείες να σχεδιάσουν ειδικές εκδόσεις του hardware τους που συμμορφώνονται με αυτούς τους κανόνες. Αυτός ο κατακερματισμός της παγκόσμιας αγοράς σημαίνει ότι η τοποθεσία σας καθορίζει τι είδους AI μπορείτε να χτίσετε. Είναι μια επιστροφή σε έναν κόσμο όπου τα φυσικά σύνορα καθορίζουν τις ψηφιακές δυνατότητες. Η σύνδεση μεταξύ hardware και ισχύος πλατφόρμας είναι πλέον θέμα εθνικής πολιτικής. Μια χώρα που δεν έχει πρόσβαση στο πιο πρόσφατο πυρίτιο δεν μπορεί να ανταγωνιστεί στην εποχή του software. Γι’ αυτό βλέπουμε τόσο επιθετικές κινήσεις για τον έλεγχο της εφοδιαστικής αλυσίδας, από τις πρώτες ύλες μέχρι τα τελικά συστήματα.
Για έναν developer ή μια μικρή επιχείρηση, αυτές οι αλλαγές στο hardware έχουν άμεσες συνέπειες. Φανταστείτε μια δημιουργό, τη Σάρα, που διευθύνει ένα μικρό στούντιο. Πριν από ένα χρόνο, βασιζόταν εξ ολοκλήρου σε cloud providers για να τρέξει τα AI εργαλεία της. Πλήρωνε υψηλά μηνιαία τέλη και ανησυχούσε για το αν τα δεδομένα της χρησιμοποιούνταν για εκπαίδευση. Σήμερα, χάρη στα πιο αποδοτικά σχέδια chip και την καλύτερη ενσωμάτωση τοπικής μνήμης, μπορεί να τρέξει ένα ισχυρό μοντέλο σε έναν μόνο σταθμό εργασίας. Η μέρα της ξεκινά με το τοπικό της μηχάνημα να παράγει assets υψηλής ανάλυσης ενώ πίνει τον καφέ της. Δεν χρειάζεται να περιμένει έναν server σε άλλη πολιτεία για να ανταποκριθεί. Επειδή το hardware είναι πιο αποδοτικό, το γραφείο της δεν υπερθερμαίνεται και ο λογαριασμός ρεύματος παραμένει διαχειρίσιμος. Αυτή η στροφή προς το τοπικό compute είναι άμεσο αποτέλεσμα του καλύτερου packaging chip και της διαχείρισης μνήμης. Προσφέρει στους δημιουργούς περισσότερη αυτονομία και καλύτερη ιδιωτικότητα. Ωστόσο, αυτό δημιουργεί και ένα χάσμα. Όσοι έχουν την οικονομική δυνατότητα για το πιο πρόσφατο hardware έχουν τεράστιο πλεονέκτημα παραγωγικότητας έναντι εκείνων που έχουν κολλήσει σε παλαιότερα συστήματα.
Ο αντίκτυπος επεκτείνεται στον τρόπο με τον οποίο οι εταιρείες σχεδιάζουν τους προϋπολογισμούς τους. Μια μεσαίου μεγέθους εταιρεία μπορεί να πρέπει να επιλέξει ανάμεσα σε ένα τεράστιο συμβόλαιο cloud ή την επένδυση σε δικό της hardware cluster. Αυτή η απόφαση δεν αφορά πλέον μόνο το κόστος, αλλά τον έλεγχο. Όταν κατέχετε το hardware, κατέχετε το stack. Δεν υπόκειστε σε API limits ή στους μεταβαλλόμενους όρους χρήσης ενός γίγαντα της τεχνολογίας. Μπορείτε να βελτιστοποιήσετε το software σας ώστε να τρέχει ειδικά στο hardware σας, αποσπώντας κάθε ίχνος απόδοσης. Αυτή είναι η πρακτική πλευρά της αλλαγής στα chip. Μετατρέπει το AI από μια απομακρυσμένη υπηρεσία σε ένα τοπικό εργαλείο. Όμως αυτό το εργαλείο απαιτεί εξειδικευμένη γνώση. Η διαχείριση ενός cluster από high performance chips δεν είναι το ίδιο με τη διαχείριση ενός παραδοσιακού server room. Πρέπει να αντιμετωπίσετε περίπλοκα πρωτόκολλα δικτύωσης και συστήματα υδρόψυξης. Ο πραγματικός αντίκτυπος είναι μια νέα απαίτηση για hardware literacy μεταξύ των ομάδων software. Τα δύο πεδία συγχωνεύονται με τρόπο που δεν έχουμε ξαναδεί από τις πρώτες μέρες της πληροφορικής.
- Η τοπική εκτέλεση μεγάλων μοντέλων μειώνει το latency για real time εφαρμογές.
- Οι απαιτήσεις προηγμένης ψύξης αλλάζουν τη φυσική διάταξη των σύγχρονων data centers.
- Το hardware level encryption παρέχει ένα νέο επίπεδο ασφάλειας για ευαίσθητα δεδομένα.
- Τα proprietary interconnects αναγκάζουν τις εταιρείες να παραμείνουν εντός ενός ενιαίου οικοσυστήματος hardware.
- Η ενεργειακή απόδοση γίνεται η κύρια μέτρηση για την απόδοση του mobile AI.
Πρέπει να αναρωτηθούμε ποιο είναι το κρυφό κόστος αυτής της εμμονής με το hardware. Καθώς πιέζουμε για περισσότερη ισχύ, μήπως αγνοούμε τον περιβαλλοντικό αντίκτυπο της κατασκευής αυτών των περίπλοκων συστημάτων; Το νερό και η ενέργεια που απαιτούνται για τη λειτουργία ενός σύγχρονου fab είναι συγκλονιστικά. Υπάρχει επίσης το ζήτημα της ιδιωτικότητας σε επίπεδο hardware. Αν το ίδιο το πυρίτιο έχει ενσωματωμένη τηλεμετρία, μπορούμε ποτέ να είμαστε σίγουροι ότι τα δεδομένα μας είναι ιδιωτικά; Συχνά υποθέτουμε ότι περισσότερο compute είναι πάντα καλύτερο, αλλά σπάνια αναρωτιόμαστε αν τα προβλήματα που λύνουμε απαιτούν τόση ισχύ. Χτίζουμε έναν ψηφιακό κόσμο στον οποίο μόνο τα πλουσιότερα έθνη και εταιρείες μπορούν να αντέξουν οικονομικά να κατοικήσουν; Η συγκέντρωση της παραγωγικής ισχύος σε λίγα χέρια είναι ένας κίνδυνος που αγνοούμε στη βιασύνη για ταχύτερα tokens ανά δευτερόλεπτο. Θα έπρεπε να εξετάσουμε αν δημιουργούμε μια μονοκαλλιέργεια hardware που είναι ευάλωτη σε συστημική αποτυχία. Το hardware είναι πεπρωμένο στο τρέχον τεχνολογικό κλίμα, αλλά αυτό το πεπρωμένο γράφεται από μια πολύ μικρή ομάδα ανθρώπων.
Το BotNews.today χρησιμοποιεί εργαλεία τεχνητής νοημοσύνης για την έρευνα, συγγραφή, επιμέλεια και μετάφραση περιεχομένου. Η ομάδα μας ελέγχει και επιβλέπει τη διαδικασία για να διατηρεί τις πληροφορίες χρήσιμες, σαφείς και αξιόπιστες.
Για τους power users, οι τεχνικές λεπτομέρειες είναι εκεί όπου βρίσκεται η πραγματική ιστορία. Η ενσωμάτωση software και hardware συμβαίνει μέσω εξειδικευμένων βιβλιοθηκών όπως το CUDA ή το ROCm. Αυτά δεν είναι απλώς drivers, είναι η γέφυρα που επιτρέπει στον κώδικα να «μιλήσει» στους χιλιάδες μικροσκοπικούς πυρήνες ενός chip. Το τρέχον bottleneck για πολλές ροές εργασίας είναι το API limit που επιβάλλεται από τους cloud providers. Μεταβαίνοντας σε τοπικό hardware, οι χρήστες μπορούν να παρακάμψουν αυτά τα όρια, αλλά πρέπει να αντιμετωπίσουν τους περιορισμούς του τοπικού storage και του memory bandwidth. Η ταχύτητα διασύνδεσης, όπως το NVLink, καθορίζει πόσο καλά μπορούν να συνεργαστούν πολλά chip ως ενιαία μονάδα. Αν η διασύνδεση είναι αργή, η προσθήκη περισσότερων chip δίνει φθίνουσες αποδόσεις. Γι’ αυτό οι τελευταίες τάσεις στο AI hardware δείχνουν εστίαση στη δικτύωση όσο και στην επεξεργασία. Πρέπει επίσης να λάβετε υπόψη το thermal design power. Ένα chip που υπερθερμαίνεται θα περιορίσει την απόδοσή του, καθιστώντας την θεωρητική μέγιστη ταχύτητά του άσχετη. Η ταχύτητα του τοπικού storage έχει επίσης σημασία, καθώς τα βάρη του μοντέλου πρέπει να φορτωθούν στη μνήμη γρήγορα για να αποφευχθούν καθυστερήσεις στην εκκίνηση. Το geek κομμάτι της αγοράς απομακρύνεται από τα απλά benchmarks και στρέφεται προς μετρήσεις throughput ολόκληρου του συστήματος.
- Το interconnect bandwidth ξεπερνά πλέον αρκετά terabytes ανά δευτερόλεπτο σε high end clusters.
- Οι τεχνικές quantization επιτρέπουν στα μεγάλα μοντέλα να χωρέσουν σε μικρότερα αποτυπώματα μνήμης.
- Οι αρχιτεκτονικές unified memory επιτρέπουν σε CPU και GPU να μοιράζονται την ίδια δεξαμενή δεδομένων.
- Οι hardware accelerators για συγκεκριμένες μαθηματικές πράξεις γίνονται standard στους consumer επεξεργαστές.
- Τα τοπικά API endpoints επιτρέπουν την απρόσκοπτη ενσωμάτωση μεταξύ διαφορετικών εργαλείων software.
Η ουσιαστική πρόοδος μέσα στον επόμενο χρόνο δεν θα μετρηθεί με υψηλότερες συχνότητες ρολογιού. Αντίθετα, θα πρέπει να αναζητήσουμε βελτιώσεις στην ενεργειακή απόδοση και τον εκδημοκρατισμό του advanced packaging. Αν δούμε μια κίνηση προς πιο ανοιχτά πρότυπα διασύνδεσης, αυτό θα ήταν ένα σημαντικό σήμα. Θα σήμαινε ότι οι χρήστες δεν είναι πλέον εγκλωβισμένοι σε ένα stack ενός μόνο προμηθευτή. Θα πρέπει επίσης να παρακολουθούμε τις εξελίξεις στη δικτύωση on-chip που μειώνουν την ενέργεια που απαιτείται για τη μεταφορά δεδομένων. Η πραγματική επιτυχία θα είναι αν το high performance AI γίνει προσβάσιμο σε περισσότερους από το κορυφαίο ένα τοις εκατό των εταιρειών. Τα πρακτικά διακυβεύματα είναι υψηλά. Το hardware είναι το θεμέλιο για όλα όσα χτίζουμε στον ψηφιακό χώρο. Αν αυτό το θεμέλιο είναι συγκεντρωμένο, ακριβό και αδιαφανές, το μέλλον της τεχνολογίας θα είναι το ίδιο. Πρέπει να κινηθούμε προς έναν κόσμο όπου η ισχύς του πυριτίου χρησιμοποιείται για την επίλυση πραγματικών προβλημάτων για όλους, όχι μόνο για να δημιουργήσει περισσότερο θόρυβο στην αγορά. Η αλλαγή συμβαίνει τώρα και οι συνέπειες θα γίνουν αισθητές για δεκαετίες.
Σημείωση συντάκτη: Δημιουργήσαμε αυτόν τον ιστότοπο ως έναν πολύγλωσσο κόμβο ειδήσεων και οδηγών τεχνητής νοημοσύνης για άτομα που δεν είναι φανατικοί των υπολογιστών, αλλά εξακολουθούν να θέλουν να κατανοήσουν την τεχνητή νοημοσύνη, να τη χρησιμοποιούν με μεγαλύτερη αυτοπεποίθηση και να παρακολουθούν το μέλλον που ήδη έρχεται.
Βρήκατε κάποιο λάθος ή κάτι που χρειάζεται διόρθωση; Ενημερώστε μας.