Τα πιο εντυπωσιακά AI demos — και τι αποδεικνύουν πραγματικά
Το μεγάλο στοίχημα του πεντάλεπτου pitch
Το προσεγμένο tech demo είναι πλέον το σήμα κατατεθέν της εποχής μας. Παρακολουθούμε έναν παρουσιαστή να μιλά σε έναν υπολογιστή και εκείνος να απαντά με ανθρώπινο πνεύμα. Βλέπουμε video clips που δημιουργήθηκαν από μία μόνο πρόταση και μοιάζουν σαν να βγήκαν από ταινία υψηλού budget. Αυτές οι στιγμές είναι σχεδιασμένες για να προκαλέσουν δέος. Είναι προσεκτικά χορογραφημένες παραστάσεις που στοχεύουν στην εξασφάλιση χρηματοδότησης και στην κατάκτηση της δημόσιας φαντασίας. Όμως, για τον μέσο χρήστη, το χάσμα ανάμεσα σε ένα stage demo και ένα προϊόν που κυκλοφορεί στην αγορά είναι συχνά χαώδες. Ένα demo αποδεικνύει ότι ένα συγκεκριμένο αποτέλεσμα είναι εφικτό κάτω από τέλειες συνθήκες. Δεν αποδεικνύει ότι η τεχνολογία είναι έτοιμη για την ακατάστατη πραγματικότητα της καθημερινής χρήσης. Ζούμε σε μια περίοδο όπου το θέαμα του «τι θα μπορούσε να γίνει» επισκιάζει τη χρησιμότητα του «τι πραγματικά υπάρχει». Αυτό δημιουργεί έναν κύκλο hype που είναι δύσκολο να αποκωδικοποιηθεί ακόμα και για τους πιο έμπειρους παρατηρητές. Για να κατανοήσουμε την πραγματική πρόοδο, πρέπει να κοιτάξουμε πέρα από τον κινηματογραφικό φωτισμό και τις στημένες αλληλεπιδράσεις. Πρέπει να αναρωτηθούμε τι συμβαίνει όταν σβήνουν οι κάμερες και ο κώδικας πρέπει να τρέξει σε μια απλή σύνδεση στο internet.
Πίσω από την κουρτίνα της συνθετικής τελειότητας
Τα σύγχρονα AI demos βασίζονται σε έναν συνδυασμό high-end hardware και σημαντικής ανθρώπινης προετοιμασίας. Όταν μια εταιρεία παρουσιάζει ένα νέο μοντέλο να αλληλεπιδρά σε real-time, συχνά χρησιμοποιεί clusters εξειδικευμένων chips στα οποία ο μέσος άνθρωπος δεν θα έχει ποτέ πρόσβαση. Χρησιμοποιούν επίσης τεχνικές όπως το prompt engineering για να διασφαλίσουν ότι το μοντέλο θα παραμείνει εντός πλαισίου. Ένα demo είναι ουσιαστικά ένα highlight reel. Οι developers μπορεί να έτρεξαν το ίδιο prompt πενήντα φορές για να πάρουν την τέλεια απάντηση που βλέπουμε στην οθόνη. Αυτό δεν είναι απαραίτητα απατηλό, αλλά είναι ένα συγκεκριμένο είδος storytelling. Σύμφωνα με αναφορές από το MIT Technology Review, το latency που βλέπουμε σε αυτά τα βίντεο συχνά αφαιρείται μέσω editing. Σε ένα live περιβάλλον, ένα μοντέλο μπορεί να χρειαστεί αρκετά δευτερόλεπτα για να επεξεργαστεί ένα σύνθετο αίτημα. Σε ένα demo, αυτή η παύση αφαιρείται για να φαίνεται η αλληλεπίδραση ρευστή. Αυτό δημιουργεί μια ψευδή προσδοκία για το πώς είναι η αίσθηση της χρήσης της τεχνολογίας. Μια άλλη κοινή τακτική είναι η χρήση στενών παραμέτρων. Ένα μοντέλο μπορεί να είναι εξαιρετικό στο να δημιουργεί βίντεο με μια γάτα που φοράει καπέλο επειδή εκπαιδεύτηκε ειδικά σε αυτό το είδος δεδομένων. Όταν ένας χρήστης προσπαθεί να δημιουργήσει κάτι πιο σύνθετο, το σύστημα συχνά δυσκολεύεται. Τα demos δείχνουν ένα προϊόν βελτιστοποιημένο για συγκεκριμένα tasks, ενώ το πραγματικό εργαλείο είναι συχνά πολύ πιο περιορισμένο. Βλέπουμε μια μετατόπιση όπου το ίδιο το demo γίνεται το προϊόν, λειτουργώντας ως εργαλείο marketing αντί για προεπισκόπηση μιας διαθέσιμης υπηρεσίας. Αυτό καθιστά δυσκολότερο για τους καταναλωτές να γνωρίζουν τι αγοράζουν πραγματικά όταν κάνουν εγγραφή σε μια νέα πλατφόρμα.
Η γεωπολιτική του viral βίντεο
Ο αντίκτυπος αυτών των demos εκτείνεται πολύ πέρα από την tech κοινότητα. Έχουν γίνει μια μορφή soft power στην παγκόσμια σκηνή. Έθνη και τεράστιες εταιρείες χρησιμοποιούν αυτές τις παρουσιάσεις για να δείξουν την κυριαρχία τους στον τομέα της τεχνητής νοημοσύνης. Όταν μια μεγάλη εταιρεία στις ΗΠΑ κυκλοφορεί ένα viral βίντεο με ένα νέο generative εργαλείο, προκαλεί μια αντίδραση από τους ανταγωνιστές σε Ευρώπη και Ασία. Αυτό δημιουργεί έναν αγώνα δρόμου όπου η ταχύτητα εκτιμάται περισσότερο από τη σταθερότητα. Οι επενδυτές ρίχνουν δισεκατομμύρια δολάρια σε εταιρείες βασιζόμενοι σε λίγα λεπτά εντυπωσιακού υλικού. Αυτό μπορεί να οδηγήσει σε market bubbles, όπου η αποτίμηση μιας εταιρείας είναι αποσυνδεδεμένη από τα πραγματικά έσοδα ή την ωριμότητα του προϊόντος της. Όπως σημειώνει το The Verge, αυτή η πίεση για απόδοση μπορεί να οδηγήσει σε ηθικές παρακάμψεις. Οι εταιρείες μπορεί να βιαστούν να κυκλοφορήσουν demos μοντέλων που δεν είναι ακόμα ασφαλή ή αξιόπιστα. Το παγκόσμιο κοινό εκπαιδεύεται να περιμένει γρήγορες, σχεδόν μαγικές ανακαλύψεις κάθε λίγους μήνες. Αυτό ασκεί τεράστια πίεση στους ερευνητές και τους μηχανικούς που πρέπει να προσπαθήσουν να μετατρέψουν αυτές τις παραστάσεις σε σταθερό λογισμικό. Το τελευταίο διάστημα, είδαμε αρκετές περιπτώσεις όπου ένα demo προκάλεσε τεράστια άνοδο στην τιμή της μετοχής μιας εταιρείας, μόνο και μόνο για να πέσει η τιμή όταν το πραγματικό προϊόν απέτυχε να ανταποκριθεί στο hype. Αυτή η μεταβλητότητα επηρεάζει ολόκληρη την παγκόσμια οικονομία. Επηρεάζει το πού ρέει το venture capital και ποιες startups επιβιώνουν. Το viral demo έχει γίνει βασικός μοχλός της tech πολιτικής και των επενδύσεων, καθιστώντας το μία από τις πιο επιδραστικές μορφές media στον κόσμο σήμερα. Διαμορφώνει τον τρόπο με τον οποίο οι κυβερνήσεις βλέπουν το μέλλον της εργασίας και της εθνικής ασφάλειας.
Ζώντας στη σκιά του πρωτοτύπου
Σκεφτείτε την εμπειρία της Σάρας, μιας marketing manager που εργάζεται σε μια μικρή εταιρεία. Βλέπει ένα demo για ένα νέο generative video tool που υπόσχεται να δημιουργεί υψηλής ποιότητας διαφημίσεις σε δευτερόλεπτα. Το demo δείχνει έναν χρήστη να πληκτρολογεί ένα απλό prompt και να παίρνει μια τέλεια διαφήμιση 30 δευτερολέπτων. Η Σάρα ενθουσιάζεται. Λέει στους πελάτες της ότι μπορούν να μειώσουν τα production budgets και να επιταχύνουν τα χρονοδιαγράμματά τους. Είναι αποφασισμένη να χρησιμοποιήσει αυτή τη νέα τεχνολογία για να μείνει μπροστά από τον ανταγωνισμό. Όταν τελικά αποκτά πρόσβαση στην beta έκδοση, η πραγματικότητα είναι σοκαριστική. Το σύστημα χρειάζεται είκοσι λεπτά για να δημιουργήσει ένα μόνο clip. Οι χαρακτήρες στο βίντεο έχουν παραμορφωμένα πρόσωπα και το φόντο αλλάζει χρώμα τυχαία. Η Σάρα ξοδεύει ώρες προσπαθώντας να διορθώσει τα λάθη, μόνο και μόνο για να συνειδητοποιήσει ότι θα ήταν πιο γρήγορο να προσλάβει έναν παραδοσιακό editor. Αυτό είναι το «demo gap» στην πράξη. Η ιστορία της Σάρας είναι κοινή μεταξύ των επαγγελματιών που προσπαθούν να ενσωματώσουν αυτά τα εργαλεία στην καθημερινή τους εργασία. Οι τελευταίες τάσεις στο AI Magazine υποδηλώνουν ότι, ενώ η τεχνολογία βελτιώνεται, δεν είναι ακόμα η απρόσκοπτη λύση που παρουσιάστηκε στη σκηνή.
Το BotNews.today χρησιμοποιεί εργαλεία τεχνητής νοημοσύνης για την έρευνα, συγγραφή, επιμέλεια και μετάφραση περιεχομένου. Η ομάδα μας ελέγχει και επιβλέπει τη διαδικασία για να διατηρεί τις πληροφορίες χρήσιμες, σαφείς και αξιόπιστες.
- Τα demos συχνά χρησιμοποιούν pre-rendered assets που ενεργοποιούνται από ένα prompt αντί να δημιουργούνται σε real-time.
- Το hardware που χρησιμοποιείται για παρουσιάσεις στη σκηνή είναι συχνά σημαντικά πιο ισχυρό από τους consumer-grade cloud servers που χρησιμοποιούνται για τη δημόσια κυκλοφορία.
- Οι στημένες αλληλεπιδράσεις αποφεύγουν τα edge cases και τις «παραισθήσεις» που ταλαιπωρούν την πραγματική χρήση.
- Ανθρώπινοι moderators χρησιμοποιούνται μερικές φορές στα παρασκήνια για να φιλτράρουν ή να διορθώνουν το output του μοντέλου πριν προβληθεί.
Η συνέπεια για τον χρήστη είναι το αίσθημα ότι τον παραπλάνησαν. Όταν το εργαλείο δεν λειτουργεί όπως διαφημίστηκε, ο χρήστης κατηγορεί τον εαυτό του ή τα prompts του. Δεν συνειδητοποιεί ότι το demo ήταν ένα προσεκτικά ελεγχόμενο πείραμα. Αυτό δημιουργεί μια κουλτούρα σύγχυσης όπου είναι δύσκολο να διακρίνεις μια γνήσια ανακάλυψη από ένα έξυπνο κομμάτι marketing. Για τους δημιουργούς, αυτό σημαίνει ότι οι δουλειές τους αλλάζουν με τρόπους που δεν είναι πάντα προβλέψιμοι. Τους λένε ότι οι δεξιότητές τους είναι ξεπερασμένες από ένα demo, μόνο και μόνο για να διαπιστώσουν ότι το εργαλείο αντικατάστασης είναι αναξιόπιστο. Αυτή η αβεβαιότητα καθιστά δύσκολο τον προγραμματισμό για το μέλλον ή την επένδυση σε νέες δεξιότητες. Η εστίαση στον «wow factor» αγνοεί τις πρακτικές ανάγκες των ανθρώπων που υποτίθεται ότι χρησιμοποιούν αυτά τα εργαλεία καθημερινά.
Τα άβολα μαθηματικά του inference
Πρέπει να θέσουμε δύσκολες ερωτήσεις σχετικά με το κρυφό κόστος αυτών των εντυπωσιακών επιδείξεων. Κάθε φορά που ένα μοντέλο δημιουργεί μια εικόνα ή ένα βίντεο υψηλής ποιότητας, καταναλώνει σημαντική ποσότητα ενέργειας. Το αποτύπωμα άνθρακα αυτών των demos σπάνια αναφέρεται. Βλέπουμε μια τεράστια αύξηση στις ενεργειακές απαιτήσεις των data centers, που οδηγείται κυρίως από την ανάγκη να τρέξουν αυτά τα σύνθετα μοντέλα. Σύμφωνα με το Wired, το περιβαλλοντικό κόστος ενός και μόνο viral demo θα μπορούσε να είναι ισοδύναμο με την κατανάλωση ενέργειας εκατοντάδων σπιτιών. Υπάρχει επίσης το ζήτημα του data privacy. Από πού προήλθαν τα δεδομένα εκπαίδευσης για αυτά τα μοντέλα; Πολλά από τα πιο εντυπωσιακά demos είναι χτισμένα πάνω σε datasets που περιλαμβάνουν υλικό που προστατεύεται από πνευματικά δικαιώματα και προσωπικά δεδομένα χωρίς τη συγκατάθεση των αρχικών δημιουργών. Αυτό είναι ένα νομικό και ηθικό ναρκοπέδιο που οι εταιρείες προσπαθούν να αγνοήσουν. Πρέπει επίσης να εξετάσουμε το κόστος του inference. Το να τρέχουν αυτά τα μοντέλα σε κλίμακα είναι απίστευτα ακριβό. Οι περισσότερες εταιρείες που επιδεικνύουν αυτά τα demos χάνουν χρήματα σε κάθε query. Αυτό δεν είναι ένα βιώσιμο επιχειρηματικό μοντέλο. Υποδηλώνει ότι μόλις αυτά τα εργαλεία κυκλοφορήσουν πλήρως, είτε θα είναι πολύ ακριβά είτε θα έχουν σημαντικά υποβαθμισμένη ποιότητα. Γιατί τα demos κρύβουν αυτούς τους περιορισμούς; Η απάντηση συνήθως σχετίζεται με την εμπιστοσύνη των επενδυτών. Αν μια εταιρεία παραδεχόταν ότι το μοντέλο της είναι πολύ ακριβό για να τρέξει για το ευρύ κοινό, η αποτίμησή της θα κατέρρεε. Μας δείχνουν ένα μέλλον που μπορεί να μην είναι οικονομικά βιώσιμο για τον μέσο άνθρωπο. Θα πρέπει επίσης να είμαστε σκεπτικοί σχετικά με τα χαρακτηριστικά «ασφαλείας» που εμφανίζονται στα demos. Είναι εύκολο να κάνεις ένα μοντέλο να φαίνεται ασφαλές σε ένα ελεγχόμενο περιβάλλον. Είναι πολύ πιο δύσκολο να το εμποδίσεις να χρησιμοποιηθεί για βλάβη μόλις βρεθεί στα χέρια εκατομμυρίων χρηστών. Η έλλειψη διαφάνειας γύρω από αυτά τα ζητήματα είναι ένα σημαντικό καμπανάκι που δεν έχουμε την πολυτέλεια να αγνοήσουμε.
Έχετε μια ιστορία, εργαλείο, τάση ή ερώτηση σχετικά με την τεχνητή νοημοσύνη που πιστεύετε ότι πρέπει να καλύψουμε; Στείλτε μας την ιδέα σας για άρθρο — θα χαρούμε να την ακούσουμε.
Αρχιτεκτονική και το API Ceiling
Για τους power users και τους developers, ο ενθουσιασμός ενός demo συχνά μετριάζεται από την πραγματικότητα των τεχνικών προδιαγραφών. Τα πιο εντυπωσιακά μοντέλα είναι συχνά κλειδωμένα πίσω από περιοριστικά APIs. Αυτά τα interfaces έχουν αυστηρά rate limits και υψηλό κόστος που καθιστούν δύσκολη την υλοποίηση μεγάλης κλίμακας. Μπορεί να δείτε ένα demo ενός μοντέλου να επεξεργάζεται ένα έγγραφο χιλίων σελίδων σε δευτερόλεπτα, αλλά το API μπορεί να σας επιτρέπει να ανεβάσετε μόνο δέκα σελίδες τη φορά. Αυτό είναι το πρόβλημα του context window. Ενώ το θεωρητικό όριο ενός μοντέλου μπορεί να είναι τεράστιο, το πρακτικό όριο για έναν developer είναι συχνά πολύ μικρότερο. Υπάρχει επίσης το ζήτημα του τοπικού storage και της επεξεργασίας. Τα περισσότερα εργαλεία που εμφανίζονται στα demos απαιτούν συνεχή σύνδεση στο internet και τεράστια ποσότητα cloud computing ισχύος. Αυτό είναι πρόβλημα για χρήστες που πρέπει να εργάζονται offline ή που έχουν αυστηρές απαιτήσεις data security. Τα τοπικά LLMs γίνονται όλο και πιο δημοφιλή, αλλά εξακολουθούν να υστερούν σε σχέση με τους cloud-based γίγαντες όσον αφορά τις επιδόσεις. Για να τρέξετε ένα μοντέλο που πλησιάζει την ποιότητα ενός κορυφαίου demo, χρειάζεστε ένα workstation με πολλαπλές high-end GPUs. Αυτό είναι εκτός εμβέλειας για τους περισσότερους ιδιώτες και μικρές επιχειρήσεις. Βλέπουμε επίσης έλλειψη τυποποίησης στον κλάδο. Κάθε εταιρεία έχει το δικό της proprietary format και API, καθιστώντας δύσκολο το να χτίσεις workflows που χρησιμοποιούν πολλαπλά εργαλεία. Η «geek» πραγματικότητα του AI είναι ένα κατακερματισμένο τοπίο ασύμβατου λογισμικού και ακριβού hardware. Εδώ είναι τα κύρια τεχνικά εμπόδια που αντιμετωπίζουν οι power users σήμερα.
- Τα token limits συχνά εμποδίζουν την επεξεργασία long-form περιεχομένου ή σύνθετων codebases σε ένα πέρασμα.
- Το υψηλό latency στις απαντήσεις API καθιστά δύσκολη τη δημιουργία εφαρμογών που απαιτούν real-time feedback.
- Η έλλειψη επιλογών fine-tuning για πολλά κορυφαία μοντέλα εμποδίζει τους χρήστες να προσαρμόσουν το AI για συγκεκριμένους κλάδους.
- Το κόστος data egress μπορεί γρήγορα να γίνει απαγορευτικό όταν μεταφέρετε μεγάλες ποσότητες παραγόμενου περιεχομένου έξω από έναν cloud provider.
Το workflow integration παραμένει η μεγαλύτερη πρόκληση. Τα περισσότερα AI εργαλεία είναι ακόμα σχεδιασμένα ως αυτόνομα chat interfaces. Δεν συνδέονται εύκολα με υπάρχον λογισμικό όπως video editors, IDEs ή εργαλεία project management. Ένα demo μπορεί να δείχνει μια απρόσκοπτη αλληλεπίδραση, αλλά η πραγματική υλοποίηση απαιτεί σύνθετο «glue code» που είναι επιρρεπές σε σφάλματα. Περιμένουμε ακόμα τη μέρα που αυτά τα εργαλεία θα μπορούν πραγματικά να μιλήσουν μεταξύ τους χωρίς ανθρώπινη παρέμβαση. Μέχρι τότε, ο power user είναι εγκλωβισμένος σε έναν κύκλο χειροκίνητης εισαγωγής δεδομένων και troubleshooting.
Διαχωρίζοντας το σήμα από τον κινηματογραφικό θόρυβο
Τα πιο εντυπωσιακά AI demos δεν είναι απλώς προεπισκοπήσεις του μέλλοντος. Είναι ένα συγκεκριμένο είδος media σχεδιασμένο να επηρεάζει την αντίληψή μας για το τι είναι δυνατό. Αποδεικνύουν ότι η τεχνολογία έχει φτάσει σε ένα ορισμένο επίπεδο πολυπλοκότητας, αλλά δεν αποδεικνύουν ότι είναι έτοιμη για τον κόσμο. Ως χρήστες και παρατηρητές, πρέπει να μάθουμε να ψάχνουμε τις ραφές στην παράσταση. Πρέπει να ρωτάμε για το hardware, το κόστος και την ανθρώπινη προσπάθεια που χρειάστηκε για να φαίνεται τέλειο ένα πεντάλεπτο βίντεο. Η πραγματική πρόοδος στο AI βρίσκεται συχνά στις βαρετές ενημερώσεις. Βρίσκεται στους ελαφρώς ταχύτερους χρόνους inference, στα πιο σταθερά APIs και στους καλύτερους ελέγχους data privacy. Αυτά δεν δημιουργούν υπέροχα viral βίντεο, αλλά είναι τα πράγματα που πραγματικά αλλάζουν τον τρόπο που εργαζόμαστε και ζούμε. Πρέπει να αφήσουμε πίσω την εποχή του «εντυπωσιασμού» και να αρχίσουμε να απαιτούμε εργαλεία που είναι αξιόπιστα, ηθικά και προσβάσιμα. Το χάσμα ανάμεσα στο demo και το προϊόν τελικά θα κλείσει, αλλά μόνο αν κρατήσουμε τους δημιουργούς υπεύθυνους για τις υποσχέσεις που δίνουν στη σκηνή. Το μέλλον της τεχνολογίας πρέπει να κρίνεται από τη χρησιμότητά του στα χέρια των πολλών, όχι από την απόδοσή του στα χέρια των λίγων.
Σημείωση συντάκτη: Δημιουργήσαμε αυτόν τον ιστότοπο ως έναν πολύγλωσσο κόμβο ειδήσεων και οδηγών τεχνητής νοημοσύνης για άτομα που δεν είναι φανατικοί των υπολογιστών, αλλά εξακολουθούν να θέλουν να κατανοήσουν την τεχνητή νοημοσύνη, να τη χρησιμοποιούν με μεγαλύτερη αυτοπεποίθηση και να παρακολουθούν το μέλλον που ήδη έρχεται.
Βρήκατε κάποιο λάθος ή κάτι που χρειάζεται διόρθωση; Ενημερώστε μας.