10 AI βίντεο που αξίζει να δεις αυτόν τον μήνα
Η μετάβαση από τις στατικές εικόνες στο ρευστό βίντεο σηματοδοτεί μια αλλαγή στον τρόπο που αντιλαμβανόμαστε τα ψηφιακά τεκμήρια. Αφήνουμε πίσω την εποχή όπου ένα prompt παρήγαγε ένα μόνο καρέ. Τώρα, η βιομηχανία εστιάζει στη χρονική συνέπεια και τη φυσική της κίνησης. Αυτά τα δέκα κλιπ αντιπροσωπεύουν κάτι παραπάνω από τεχνικά ορόσημα. Λειτουργούν ως παράθυρο σε ένα μέλλον όπου το όριο μεταξύ μιας καταγεγραμμένης στιγμής και μιας συνθετικής εξαφανίζεται εντελώς. Πολλοί θεατές εξακολουθούν να αντιμετωπίζουν αυτά τα βίντεο ως απλές καινοτομίες. Κοιτάζουν τα παραμορφωμένα άκρα ή τα τρεμάμενα φόντα και απορρίπτουν την τεχνολογία ως παιχνίδι. Αυτό είναι λάθος. Το σημαντικό σε αυτά τα βίντεο δεν είναι η τελειότητα της εικόνας, αλλά η ταχύτητα της βελτίωσής της. Βλέπουμε το ωμό αποτέλεσμα μοντέλων που μαθαίνουν τους κανόνες του κόσμου μας παρατηρώντας τον. Αυτόν τον μήνα, τα πιο σημαντικά κλιπ δεν είναι αυτά που φαίνονται καλύτερα. Είναι αυτά που αποδεικνύουν ότι το λογισμικό κατανοεί πώς η βαρύτητα, το φως και η ανθρώπινη ανατομία αλληλεπιδρούν με την πάροδο του χρόνου. Αυτό είναι το θεμέλιο μιας νέας οπτικής γλώσσας.
Η τρέχουσα κατάσταση της παραγωγής βίντεο βασίζεται σε diffusion models που έχουν επεκταθεί στην τρίτη διάσταση του χρόνου. Αντί να προβλέπουν απλώς πού πρέπει να πάει ένα pixel σε ένα επίπεδο, αυτά τα συστήματα προβλέπουν πώς πρέπει να αλλάξει αυτό το pixel σε εξήντα καρέ. Αυτό απαιτεί τεράστια υπολογιστική ισχύ και βαθιά κατανόηση της συνέχειας. Όταν βλέπετε ένα κλιπ ενός ανθρώπου που περπατά, το μοντέλο πρέπει να θυμάται πώς έμοιαζε ο άνθρωπος πριν από τρία δευτερόλεπτα για να διασφαλίσει ότι το χρώμα του πουκαμίσου του δεν θα αλλάξει. Αυτό ονομάζεται temporal coherence. Είναι το πιο δύσκολο πρόβλημα στα συνθετικά μέσα. Τα περισσότερα βίντεο που βλέπουμε σήμερα είναι μικρά γιατί η διατήρηση αυτής της συνοχής για μεγάλα διαστήματα είναι υπολογιστικά ακριβή. Τα μοντέλα συχνά παίρνουν συντομεύσεις. Μπορεί να θολώσουν ένα φόντο ή να απλοποιήσουν μια περίπλοκη κίνηση για να εξοικονομήσουν επεξεργαστική ισχύ. Ωστόσο, η τελευταία παρτίδα κυκλοφοριών δείχνει ένα σημαντικό άλμα στη διατήρηση της λεπτομέρειας σε όλη τη διάρκεια του κλιπ. Αυτό υποδηλώνει ότι οι υποκείμενες αρχιτεκτονικές γίνονται πιο αποτελεσματικές στη διαχείριση δεδομένων υψηλής διάστασης.
Η σύγχυση που φέρνουν οι περισσότεροι σε αυτό το θέμα είναι η ιδέα ότι η AI «μοντάρει» βίντεο. Δεν το κάνει. Ονειρεύεται το βίντεο από το κενό του θορύβου. Δεν υπάρχει πηγαίο υλικό που να υφίσταται χειραγώγηση. Υπάρχει μόνο μια μαθηματική πιθανότητα ότι μια συγκεκριμένη ακολουθία pixel αντιπροσωπεύει μια γάτα που πηδά ή ένα αυτοκίνητο που οδηγεί. Αυτή η διάκριση έχει σημασία γιατί αλλάζει τον τρόπο που σκεφτόμαστε για τα πνευματικά δικαιώματα και τη δημιουργικότητα. Αν δεν υπάρχει πηγαίο υλικό, η έννοια του «remix» καθίσταται παρωχημένη. Έχουμε να κάνουμε με μια παραγωγική διαδικασία που συνθέτει πληροφορίες που έχει δει κατά την εκπαίδευση για να δημιουργήσει κάτι εντελώς νέο. Αυτή η διαδικασία γίνεται τόσο γρήγορη που πλησιάζουμε στην παραγωγή σε πραγματικό χρόνο. Σύντομα, η καθυστέρηση μεταξύ μιας σκέψης και μιας κινούμενης εικόνας θα μετριέται σε χιλιοστά του δευτερολέπτου. Αυτό θα αλλάξει τον τρόπο με τον οποίο λέγονται οι ιστορίες και τον τρόπο με τον οποίο καταναλώνονται οι πληροφορίες σε όλο τον κόσμο.
Οι παγκόσμιες επιπτώσεις αυτής της τεχνολογίας ξεπερνούν κατά πολύ το Hollywood ή τις διαφημιστικές εταιρείες. Εισερχόμαστε σε μια εποχή όπου το κόστος δημιουργίας οπτικής προπαγάνδας υψηλής ποιότητας πέφτει στο μηδέν. Σε περιοχές με χαμηλό γραμματισμό στα μέσα ενημέρωσης, ένα μόνο πειστικό βίντεο μπορεί να πυροδοτήσει κοινωνικές αναταραχές ή να επηρεάσει μια εκλογική αναμέτρηση. Αυτή δεν είναι μια θεωρητική απειλή. Έχουμε ήδη δει συνθετικά κλιπ να χρησιμοποιούνται για την υποδυση πολιτικών ηγετών και τη διάδοση παραπληροφόρησης σχετικά με παγκόσμιες συγκρούσεις. Η ταχύτητα με την οποία μπορούν να παραχθούν αυτά τα βίντεο σημαίνει ότι οι fact-checkers τρέχουν συνεχώς να προλάβουν. Μέχρι να αποκαλυφθεί ένα βίντεο, έχει ήδη προβληθεί εκατομμύρια φορές. Αυτό δημιουργεί μια μόνιμη κατάσταση σκεπτικισμού όπου οι άνθρωποι σταματούν να πιστεύουν ακόμη και το πραγματικό υλικό. Αυτό το «μέρισμα του ψεύτη» επιτρέπει σε κακόβουλους δρώντες να απορρίπτουν γνήσια στοιχεία αδικοπραξίας ως μια ακόμη κατασκευή της AI. Η διάβρωση της κοινής πραγματικότητας είναι ίσως η πιο σημαντική συνέπεια της προόδου που βλέπουμε αυτόν τον μήνα.
Στο οικονομικό μέτωπο, ο αντίκτυπος είναι εξίσου βαθύς. Χώρες που βασίζονται σε υπηρεσίες παραγωγής βίντεο και animation χαμηλού κόστους αντιμετωπίζουν μια ξαφνική αλλαγή στη ζήτηση. Αν μια εταιρεία στη Νέα Υόρκη μπορεί να δημιουργήσει μια παρουσίαση προϊόντος υψηλής ποιότητας σε λίγα λεπτά, δεν χρειάζεται πλέον να αναθέσει αυτή τη δουλειά σε ένα στούντιο σε άλλη ζώνη ώρας. Αυτό θα μπορούσε να οδηγήσει σε συγκέντρωση της δημιουργικής δύναμης στα χέρια εκείνων που κατέχουν τα πιο ισχυρά μοντέλα. Ταυτόχρονα, εκδημοκρατίζει την ικανότητα δημιουργίας. Ένας κινηματογραφιστής σε μια αναπτυσσόμενη χώρα έχει πλέον πρόσβαση στα ίδια οπτικά εργαλεία με ένα μεγάλο στούντιο. Αυτό θα μπορούσε να οδηγήσει σε μια έκρηξη ποικιλόμορφης αφήγησης που προηγουμένως εμποδιζόταν από το υψηλό κόστος εισόδου. Η παγκόσμια ισορροπία της δημιουργικής επιρροής μετατοπίζεται. Βλέπουμε μια απομάκρυνση από τη φυσική υποδομή, όπως τα soundstages, προς την ψηφιακή υποδομή, όπως τα GPU clusters. Αυτή η μετάβαση θα επαναπροσδιορίσει τι σημαίνει να είσαι «δημιουργικός» κόμβος στον 21ο αιώνα.
Πέρα από το στατικό καρέ
Για να κατανοήσετε τον αντίκτυπο στον πραγματικό κόσμο, σκεφτείτε μια μέρα στη ζωή ενός creative director σε μια μεσαίου μεγέθους εταιρεία. Στο παρελθόν, ένα αίτημα πελάτη για μια νέα καμπάνια σήμαινε εβδομάδες storyboarding, casting και αναζήτησης τοποθεσιών. Σήμερα, ο director ξεκινά τη μέρα του πληκτρολογώντας περιγραφές σε μια generative engine. Μέχρι το μεσημέρι, έχει δέκα διαφορετικές εκδοχές ενός σποτ τριάντα δευτερολέπτων. Καμία από αυτές τις εκδοχές δεν απαιτούσε κάμερα ή συνεργείο. Μπορούν να δοκιμάσουν αυτά τα κλιπ με focus groups αμέσως. Αν το feedback είναι αρνητικό, μπορούν να κάνουν αλλαγές και να έχουν νέες εκδοχές μέχρι το απόγευμα. Αυτό το συμπιεσμένο χρονοδιάγραμμα είναι η νέα πραγματικότητα του κλάδου. Επιτρέπει ένα επίπεδο πειραματισμού που ήταν προηγουμένως αδύνατο. Ωστόσο, ασκεί επίσης τεράστια πίεση στο προσωπικό. Η προσδοκία δεν είναι πλέον μόνο η ποιότητα, αλλά ο ακραίος όγκος και η ταχύτητα. Ο ρόλος του ανθρώπου μετατοπίζεται από δημιουργός εικόνων σε επιμελητή δυνατοτήτων. Πρέπει να αποφασίσουν ποια από τις χιλιάδες παραγόμενες επιλογές ταιριάζει πραγματικά στη φωνή του brand.
Οι συνέπειες για την αγορά εργασίας είναι έντονες. Οι θέσεις εισαγωγικού επιπέδου στη βιομηχανία βίντεο, όπως junior editors ή motion graphics artists, αυτοματοποιούνται πρώτες. Αυτοί οι ρόλοι συχνά περιλαμβάνουν το είδος των επαναλαμβανόμενων εργασιών που η AI χειρίζεται καλύτερα. Για παράδειγμα, η αφαίρεση ενός φόντου ή η αντιστοίχιση του φωτισμού μεταξύ δύο λήψεων μπορεί πλέον να γίνει σε δευτερόλεπτα. Αν και αυτό απελευθερώνει τους senior creatives να εστιάσουν στη μεγάλη εικόνα, αφαιρεί το «πεδίο εκπαίδευσης» για την επόμενη γενιά ταλέντων. Χωρίς αυτούς τους ρόλους, είναι ασαφές πώς οι νέοι επαγγελματίες θα αναπτύξουν τις δεξιότητες που χρειάζονται για να γίνουν σκηνοθέτες ή παραγωγοί. Βλέπουμε μια αποψίλωση της μεσαίας τάξης στις δημιουργικές τέχνες. Το χάσμα μεταξύ του ανεξάρτητου δημιουργού που χρησιμοποιεί AI και του high-end σκηνοθέτη που χρησιμοποιεί ένα μείγμα εργαλείων διευρύνεται. Αυτό δημιουργεί ένα νέο σύνολο προκλήσεων για τις εταιρείες που προσπαθούν να χτίσουν βιώσιμες δημιουργικές ομάδες.
Έχετε μια ιστορία, εργαλείο, τάση ή ερώτηση σχετικά με την τεχνητή νοημοσύνη που πιστεύετε ότι πρέπει να καλύψουμε; Στείλτε μας την ιδέα σας για άρθρο — θα χαρούμε να την ακούσουμε.Τα πρακτικά διακυβεύματα είναι ορατά στον τρόπο με τον οποίο οι εταιρείες αναδιαρθρώνουν τους προϋπολογισμούς τους. Τα χρήματα που πήγαιναν σε ταξίδια και εξοπλισμό διοχετεύονται τώρα σε cloud compute credits και εκπαίδευση στο prompt engineering. Μια μικρή ομάδα μπορεί πλέον να παράγει έργο που φαίνεται να είχε προϋπολογισμό εκατομμυρίων. Αυτό είναι ένα τεράστιο πλεονέκτημα για startups και ανεξάρτητους δημιουργούς. Μπορούν να ανταγωνιστούν καθιερωμένα brands σε οπτικό επίπεδο για πρώτη φορά. Ωστόσο, αυτό οδηγεί και σε μια κορεσμένη αγορά. Όταν όλοι μπορούν να παράγουν βίντεο υψηλής ποιότητας, η αξία του ίδιου του βίντεο μειώνεται. Το premium μετακινείται από την εικόνα στην ιδέα. Η ικανότητα να πεις μια συναρπαστική ιστορία γίνεται ο μόνος τρόπος να ξεχωρίσεις σε μια θάλασσα τέλειου, AI-generated περιεχομένου.
Το BotNews.today χρησιμοποιεί εργαλεία τεχνητής νοημοσύνης για την έρευνα, συγγραφή, επιμέλεια και μετάφραση περιεχομένου. Η ομάδα μας ελέγχει και επιβλέπει τη διαδικασία για να διατηρεί τις πληροφορίες χρήσιμες, σαφείς και αξιόπιστες.
- Το κόστος παραγωγής για short-form marketing περιεχόμενο αναμένεται να μειωθεί κατά πάνω από 70 τοις εκατό.
- Ο χρόνος που απαιτείται για το post-production οπτικών εφέ συρρικνώνεται από μήνες σε ημέρες.
Πρέπει να εφαρμόσουμε σωκρατικό σκεπτικισμό σε αυτή την ταχεία πρόοδο. Ποιο είναι το κρυφό κόστος αυτής της «δωρεάν» δημιουργικότητας; Το πρώτο κόστος είναι περιβαλλοντικό. Η εκπαίδευση και η λειτουργία αυτών των μοντέλων απαιτεί συγκλονιστική ποσότητα ηλεκτρικής ενέργειας και νερού για την ψύξη των data centers. Καθώς παράγουμε περισσότερα βίντεο, το αποτύπωμα άνθρακα μεγαλώνει. Αξίζει η δυνατότητα δημιουργίας ενός κλιπ μιας γάτας με στολή αστροναύτη το περιβαλλοντικό κόστος; Το δεύτερο κόστος είναι η απώλεια της «ανθρώπινης πινελιάς». Υπάρχει μια άυλη ποιότητα σε ένα βίντεο γυρισμένο σε φιλμ από έναν άνθρωπο που έκανε συγκεκριμένες, ελαττωματικές επιλογές. Το βίντεο AI είναι συχνά πολύ τέλειο, οδηγώντας σε ένα φαινόμενο «uncanny valley» που μπορεί να μοιάζει άψυχο. Αν περάσουμε εξ ολοκλήρου στα συνθετικά μέσα, χάνουμε την ικανότητα να συνδεθούμε μεταξύ μας σε ένα ενστικτώδες επίπεδο; Πρέπει επίσης να αναρωτηθούμε ποιος κατέχει το «στυλ» αυτών των βίντεο. Αν ένα μοντέλο εκπαιδεύεται στο έργο χιλιάδων μη αποζημιωμένων καλλιτεχνών, είναι το αποτέλεσμα πραγματικά νέο ή είναι μια μορφή λογοκλοπής υψηλής τεχνολογίας;
Η ιδιωτικότητα είναι μια άλλη σημαντική ανησυχία. Αν αυτά τα μοντέλα μπορούν να δημιουργήσουν ένα ρεαλιστικό βίντεο οποιουδήποτε που κάνει οτιδήποτε, η έννοια της «συναίνεσης» εξαφανίζεται. Βλέπουμε ήδη την άνοδο του deepfake πορνογραφικού υλικού και μη συναινετικών εικόνων. Αυτή είναι μια συστημική αποτυχία των πλατφορμών που φιλοξενούν αυτό το περιεχόμενο. Είναι ανίκανες ή απρόθυμες να αστυνομεύσουν τον κατακλυσμό συνθετικών μέσων. Πρέπει να αναρωτηθούμε αν τα οφέλη του generative video υπερτερούν της πιθανότητας πρόκλησης βλάβης που αλλάζει τη ζωή των ατόμων. Επιπλέον, τι συμβαίνει με το νομικό μας σύστημα; Αν τα αποδεικτικά στοιχεία βίντεο δεν μπορούν πλέον να θεωρηθούν αξιόπιστα, πώς αποδεικνύουμε ότι συνέβη ένα έγκλημα; Τα θεμέλια των συστημάτων δικαιοσύνης και πληροφόρησης είναι χτισμένα στην ιδέα ότι το να βλέπεις σημαίνει να πιστεύεις. Αν σπάσουμε αυτόν τον δεσμό, μπορεί να βρεθούμε σε έναν κόσμο όπου η αλήθεια είναι ό,τι λέει ο πιο ισχυρός αλγόριθμος. Αυτά είναι τα δύσκολα ερωτήματα που πρέπει να αντιμετωπίσουμε καθώς η τεχνολογία συνεχίζει να ωριμάζει.
Για τους power users, οι τεχνικές λεπτομέρειες είναι εκεί όπου κρύβεται η πραγματική πρόοδος. Βλέπουμε μια κίνηση προς την τοπική αποθήκευση και εκτέλεση αυτών των μοντέλων. Αν και τα cloud-based APIs όπως αυτά της OpenAI ή της Runway είναι δημοφιλή, πολλοί δημιουργοί αναζητούν τρόπους να τρέξουν αυτά τα συστήματα στο δικό τους hardware. Αυτό παρέχει περισσότερο έλεγχο στο αποτέλεσμα και αποφεύγει τα αυστηρά φίλτρα που επιβάλλονται από μεγάλες εταιρείες. Ωστόσο, οι απαιτήσεις σε hardware είναι υψηλές. Για να δημιουργήσετε βίντεο υψηλής ευκρίνειας σε λογικό frame rate, χρειάζεστε μια GPU με τουλάχιστον 24GB VRAM. Αυτό περιορίζει την «τοπική» επανάσταση σε όσους έχουν την οικονομική δυνατότητα για workstations υψηλών προδιαγραφών. Βλέπουμε επίσης την εμφάνιση workflow integrations όπου τα εργαλεία AI video συνδέονται απευθείας σε λογισμικό όπως το Adobe Premiere ή το DaVinci Resolve. Αυτό επιτρέπει μια υβριδική προσέγγιση όπου η AI παράγει συγκεκριμένα στοιχεία που στη συνέχεια βελτιώνονται από έναν άνθρωπο editor.
Τα API limits παραμένουν ένα σημαντικό εμπόδιο για τους προγραμματιστές. Οι περισσότεροι πάροχοι χρεώνουν ανά δευτερόλεπτο παραγόμενου βίντεο, κάτι που μπορεί γρήγορα να γίνει ακριβό για έργα μεγάλης κλίμακας. Υπάρχουν επίσης όρια στον αριθμό των ταυτόχρονων αιτημάτων, καθιστώντας δύσκολη την κατασκευή εφαρμογών πραγματικού χρόνου. Το επόμενο έτος πιθανότατα θα δούμε μια ώθηση για πιο αποτελεσματικά μοντέλα που μπορούν να τρέξουν σε consumer-grade hardware. Βλέπουμε ήδη τα πρώτα βήματα προς αυτή την κατεύθυνση με «distilled» εκδόσεις δημοφιλών μοντέλων. Αυτές οι μικρότερες εκδόσεις θυσιάζουν κάποια λεπτομέρεια για μια τεράστια αύξηση στην ταχύτητα. Για την geek κοινότητα, η εστίαση είναι στο fine-tuning. Εκπαιδεύοντας ένα μικρό επίπεδο πάνω από ένα βασικό μοντέλο, ένας δημιουργός μπορεί να διδάξει την AI να αναγνωρίζει έναν συγκεκριμένο χαρακτήρα ή στυλ τέχνης. Αυτό το επίπεδο παραμετροποίησης είναι αυτό που θα μετακινήσει το AI video από μια καινοτομία σε ένα επαγγελματικό εργαλείο. Επιτρέπει το είδος της συνέπειας που απαιτείται για την αφήγηση μεγάλης διάρκειας.
- Τα τρέχοντα API latencies για παραγωγή βίντεο υψηλής ποιότητας κυμαίνονται από 30 έως 60 δευτερόλεπτα ανά κλιπ.
- Η τοπική αποθήκευση για τα model weights μπορεί να ξεπεράσει τα 100GB για τις πιο προηγμένες open-source εκδόσεις.
Σημείωση συντάκτη: Δημιουργήσαμε αυτόν τον ιστότοπο ως έναν πολύγλωσσο κόμβο ειδήσεων και οδηγών τεχνητής νοημοσύνης για άτομα που δεν είναι φανατικοί των υπολογιστών, αλλά εξακολουθούν να θέλουν να κατανοήσουν την τεχνητή νοημοσύνη, να τη χρησιμοποιούν με μεγαλύτερη αυτοπεποίθηση και να παρακολουθούν το μέλλον που ήδη έρχεται.
Το συμπέρασμα είναι ότι τα βίντεο που βλέπουμε αυτόν τον μήνα είναι απόδειξη μιας θεμελιώδους αλλαγής στη φύση των μέσων. Απομακρυνόμαστε από έναν κόσμο καταγραφής και κινούμαστε προς έναν κόσμο σύνθεσης. Αυτή δεν είναι απλώς μια αλλαγή εργαλείων, αλλά μια αλλαγή στον τρόπο που σχετιζόμαστε με την πραγματικότητα. Το σήμα που πρέπει να ακολουθήσουμε είναι η ενσωμάτωση αυτών των εργαλείων στην καθημερινή ζωή. Όταν δεν μπορείς πλέον να πεις αν ένα βίντεο γυρίστηκε σε iPhone ή δημιουργήθηκε στο cloud, η τεχνολογία έχει κερδίσει. Η ουσιαστική πρόοδος δεν θα είναι ένα πιο ρεαλιστικό κλιπ ενός δράκου. Θα είναι η ανάπτυξη εργαλείων που επιτρέπουν ακριβή έλεγχο καρέ-καρέ. Θα είναι η δημιουργία ισχυρών συστημάτων υδατογράφησης που μπορούν να επιβιώσουν από τη συμπίεση και το μοντάζ. Το σημαντικότερο, θα είναι η καθιέρωση νέων κοινωνικών κανόνων και νόμων που προστατεύουν τα άτομα από την κατάχρηση αυτής της δύναμης. Τα βίντεο είναι μόνο η αρχή της ιστορίας για .
Βρήκατε κάποιο λάθος ή κάτι που χρειάζεται διόρθωση; Ενημερώστε μας.