10 סרטוני AI ששווה לראות החודש
המעבר מתמונות סטטיות לווידאו זורם מסמן שינוי באופן שבו אנחנו תופסים ראיות דיגיטליות. אנחנו עוברים את התקופה שבה פרומפט הפיק פריים בודד. כעת, התעשייה מתמקדת בעקביות זמנית ובפיזיקה של תנועה. עשרת הקליפים האלו מייצגים הרבה יותר מאבני דרך טכניות. הם משמשים כצוהר לעתיד שבו הגבול בין רגע שצולם לרגע שסונתז נעלם לחלוטין. צופים רבים עדיין מתייחסים לסרטונים האלה כאל חידושים בלבד. הם מסתכלים על איברים מעוותים או רקעים מרצדים ומבטלים את הטכנולוגיה כצעצוע. זו טעות. האות (signal) בסרטונים האלה הוא לא השלמות של התמונה, אלא המהירות של השיפור שלה. אנחנו רואים את הפלט הגולמי של מודלים שלומדים את חוקי העולם שלנו על ידי צפייה בו. החודש, הקליפים הכי חשובים הם לא אלה שנראים הכי טוב. אלה אלה שמוכיחים שהתוכנה מבינה איך כוח כבידה, אור ואנטומיה אנושית מתקשרים לאורך זמן. זה הבסיס לשפה ויזואלית חדשה.
המצב הנוכחי של יצירת וידאו מסתמך על מודלים של diffusion שהורחבו לממד השלישי של הזמן. במקום רק לנחש לאן פיקסל צריך ללכת על מישור שטוח, המערכות האלה חוזות איך הפיקסל הזה צריך להשתנות לאורך שישים פריימים. זה דורש כמות עצומה של compute והבנה עמוקה של רצף. כשצופים בקליפ של אדם הולך, המודל חייב לזכור איך האדם נראה לפני שלוש שניות כדי להבטיח שצבע החולצה שלו לא ישתנה. זה נקרא temporal coherence. זו הבעיה הקשה ביותר ב-synthetic media. רוב הסרטונים שאנחנו רואים היום קצרים כי שמירה על עקביות כזו לאורך זמן היא יקרה מבחינה חישובית. המודלים לוקחים לעיתים קרובות קיצורי דרך. הם עשויים לטשטש רקע או לפשט תנועה מורכבת כדי לחסוך בכוח עיבוד. עם זאת, סבב ההפצות האחרון מראה קפיצה משמעותית בשמירה על פרטים לאורך כל משך הקליפ. זה מעיד על כך שהארכיטקטורות הבסיסיות הופכות ליעילות יותר בטיפול בנתונים בעלי ממדים גבוהים.
הבלבול שרוב האנשים מביאים לנושא הזה הוא הרעיון שה-AI