10 דמואים שמסבירים AI מודרני טוב יותר מ-100 מאמרים
ההוכחה הוויזואלית לאינטליגנציה
עידן הקריאה על AI הסתיים. נכנסנו לעידן שבו אנחנו רואים אותו. במשך שנים, משתמשים הסתמכו על תיאורים טקסטואליים של מה ש-Large Language Models יכולים לעשות. כעת, סדרה של הדגמות וידאו בולטות מחברות כמו OpenAI וגוגל שינתה את השיח. הקליפים האלה מציגים תוכנה שיכולה לראות, לשמוע ולדבר בזמן אמת. הם מראים מחוללי וידאו שיוצרים עולמות קולנועיים ממשפט אחד. הדמואים האלה משמשים כגשר בין מאמרי מחקר למוצרים בפועל. הם מספקים הצצה לעתיד שבו המחשב הוא כבר לא רק כלי, אלא משתף פעולה. עם זאת, דמו הוא הופעה. זהו חלון שנאצר בקפידה לטכנולוגיה שאולי עדיין לא מוכנה לציבור.
כדי להבין את המצב הנוכחי של התעשייה, צריך להסתכל מעבר לפיקסלים המלוטשים. צריך לשאול מה הסרטונים האלה מוכיחים ומה הם מסתירים. המטרה היא להפריד בין פריצות דרך הנדסיות לבין תיאטרון שיווקי. ההבחנה הזו מגדירה את העידן הנוכחי עבור כל חברת טכנולוגיה גדולה. אנחנו כבר לא שופטים מודלים רק לפי ה-benchmarks שלהם. אנחנו שופטים אותם לפי היכולת שלהם לקיים אינטראקציה עם העולם הפיזי דרך עדשה או מיקרופון. השינוי הזה מסמן את תחילתו של העידן המולטי-מודאלי, שבו הממשק חשוב לא פחות מהאינטליגנציה שמאחוריו.
ניתוח המציאות המבוימת
דמו AI מודרני הוא שילוב של הנדסת תוכנה והפקת סרטים. כשחברה מציגה מודל שמקיים אינטראקציה עם אדם, הם לרוב משתמשים בחומרה הטובה ביותר בתנאים מושלמים. הדמואים האלה נופלים בדרך כלל לשלוש קטגוריות. הראשונה היא דמו המוצר. זה מציג פיצ'ר שיוצא למשתמשים באופן מיידי. השנייה היא דמו האפשרויות. זה מציג את מה שהחוקרים ב-Google DeepMind השיגו בסביבת מעבדה אך עדיין לא יכולים להרחיב למיליוני משתמשים. השלישית היא ההופעה. זהו חזון של העתיד שמסתמך על עריכה כבדה או פרומפטים ספציפיים שהציבור לא יכול לגשת אליהם.
למשל, כשאנחנו רואים מודל מזהה אובייקטים דרך עדשת מצלמה, אנחנו רואים קפיצה אדירה בעיבוד מולטי-מודאלי. המודל חייב לעבד פריימים של וידאו, להמיר אותם לנתונים ולייצר תגובה בשפה טבעית במילי-שניות. זה מוכיח שמחסום ה-latency יורד. זה מראה שהארכיטקטורה יכולה להתמודד עם קלט ברוחב פס גבוה. עם זאת, מה שנשאר לא מוכח הוא האמינות של המערכות האלה. דמו לא מראה את עשר הפעמים שהמודל נכשל בזיהוי האובייקט. הוא לא מראה את ההזיה (hallucination) שבה ה-AI מזהה בביטחון חתול כטוסטר.
הציבור נוטה להעריך יתר על המידה את המוכנות של הכלים האלה, תוך זלזול בהישג הטכני הגולמי הנדרש כדי לגרום להם לעבוד אפילו פעם אחת. יצירת וידאו קוהרנטי מטקסט היא אתגר מתמטי עצום. לעשות זאת בצורה שמצייתת לחוקי הפיזיקה זה אפילו קשה יותר. אנחנו רואים את הלידה של סימולטורים של עולם. אלה לא רק נגני וידאו. אלה מנועים שחוזים איך אור ותנועה עובדים. גם אם התוצאות כרגע מבוימות, היכולת הבסיסית היא איתות לשינוי מאסיבי במחשוב.
השינוי הגלובלי בכוח העבודה
ההשפעה של ההדגמות האלה מגיעה הרבה מעבר ל-Silicon Valley. בקנה מידה גלובלי, היכולות האלה משנות את האופן שבו מדינות חושבות על עבודה וחינוך. במדינות שנשענות בכבדות על מיקור חוץ של תהליכים עסקיים, המראה של AI שמטפל בשיחות שירות לקוחות מורכבות בזמן אמת הוא אזהרה. זה מרמז שהעלות של אינטליגנציה אוטומטית יורדת מתחת לעלות של עבודה אנושית בכלכלות מתפתחות. זה יוצר סוג חדש של לחץ על ממשלות לחשוב מחדש על האסטרטגיות הכלכליות שלהן.
באותו זמן, הדמואים האלה מייצגים חזית חדשה בתחרות בינלאומית. גישה למודלים המתקדמים ביותר מחברות כמו Anthropic הופכת לעניין של ביטחון לאומי. אם מודל יכול לסייע בכתיבת קוד או בתכנון חומרה, למדינה עם המודל הטוב ביותר יש יתרון ברור. זה הוביל למרוץ אחר משאבי מחשוב וריבונות נתונים. אנחנו רואים מעבר לכיוון מודלים מקומיים שיכולים לרוץ בתוך גבולות של מדינה ספציפית כדי להגן על פרטיות ולשמור על שליטה.
הקהל הגלובלי רואה גם דמוקרטיזציה של יצירתיות. אדם בכפר מרוחק עם סמארטפון יכול כעת לגשת לאותו כוח יצירתי כמו אולפן ב-Hollywood. יש לזה פוטנציאל לשטח את הכלכלה היצירתית. זה מאפשר גיוון של סיפורים ורעיונות שבעבר נחסמו על ידי עלויות כניסה גבוהות. עם זאת, זה מביא גם סיכונים של דיסאינפורמציה. אותה טכנולוגיה שיוצרת דמו יפה יכולה ליצור שקר משכנע. הקהילה הגלובלית חייבת כעת להתמודד עם המציאות שלראות זה כבר לא להאמין. הסיכונים הם פרקטיים ומיידיים עבור כל אדם עם חיבור לאינטרנט.
לחיות עם קולגות סינתטיים
שקלו יום בחייה של מנהלת שיווק בשם שרה בעתיד הקרוב. היא מתחילה את הבוקר שלה בפתיחת עוזר AI שראה את לוח הזמנים שלה ואת האימיילים שלה. היא לא מקלידה. היא מדברת לעוזר בזמן שהיא מכינה קפה. ה-AI מסכם את שלוש המשימות החשובות ביותר ומציע טיוטה להצעת פרויקט. שרה מבקשת מה-AI להסתכל על וידאו של מוצר של מתחרה ולזהות את הפיצ'רים המרכזיים. ה-AI עושה זאת בשניות, יוצר טבלת השוואה ששרה יכולה להשתמש בה בפגישה שלה.
מאוחר יותר באותו אחה"צ, שרה צריכה ליצור קליפ קידום מכירות קצר לקמפיין חדש. במקום לשכור צוות הפקה, היא משתמשת בכלי ליצירת וידאו. היא מתארת את הסצנה, התאורה והאווירה. הכלי מייצר ארבע גרסאות שונות של הקליפ. היא בוחרת אחת ומבקשת מה-AI לשנות את צבע החולצה של השחקן כדי להתאים למיתוג החברה. העריכה קורה באופן מיידי. זהו היישום הפרקטי של הדמואים שאנחנו רואים היום. זה לא על החלפת שרה. זה על הסרת החיכוך בין הרעיון שלה למוצר הסופי.
עם זאת, הסתירות נשארות גלויות. בזמן שה-AI עוזר, שרה מבלה שלושים דקות בתיקון טעות שהמודל עשה בנוגע לציות המשפטי של החברה. המודל היה בטוח בעצמו אך טעה. היא גם מבחינה שה-AI מתקשה עם הניואנסים התרבותיים הספציפיים של שוק היעד שלה בדרום מזרח אסיה. הדמו הראה אינטליגנציה אוניברסלית, אבל המציאות היא כלי שאומן על נתונים ספציפיים שיש להם פערים.
BotNews.today משתמש בכלי AI כדי לחקור, לכתוב, לערוך ולתרגם תוכן. הצוות שלנו בודק ומפקח על התהליך כדי לשמור על המידע שימושי, ברור ואמין.
השינוי בציפיות ברור. משתמשים מצפים כעת שהתוכנה שלהם תהיה פרואקטיבית. הם מצפים שהיא תבין הקשר בלי שיגידו לה. זה משנה את האופן שבו אנחנו בונים אתרים ואפליקציות. אנחנו מתרחקים מכפתורים ותפריטים לכיוון שיחה טבעית. כדי להבין את השינוי הזה, כדאי להסתכל על מגמות בינה מלאכותית מודרניות עבור פירוט טכני מעמיק יותר.
החוויה של שרה מדגישה את שני הדברים העיקריים שאנשים טועים לגביהם ב-AI:
- הם מעריכים יתר על המידה כמה ה-AI מבין את המשמעות של העבודה שהוא עושה.
- הם מזלזלים בכמה זמן הם יחסכו במשימות חזרתיות.
המחיר הגבוה של הקסם
ההתרגשות סביב הדמואים האלה לרוב מסתירה את השאלות הקשות על הקיימות ארוכת הטווח שלהם. אנחנו חייבים להפעיל רמה של ספקנות כלפי הנרטיב של התקדמות. ראשית, מי משלם על עלויות המחשוב העצומות הנדרשות להרצת המודלים האלה? בכל פעם שמשתמש מקיים אינטראקציה עם AI מולטי-מודאלי, זה מפעיל שרשרת של תהליכי GPU יקרים. המודלים העסקיים הנוכחיים לרוב לא מכסים את העלויות האלה, מה שמוביל להסתמכות על הון סיכון או סובסידיות תאגידיות מאסיביות. זה מעלה את השאלה מה קורה כשהסובסידיות מסתיימות. האם הכלים האלה יהפכו למותרות עבור המעטים?
שנית, אנחנו חייבים לשקול את העלות הנסתרת של נתונים. רוב המודלים מאומנים על הפלט הקולקטיבי של האינטרנט. זה כולל יצירות מוגנות בזכויות יוצרים, נתונים אישיים והעבודה היצירתית של מיליוני אנשים שמעולם לא הסכימו שהעבודה שלהם תשמש בדרך זו. ככל שהמודלים הופכים ליכולתיים יותר, ההיצע של נתונים אנושיים באיכות גבוהה מצטמצם. חלק מהחברות מאמנות כעת AI על נתונים שנוצרו על ידי AI אחר. זה עלול להוביל לירידה באיכות או ללולאת משוב של שגיאות.
שלישית, יש את סוגיית הפרטיות. כדי ש-AI יהיה באמת מועיל, הוא צריך לראות מה שאתה רואה ולשמוע מה שאתה שומע. זה דורש רמה של מעקב שבעבר הייתה בלתי נתפסת. האם אנחנו מרגישים בנוח עם תאגיד שיש לו פיד בזמן אמת של חיי היומיום שלנו בתמורה לעוזר טוב יותר? הדמואים מראים את הנוחות אבל הם לעיתים רחוקות מראים את מרכזי הנתונים שבהם המידע הזה מאוחסן ומנותח. אנחנו צריכים לשאול מי מחזיק ב-weights של המודלים האלה ומי יש לו את הכוח לכבות אותם. הסיכונים הם לא רק על פרודוקטיביות. הם על הזכות הבסיסית לחיים פרטיים. זו שאלה של כוח.
מתחת למכסה המנוע של עידן ה-Agentic
עבור ה-power user, העניין טמון באינסטלציה הטכנית שהופכת את הדמואים האלה לאפשריים. אנחנו עוברים לעולם של תהליכי עבודה של סוכנים (agentic workflows). זה אומר שה-AI לא רק מייצר טקסט. הוא משתמש בכלים. הוא קורא ל-APIs, כותב לאחסון מקומי ומקיים אינטראקציה עם תוכנות אחרות. צוואר הבקבוק הנוכחי הוא לא האינטליגנציה של המודל אלא ה-latency של המערכת. כדי לגרום לדמו להיראות זורם, מפתחים לרוב משתמשים בחומרה מיוחדת או במנועי הסקה (inference engines) מותאמים.
כשמשלבים את המודלים האלה בתהליך עבודה מקצועי, מספר גורמים הופכים לקריטיים:
- מגבלות Context window: אפילו המודלים הטובים ביותר יכולים לאבד את המעקב אחר מידע בשיחה ארוכה מאוד.
- מגבלות קצב API: מודלים באיכות גבוהה לרוב מוגבלים (throttled), מה שהופך אותם לקשים לשימוש עבור משימות ייצור כבדות.
- מקומי מול ענן: הרצת מודל מקומית על Mac או PC מציעה פרטיות ומהירות אך דורשת VRAM משמעותי.
ב-, ראינו את עלייתם של מודלי שפה קטנים שיכולים לרוץ על חומרת צרכנים. המודלים האלה לרוב מזוקקים מגרסאות גדולות יותר, ושומרים על חלק גדול מיכולת ההסקה תוך הפחתת ה-footprint. זה קריטי למפתחים שרוצים לבנות אפליקציות שלא מסתמכות על חיבור אינטרנט קבוע. המעבר לכיוון JSON mode ופלט מובנה גם הפך את זה לקל יותר עבור AI לדבר עם בסיסי נתונים מסורתיים.
עם זאת, המעבר מדמו למוצר יציב נשאר קשה. דמו יכול להתעלם ממקרי קצה. סביבת ייצור לא יכולה. מפתחים חייבים לנהל את ה-drift של תגובות המודל ואת חוסר הניבוי של תוכנה לא דטרמיניסטית. מדור הגיקים של התעשייה אובססיבי כרגע ל-retrieval augmented generation כדרך לעגן את המודלים האלה בעובדות מהעולם האמיתי. העבודה הזו נמשכת לתוך ככל שהחומרה מדביקה את התוכנה.
פסק הדין על ה-Hype
הדמואים שמגדירים את הרגע הנוכחי שלנו הם יותר מסתם שיווק. הם הוכחת היתכנות לדרך חיים חדשה עם טכנולוגיה. הם מראים שהמחסומים בין כוונה אנושית לביצוע מכונה מתמוססים. אבל אנחנו חייבים להישאר ביקורתיים. דמו הוא הבטחה, לא מוצר מוגמר. הוא מראה את הגרסה הטובה ביותר האפשרית של כלי שעדיין נמצא בפיתוח. אנחנו חייבים לשפוט את הדמו לפי מה שהוא מוכיח תחת בחינה ומה שנשאר מבויים למצלמה.
הערת העורך: יצרנו אתר זה כמרכז חדשות ומדריכים רב-לשוני בנושא בינה מלאכותית עבור אנשים שאינם "גיקים" של מחשבים, אך עדיין רוצים להבין בינה מלאכותית, להשתמש בה בביטחון רב יותר, ולעקוב אחר העתיד שכבר מגיע.
הערך האמיתי של הדמואים האלה הוא איך שהם משנים את הציפיות שלנו. הם מכריחים אותנו לדמיין עולם שבו המחשב מבין אותנו בתנאים שלנו. ככל שאנחנו מתקדמים, המיקוד יעבור ממה שה-AI יכול לעשות בווידאו למה שהוא יכול לעשות על השולחנות שלנו. הסתירות בין ההופעה המלוטשת למציאות המבולגנת יגדירו את השלב הבא של התעשייה. שפטו את הדמו לפי מה שהוא מוכיח, אבל השתמשו בכלי עבור מה שהוא באמת מספק.
מצאת שגיאה או משהו שצריך לתקן? ספר לנו.