הדרך הארוכה אל הייפ ה-AI של ימינו
הזינוק הנוכחי בבינה מלאכותית מרגיש כמו סערה פתאומית, אך הוא למעשה תוצאה של החלטה שקטה שהתקבלה לפני שנים. בשנת 2017, חוקרים ב-Google פרסמו מאמר בשם Attention Is All You Need. המאמר הציג את ה-Transformer architecture. עיצוב ספציפי זה אפשר למכונות לעבד מילים ביחס לכל שאר המילים במשפט בו-זמנית, במקום אחת אחרי השנייה. הוא פתר את צוואר הבקבוק של עיבוד סדרתי. כיום, כל מודל מרכזי, מ-ChatGPT ועד Claude, מסתמך על פריצת הדרך הזו. זה קרה סביב 2026. אנחנו לא רואים המצאה חדשה, אלא את ההרחבה (scaling) של רעיון בן שבע שנים. השינוי הזה העביר אותנו מזיהוי תבניות פשוט ליצירה מורכבת ושינה את הדרך שבה אנחנו מתקשרים עם מחשבים. כעת, המיקוד הוא בכמות הנתונים והחשמל שאנחנו יכולים להזרים למערכות האלו. התוצאות מרשימות, אך הבסיס נותר זהה. הבנת ההיסטוריה הזו עוזרת לנו לראות מעבר לשיווק ולהבין שהכלים של היום הם המסקנה הלוגית של בחירות הנדסיות ספציפיות שנעשו בעשור האחרון.
מנועי חיזוי והסתברות
Generative AI פועל כמנוע חיזוי מאסיבי. הוא לא חושב או מבין במובן האנושי, אלא מחשב את ההסתברות הסטטיסטית של ה-token הבא ברצף. token הוא לרוב מילה או חלק ממילה. כשאתם שואלים את המודל שאלה, הוא מסתכל על מיליארדי ה-parameters שלמד במהלך האימון ומנחש איזו מילה צריכה לבוא בהמשך על סמך התבניות שראה בנתוני האימון. התהליך הזה מכונה לעיתים stochastic parrot. המונח מרמז שהמכונה חוזרת על תבניות מבלי לתפוס את המשמעות העמוקה. ההבחנה הזו קריטית לכל מי שמשתמש בכלים האלו היום. אם תתייחסו ל-AI כאל מנוע חיפוש, אתם עלולים להתאכזב; הוא לא מחפש עובדות ב-database, אלא מייצר טקסט שנראה כמו עובדות על סמך הסתברות. זו הסיבה שמודלים יכולים לעשות hallucinate. הם תוכננו להיות רהוטים, לא בהכרח מדויקים. נתוני האימון מורכבים בדרך כלל מסריקה מאסיבית של האינטרנט הציבורי, כולל ספרים, מאמרים, קוד ופוסטים בפורומים. המודל לומד את מבנה השפה האנושית והלוגיקה של תכנות, אך גם סופג הטיות ושגיאות הקיימות במקורות אלו. קנה המידה של האימון הוא מה שגורם למערכות מודרניות להרגיש שונות מה-chatbots של העבר. מערכות ישנות הסתמכו על חוקים נוקשים, בעוד מודרניות מסתמכות על מתמטיקה גמישה. גמישות זו מאפשרת להן לטפל במשימות יצירתיות, קידוד ותרגום בקלות מפתיעה. עם זאת, המנגנון המרכזי נותר ניחוש מתמטי מתוחכם, לא תהליך חשיבה מודע.
הדרך שבה המודלים האלו מעבדים מידע עוקבת אחר מחזור ספציפי של שלושה שלבים:
- המודל מזהה תבניות ב-datasets עצומים.
- הוא מקצה משקלים ל-tokens שונים על סמך הקשר.
- הוא מייצר את המילה הבאה הסבירה ביותר ברצף.
הגיאוגרפיה החדשה של המחשוב
ההשפעה של הטכנולוגיה הזו אינה מופצת באופן שווה ברחבי העולם. אנחנו רואים ריכוז כוח מאסיבי בכמה מוקדים גיאוגרפיים. רוב המודלים המובילים מפותחים ב-United States או ב-China, מה שיוצר סוג חדש של תלות עבור מדינות אחרות. מדינות באירופה, אפריקה ודרום-מזרח אסיה מתווכחות כעת כיצד לשמור על ריבונות דיגיטלית. עליהן להחליט אם לבנות תשתית יקרה משלהן או להסתמך על ספקים זרים. עלות הכניסה גבוהה מאוד; אימון מודל ברמה הגבוהה ביותר דורש עשרות אלפי שבבים מיוחדים וכמויות אדירות של חשמל, מה שיוצר חסם לחברות קטנות ומדינות מתפתחות. קיימת גם סוגיית הייצוג התרבותי. מכיוון שרוב נתוני האימון הם ב-English, המודלים משקפים לעיתים קרובות ערכים ונורמות מערביים, מה שעלול להוביל ל-