מה המשמעות של ערכים אנושיים בעידן ה-AI?
המיתוס של קוד ניטרלי
השיח סביב בינה מלאכותית מתמקד לרוב במדדים טכניים ובכוח עיבוד. אנחנו מדברים על פרמטרים ועל פטה-בייטים כאילו אלו המדדים היחידים שקובעים. המיקוד הזה מסתיר מציאות דחופה הרבה יותר. כל מודל שפה גדול הוא מראה של ההעדפות האנושיות שעיצבו אותו. אין דבר כזה אלגוריתם ניטרלי. כאשר מערכת מספקת תשובה, היא לא שואבת אותה מוואקום של אמת אובייקטיבית. היא משקפת קבוצה ספציפית של ערכים משוקללים שנקבעו על ידי מפתחים ומסמני נתונים. השורה התחתונה פשוטה: אנחנו לא מלמדים מכונות לחשוב, אנחנו מלמדים אותן לחקות את הנורמות החברתיות הספציפיות, ולעיתים הסותרות, שלנו. המעבר הזה מלוגיקה לאתיקה הוא השינוי המשמעותי ביותר במחשוב מאז המצאת האינטרנט. הוא מעביר את נטל האחריות מהחומרה אל בני האדם שמגדירים איך נראית תשובה נכונה.
התעשייה עברה לאחרונה מיכולות גולמיות לבטיחות והלימה (alignment). זה נשמע כמו התאמה טכנית, אבל מדובר בתהליך פוליטי עמוק. כשאנחנו מבקשים ממודל להיות מועיל, לא מזיק וכנה, אנחנו משתמשים במילים שיש להן משמעויות שונות בתרבויות שונות. ערך שנראה אוניברסלי בחדר ישיבות בסן פרנסיסקו עשוי להיתפס כפוגעני או לא רלוונטי בג'קרטה. המתח בין קנה מידה גלובלי לערכים מקומיים הוא הקונפליקט העיקרי בטכנולוגיה המודרנית. עלינו להפסיק לראות ב-AI כוח אוטונומי ולהתחיל לראות בו שלוחה ערוכה של כוונה אנושית. זה דורש להסתכל מעבר להייפ השיווקי כדי לראות את הבחירות האמיתיות שנעשות מאחורי הקלעים.
המראה המכנית של בחירה אנושית
כדי להבין איך ערכים נכנסים למכונה, צריך להסתכל על Reinforcement Learning from Human Feedback, או RLHF. זהו התהליך שבו אלפי קבלנים אנושיים מדרגים תגובות שונות של מודל. הם עשויים לראות שתי גרסאות של תשובה וללחוץ על זו שהם מוצאים מנומסת או מדויקת יותר. עם הזמן, המודל לומד לשייך דפוסים מסוימים להעדפות אנושיות אלו. זה לא חיפוש אחר האמת, זה חיפוש אחר אישור. המודל מאומן בעצם לרצות את המעריכים האנושיים שלו. זה יוצר חזות של מוסר שהיא למעשה רק קירוב סטטיסטי של מה שקבוצת אנשים מסוימת אוהבת לשמוע.
התהליך הזה מכניס כמות עצומה של סובייקטיביות. אם רוב המסמנים מגיעים מדמוגרפיה ספציפית, המודל יאמץ באופן טבעי את הסלנג, הרמזים החברתיים והטיות פוליטיות של אותה קבוצה. זו הסיבה שגרסאות מוקדמות של מודלים פופולריים התקשו בהקשרים לא-מערביים. הם לא היו מקולקלים, הם פשוט עבדו בדיוק כפי שאומנו. הם שיקפו את הערכים של האנשים שקיבלו תשלום כדי לדרג אותם. זהו השכבה שבה מושגים מופשטים כמו הגינות והטיה הופכים לשורות קוד קונקרטיות. זהו תהליך ידני ועתיר עבודה שקורה הרבה לפני שהציבור רואה ממשק צ'אט. זו התשתית הבלתי נראית של הבינה המודרנית.
הבלבול שרוב האנשים מביאים לנושא הזה הוא הרעיון של-AI יש מצפן מוסרי פנימי. אין לו. יש לו פונקציית תגמול (reward function). כאשר מודל מסרב לענות על שאלה, זה לא בגלל שהוא