למה הצ’אטבוט טועה?
מודלי שפה כמו צ'אט-GPT כפופים לעקרונות פעולה מסוימים שמקשים עליהם להתמודד עם משימות פשוטות לכאורה, כמו תרגילי חשבון או פתרון חידות

24 מאי 2025
|

4 דקות
|
מודלי שפה גדולים, כגון צ’אט-GPT, צברו פופולריות רבה בשנתיים האחרונות. הצלחתם קשורה במידה רבה ליכולת הגבוהה שלהם לענות על שאלות מורכבות, מתוך תחום רחב של נושאים, ולענות עליהן בשיח שנראה טבעי.
הצלחתם עשויה להיראות מפתיעה בהתחשב בצורת “החשיבה” שלהם, השונה מאוד מהאופן שבו אנחנו בני האדם חושבים ומתקשרים בינינו. למעשה, רק שאלה אחת מעניינת אותם: בהינתן רצף תווים או מילים, מה צפויים להיות התו הבא או המילה הבאה שיתאימו בצורה הטובה ביותר לתקשורת עם בני אדם? למשל, בבחינה של הרצף “בירתה של צרפת היא”, המודל יצפה את המילה “פריז” כהמשכו הסביר ביותר. את יכולת החיזוי הזאת השיג המודל בזכות אימון רב – חשיפה לכמות עצומה של טקסטים מרחבי האינטרנט. כך הוא למד להכיר מילים, לזהות את זיקתן למילים אחרות והתוודע לכללי התחביר והדקדוק של שפת בני האדם.
הבעיה מתחילה כששואלים אותו שאלה שהוא לא נתקל בה קודם. במקרים כאלה הוא עלול לחפף: להמציא עובדות שגויות או שקריות בעליל, לתת תשובה רהוטה אך ריקה מתוכן או סתם לברבר שטויות. למה זה קורה?
צורת "החשיבה" של הצ'אט שונה מאוד מהאופן שבו אנחנו בני האדם חושבים ומתקשרים בינינו. צ'אטבוט משוחח | Ikon Images / Liam Bardsley / Science Photo Library
לא בא בחשבון
שאלתי את צ’אט-GPT שאלת כפל שלא הייתה גורמת למחשבון כיס פשוט להניד דיודה: מכפלה של שני מספרים שלמים בני חמש ספרות – כמה זה 46,757 כפול 38,565. התשובה הנכונה היא 1,803,183,705. צ’אט-GPT ענה: 1,803,884,905 – מספר עם ארבע ספרות שגויות. למה בדיוק?
יש לפער הזה כמה סיבות. ראשית, המודל פשוט לא ראה מספיק דוגמאות לחישובים כאלה. כשחוקרים ממכון אלן לבינה מלאכותית אימנו מודל שפה על מאגר של חישובי כפל קצרים, הוא השתפר מאוד והצליח יפה לאחר מכן בחיזוי תשובות לבעיות דומות.
בנוסף, המודל מבוסס על טקסט ולא מבצע חישובים מתמטיים כמו שעושה מחשבון כיס. אין לו אפילו זיכרון שהוא יכול לשמור בו תוצאות ביניים. כשצ’אט-GPT מקבל שאלה כזאת, הוא קורא את המספרים כתווי טקסט רגילים, בדיוק כמו אותיות וסימני פיסוק. את הטקסט כולו הוא מחלק ליחידות קצרות של מילים או חלקי מילים שנקראות בעברית תַמְנִיוֹת או אסימונים (tokens). כל יחידה כזאת מומרת, לפי ההקשר, לביטוי מספרי שקרוי וקטור, ושאר מלאכת העיבוד תיעשה עליו. אפילו פעולת הכפל עצמה מומרת מטקסט לווקטורים. בסופו של דבר, אחרי אי אלו פעולות של עיבוד וקטורי במטרה לחזות את הצירוף הסביר ביותר, המודל ימיר את הווקטור שיתקבל בחזרה לטקסט – במקרה הזה סְפרוֹת.
צ'אט-GPT מתקשה בכפל ארוך
הבית של הזברה
חידת הזברה, שמוכרת גם כחידת איינשטיין אף על פי שאין לה שום קשר לאלברט איינשטיין, היא סוג של אתגר מחשבתי שפתרונו המלא מחייב חלוקה לתת-בעיות והיסקים לוגיים. החידה מתחילה בהצגת שורה של נתונים כמו “הבריטי גר בבית האדום”, “הנורבגי שותה מים” ו”האיש שגר בבית האמצעי מגדל חתולים”. שקלול מושכל של כל הפרטים יחד יספק את התשובה לשאלה מסוימת – למשל “מיהו זה שמגדל זברה?”
בעיות כאלה שימשו לאורך השנים לבחינת רמת התחכום של אלגוריתמים. גם כאן, הצ’אטבוטים נוטים להתקשות במציאת הפתרון לחידה, בשל הפן המתמטי-לוגי של הבעיה. כל עוד הבעיה נשארת פשוטה וכוללת בית אחד או שניים, המודל מצליח לא רע בפתרונה, אך כשמספר הבתים גדל והפתרון נהיה מסובך יותר, המודל נכשל.
כשאדם מנסה לפתור בעיה כזאת הוא ישתמש בדרך כלל בטבלאות או בשרטוטים שיעזרו לו לארגן את המידע ואת המסקנות שהוא מסיק ממנו ולתעד אותו בכתב. למודל אין זיכרון עבודה כזה, ועבור כל מילה או צירוף של תווים כתובים הוא מחזיק וקטור שמייצג אותה ושמשתנה במהלך פעולות העיבוד. כשהמודל מנתח את השאלה הוא בוחן את כל הקשרים והזיקות בין מילה אחת לשכנותיה ומייצג את הנתונים האלה בווקטור שלה. אם הוא מנסה להשלים את המשפט “בירתה של צרפת היא”, הוא בוחן רק את הווקטור של המילה האחרונה – “היא”. ההקשר של המילה, כלומר המשפט המלא, כבר מגולם בווקטור של המילה הזאת.
למה זה משנה? ברצף של רמזים, אומנם כל ההקשר מוכל בווקטור של המילה האחרונה, אך לא בצורה מאוזנת – המידע המאוחר מקבל משקל רב יותר מהמידע שקדם לו. לכן הרמזים הראשונים, למרת חשיבותם המכרעת לפתרון החידה, ייתקלו בהתעלמות מלאה או חלקית ולא ישוקללו נכון בתשובה.
סוג של אתגר מחשבתי שפתרונו המלא מחייב חלוקה לתת-בעיות והיסקים לוגיים. החידה שואלת מיהו זה שמגדל זברה | ליאת פלי באמצעות DALL-E
מכנה משותף
למרות הדמיון הרב בין מודלי השפה הגדולים, כמו שימוש ברצפי אותיות ותווים, המרתם לערכים מספריים (וקטורים) וחישוב הזיקה בין מילים, יש ביניהם גם הבדלים מהותיים. על כן חלק מההסבר שנתתי אומנם נכון לתפקודו של צ’אט-GPT, אך לא בהכרח מייצג את כל מודלי השפה האחרים.
עם זאת, הקשיים הללו נכונים לרוב המודלים. חלקם מנסים להתגבר על השכחה שלהם בעזרת מנגנונים שמשמרים את החשיבות של רצפים קודמים או באמצעות אימון על מאגר של דוגמאות שבהן פתרון הבעיה דורש להשתמש גם במידע הכי חדש וגם בפריטי מידע ישנים יותר. דרך החשיפה למספיק דוגמאות המודל לומד להתמודד עם הקושי.
נכון להיום הציפייה היא שכלי הבינה המלאכותית שהגיחו לחיינו בשנתיים האחרונות ימשיכו להשתכלל ויתפסו מקום יותר ויותר מרכזי ודומיננטי בעולמות האינטרנט והמחשבים ובתפקוד החברה האנושית. כפי שקורה כמעט בכל מהפכה טכנולוגית משמעותית, יש גם מי שמנבאים שהבינה המלאכותית תתפוס את מקומנו, בני האדם. יהיה אשר יהיה אופן החיבור שלה לחיינו, חשוב מאוד שנבין איך פועלים המודלים של בינה מלאכותית, ובעיקר – מה המגבלות שלהם.