דף הביתחדשות וטרנדים בעזרת AIמעבר למודלים גדולים יותר: רקורסיה כחוק הסקלינג הבא ב-AI

מעבר למודלים גדולים יותר: רקורסיה כחוק הסקלינג הבא ב-AI

מעבר למודלים גדולים יותר: רקורסיה כחוק הסקלינג הבא ב-AI

The Pulse:

  • מודל TRM בן 7 מיליון פרמטרים השיג 87% על ARC Prize 1, בעוד o3 קיבל אפס על אותו בנצ'מארק בגרסה המוקדמת שנבדקה: פער ביצועים שמאתגר את ההנחה שגודל מודל שווה עוצמת חשיבה.
  • טרנספורמר עם 30 שכבות לא יכול למיין רשימה של 31 אלמנטים: מגבלה תיאורטית מוכחת: comparison sort דורש לפחות n log n צעדי השוואה, ו-LLM חד-כיווני פשוט נגמר לפני שמסיים.
  • שיטת Deep Equilibrium Learning של HRM מעבירה את אותו batch 16 פעמים עם hidden state שונה בכל פעם: יוצרת mini-batch וירטואלי בחלל הזיכרון במקום בחלל הקלט, עקרון שמאפשר backprop מבלי לאחסן מיליוני עותקי activations.

TL;DR: שני מחקרים מ-2025. HRM ו-TRM: מוכיחים שרקורסיה בזמן ההסקה (inference time) מניבה ביצועים עדיפים על הגדלת מודלים. מודל HRM בן 27 מיליון פרמטרים אומן על 1,000 משימות בלבד ללא pre-training והשיג כ-70% על ARC Prize 1. TRM צמצם זאת ל-7 מיליון פרמטרים וקפץ ל-87%. הרעיון המרכזי: חשיבה רקורסיבית בחלל הסמוי (latent space) מאפשרת עומק חישובי אמיתי ללא עומק פרמטרים.

7M פרמטרים, 87% דיוק

מודל TRM בן 7 מיליון פרמטרים עקף מודלים גדולים פי אלף על ARC Prize 1: ללא pre-training על הכלל.

המגבלה התיאורטית

טרנספורמר עם 30 שכבות לא יכול למיין 31 אלמנטים. זו לא בעיית אימון: זו מגבלת ארכיטקטורה מוכחת מתיאוריית המיון.

רקורסיה לעומת chain of thought

Chain of thought הוא רקורסיה בחלל הטוקנים: מוגבלת לידע אנושי קיים. רקורסיה בחלל הסמוי פועלת בממד רציף ועמוק יותר.

אימון על 16, בדיקה על 1

אימון TRM על 16 צעדי רקורסיה ובדיקה על צעד אחד בלבד שמר על רוב הביצועים: test-time compute פחות קריטי ממה שהניחו.

MLP עקף Attention בסודוקו

על בעיית Sudoku, רשת MLP פשוטה ביצעה טוב יותר ממנגנון ה-attention: ראיה שטרנספורמר אינו תמיד הארכיטקטורה הנכונה.

Google כבר בפנים

Google משלבת Recurrent Language Models בפיתוחיה: לפי Francois Chaubard, שילוב הרקורסיה עם LLMs גדולים כבר בתהליך.

המתח המרכזי שעולה ממחקרים אלה הוא בין שתי גישות שנחשבו בלתי-ניתנות לגישור: הגדלת מודלים כחוק הסקלינג הדומיננטי, לעומת עומק חישובי רקורסיבי כמנגנון חלופי. Francois Chaubard, visiting partner ב-YC, מציין שמודל TRM בן 7 מיליון פרמטרים פותר בעיות שמודל בן מאות מיליארדי פרמטרים מאומן על כל האינטרנט אינו יכול לפתור: ולא בגלל כמות הנתונים, אלא בגלל ארכיטקטורת החשיבה עצמה.

בשנת 2025, שני מחקרים. HRM (Hierarchical Reasoning Model) מצוות Sapien ו-TRM (Tiny Recursive Model) מאת Alexia: הציגו ראיות אמפיריות שרקורסיה בזמן ההסקה אינה תוספת שולית אלא מנגנון יסודי שמשנה את כללי המשחק. ההשלכות חורגות הרבה מעבר לבנצ'מארקים אקדמיים: הן מציבות שאלה ישירה לכל מי שמשקיע בתשתיות AI: האם הדרך קדימה עוברת דרך מודלים גדולים יותר, או דרך ארכיטקטורות חכמות יותר.

מדוע LLMs נכשלים בבעיות בלתי-דחיסות: והמגבלה התיאורטית שמאחורי זה

מודלי שפה גדולים נתקלים בחסם תיאורטי בסיסי: בעיות שדורשות רקורסיה אמיתית: כמו מיון, Sudoku ומבוכים: דורשות מספר צעדים חישוביים שגדל עם גודל הבעיה, אך טרנספורמר עם מספר שכבות קבוע לא יכול לבצע מספיק צעדים כדי להשלים את החישוב. זוהי לא בעיית הנדסה: זו מגבלה אלגוריתמית קשה.

כדי להבין את הבעיה, בואו נתחיל בדוגמה קונקרטית. רשימה של 31 אלמנטים שאתה צריך למיין דורשת לפחות n log n צעדי השוואה: כלומר בערך 155 השוואות בודדות. טרנספורמר עם 30 שכבות בלבד יכול לבצע 30 צעדי חישוב מקסימום. אפילו עם יותר שכבות, יש לך גבול קשה: כל שכבה נוספת מוסיפה פרמטרים ועלות חישובית ענקית, אך היא מוסיפה רק צעד חישובי אחד נוסף. זהו החסם של Francois Chaubard, YC visiting partner, שהצביע עליו בדיון על מגבלות ארכיטקטורת הטרנספורמר. בעיות אלו נקראות "בלתי-דחיסות" (incompressible problems): לא ניתן לדחוס את הפתרון לפחות מ-n log n צעדים, ולא משנה כמה גדול המודל שלך.

ההבדל בין chain of thought (שרשרת מחשבות) לבין רקורסיה בחלל הסמוי הוא קריטי כאן. כשמודל משתמש ב-chain of thought, הוא פולט טוקנים בחלל הדיסקרטי: המילים והסמלים שאנחנו רואים. הוא לא יכול "לחשוב" בתוך עצמו; הוא חייב לפלוט כל צעד כדי שנוכל לראות אותו. זה אומר שהוא מוגבל לידע שכבר קיים בנתוני ההדרכה שלו. כפי שציין Ankit Gupta מ-YC, chain of thought הוא בעצם רקורסיה בחלל הטוקנים, לא בחלל הסמוי: ולכן הוא מוגבל לידע אנושי קיים. אם אתה מלמד מודל על bubble sort בלבד, הוא לא יגלה merge sort מחדש רק בגלל שהוא יכול לכתוב יותר טוקנים. הוא יעשה bubble sort, רק יותר לאט. לעומת זאת, רקורסיה בחלל הסמוי (latent space): בחלל המספרים הרציפים שבתוך המודל: מאפשרת חשיבה שאינה תלויה בטוקנים שהאדם יודע.

הטריק שמאפשר לטרנספורמר להיראות כאילו הוא עושה רקורסיה הוא tool use: כלומר, קריאה לפונקציה חיצונית כמו Python's sort(). אבל זה פתרון שלא יכול להיות כללי. אם אתה לא יודע שהפונקציה קיימת, המודל לא יוכל לגלות אותה. זה הבדל עמוק: LLMs יכולים להעתיק דפוסים מהנתונים, אך הם לא יכולים להמציא אלגוריתמים חדשים מעקרונות ראשונים. זוהי המגבלה המרכזית שהיא מניעה את כל המחקר על HRM ו-TRM.

הגישה המקובלת פרספקטיבת יעקב אברהמוב (מהטרנסקריפט)
הגדלת המודל: יותר שכבות, יותר פרמטרים: תפתור בעיות חישוביות עומק פרמטרים לא שווה לעומק חישובי; רקורסיה בזמן הסקה (inference time) נותנת עומק חישובי ללא הוספת מיליארדים של פרמטרים
Chain of thought מספיק לחשיבה מורכבת Chain of thought הוא רקורסיה בחלל הטוקנים בלבד: הוא מוגבל לידע שהמודל כבר ראה בנתוני האימון
בעיות כמו Sudoku ומיון דורשות מודלים ענקיים מודל 7 מיליון פרמטרים עם רקורסיה בחלל סמוי עדיף על מודל גדול פי אלף ללא רקורסיה
זיכרון חיצוני (tool use) הוא פתרון כללי Tool use עובד רק אם המודל כבר יודע שהכלי קיים; הוא לא יכול להמציא אלגוריתמים חדשים
הטרנספורמר הוא ארכיטקטורה אופטימלית לכל משימה אדריכלות רקורסיביות יכולות להיות יעילות יותר לבעיות בלתי-דחיסות, ואפילו MLPs פשוטים יכולים להביס attention בחלק מהמקרים

המגבלה הזו קשורה לתיאוריה של מכונות טיורינג ותורת המורכבות החישובית. מכונה בעלת מספר מצבים קבוע (כמו טרנספורמר עם מספר שכבות קבוע) לא יכולה לפתור כל בעיה שדורשת מספר צעדים משתנה. זה לא בעיה של "עדיין לא מצאנו את ההדרכה הנכונה": זו בעיה של "הארכיטקטורה לא יכולה לבצע את החישוב הזה". כאשר אתה מדבר על בעיות בלתי-דחיסות, אתה מדבר על בעיות שלא ניתן לדחוס מתחת לגבול תיאורטי של n log n או n צעדים. Sudoku היא דוגמה מושלמת: אתה לא יכול לנחש כל ריבוע בו זמנית. אתה חייב לנחש אחד, לבדוק אם זה עקבי, ואז להשתמש בידע זה כדי לנחוש את הבא. זהו תהליך רקורסיבי בעצמו, ודורש עומק חישובי משתנה בהתאם לקושי הפאזל.

התובנה המרכזית: בעיות בלתי-דחיסות חושפות חסם קשה בטרנספורמרים סטנדרטיים: הם יכולים לבצע forward pass אחד בלבד, ובמהלכו חייבים לבצע את כל החישובים הדרושים. לא ניתן "לחשוב יותר" על ידי הוספת שכבות, מכיוון שכל שכבה היא צעד חישובי אחד בלבד. רקורסיה בזמן הסקה מעקפת את הבעיה הזו על ידי אפשרות לאותו מודל לרוץ מספר פעמים, תוך שימוש בחלל סמוי רציף כדי לאחסן ולעדכן מידע בין איטרציות: בדיוק כמו tape של מכונת טיורינג.

HRM: ארכיטקטורת שלושת לולאות הרקורסיה ושיטת האימון שפתרה את בעיית ה-backprop

HRM משתמש בשלוש רמות רקורסיה מקוננות: נמוכה, גבוהה וחיצונית: כדי לעדכן מצב סמוי (hidden state) בחלל רציף ללא backpropagation through time מלא. הטריק המרכזי הוא Deep Equilibrium Learning: במקום לתרגל את כל צעדי הרקורסיה בחזרה לתחילת הרשת, המודל לוקח את אותו batch של נתונים ומעביר אותו 16 פעמים דרך הרשת עם מצבים סמויים שונים. כל מעבר נחשב כ"batch וירטואלי" בחלל הזיכרון, מה שמאפשר לרשת להתאמן ללא הבעיות של vanishing gradients שהטרידו RNNs קלאסיים.

כדי להבין את המנגנון, צריך להתחיל עם הבעיה שהוא פותר. כפי שהסביר Francois Chaubard מ-YC, בעיות כמו מיון רשימה של 31 אלמנטים דורשות לפחות n log n צעדי השוואה: כלומר כ-155 צעדים. אם טרנספורמר קלאסי בן 30 שכבות מנסה לפתור את זה, הוא פשוט נגמר לפני שמסיים את ההשוואות הנדרשות. זוהי מגבלה תיאורטית קשה: אין מספיק "עומק חישובי" בmultiple passes. HRM פותר את זה על ידי הוספת עומק חישובי בזמן ההסקה (inference time): לא על ידי הוספת שכבות פרמטרים, אלא על ידי הפעלת אותה רשת שוב ושוב על מצבים סמויים שונים.

ארכיטקטורת HRM מורכבת משלוש לולאות רקורסיה מקוננות. הלולאה התחתונה (TL: "low level") מעדכנת משתנה סמוי בשם Z_L (carrying variable) TL פעמים. לאחר מכן, הלולאה הגבוהה (TH: "high level") משתמשת ב-Z_L כדי לעדכן משתנה סמוי גבוה יותר בשם Z_H, וזה קורה TH פעמים. לבסוף, הלולאה החיצונית (N_outer: "outer refinement") חוזרת על כל התהליך N_outer פעמים. כל לולאה משתמשת באותם משקלים (weights): זה מה שהופך את זה לרקורסיה. Ankit Gupta מ-YC הדגיש שלא מדובר בשכבות שונות אלא בהפעלה חוזרת של אותו מודול עם מצב שונה. הביו-אינספירציה כאן היא שהמוח האנושי פועל בתדרים שונים בהיררכיות שונות: חלקים מסוימים עובדים במהירות גבוהה, אחרים בנמוכה: והיא משפיעה על האופן שבו הרשת מעדכנת את המצב הסמוי שלה.

אבל הטריק האמיתי: זה שמעניין יותר מהארכיטקטורה עצמה: הוא איך אימנו את המודל. Alex Graves בעבודתו על Neural Turing Machines ו-Adaptive Compute Time עשה backpropagation through all the recursion steps. זה אומר שאם הלולאה החיצונית רצה 16 פעמים, הוא היה צריך לחשב gradients דרך כל 16 המעבורים. זה יוצר בעיות עצומות: אתה צריך לשמור את כל ה-activations בזיכרון, gradients מתחזקים או מתחלשים ככל שאתה חוזר לאחור, וזה בסך הכל לא מדרג. HRM השתמש בשיטה שנקראת Deep Equilibrium Learning (DEQ). הרעיון: במקום לתרגל את כל הצעדים בחזרה, תעביר את אותו batch נתונים דרך הרשת 16 פעמים, כל פעם עם מצב סמוי שונה (Z_L ו-Z_H מתחדשים, אבל X הקלט נשאר זהה). כל מעבור, אתה עושה backpropagation רק דרך שתי הלולאות התחתונות (TL ו-TH): פעם אחת: ואז עוצר (stop-grad). אתה לא חוזר לאחור דרך כל 16 הקריאות החוזרות.

זה נראה לא הגיוני, אבל זה עובד. ההסבר המתמטי: כל מעבור דרך אותו batch עם מצב סמוי שונה נראה כמו batch שונה לחלוטין לרשת. אתה בעצם יוצר mini-batches וירטואליים בחלל הזיכרון, לא דרך דטה שונה אלא דרך hidden states שונים. הרשת לומדת לעדכן את Z_L ו-Z_H בדרך שמביאה להתכנסות (convergence): כלומר, residuals הופכים קטנים יותר ויותר קטנים עם כל מעבור. Francois Chaubard הסביר שזה מחזה כמו expectation-maximization: בכל מעבור, אתה מעדכן את Z_L (המצב הנמוך) בהתאם ל-X והמצב הגבוה הקודם, ואז מעדכן את Z_H בהתאם ל-Z_L החדש. זה כמו לנחש, לבדוק, לעדכן, ולנחוש שוב.

התוצאות היו דרמטיות. HRM, מודל של 27 מיליון פרמטרים בלבד, אומן על 1,000 משימות בלבד (Sudoku, מבוכים, ARC Prize): ללא pre-training, ללא fine-tuning על מודל גדול קיים. הוא השיג ~70% על ARC Prize 1. לשם השוואה, o3 (מודל של OpenAI שהיה הרבה יותר גדול) קיבל אפס על ARC Prize בגרסה המוקדמת שנבדקה. זה לא סתם טוב: זה היה state-of-the-art בזמן הפרסום.

אבל הייתה בעיה: Alexia (מחברת ה-TRM) גילתה שהמתמטיקה של DEQ כפי שהיא מתוארת: ש-residuals צריכים להתכנס לאפס: היא לא בדיוק מה שקורה. Z_L ו-Z_H לא מתכנסים לאפס. הם רק מתכנסים לחלק מהערך שלהם. זה אומר שהמתמטיקה של DEQ לא מסבירה למה זה עובד. אבל זה עדיין עובד. הבעיה הזו הובילה אותה לגישה שונה ב-TRM, שבה היא עושה backpropagation דרך לולאת רקורסיה שלמה אחת (לא רק דרך שתי הלולאות הנמוכות), וזה שיפר את הביצועים עוד יותר.

התובנה המרכזית: HRM הוכיחה שאתה יכול להשיג ביצועים מדהימים בבעיות בלתי-דחיסות (incompressible problems) כמו Sudoku ו-ARC Prize עם מודל קטן יחסית אם אתה מאפשר לו לחשוב רקורסיבית בחלל הסמוי: וה-trick של Deep Equilibrium Learning מאפשר לך לאמן את זה ללא בעיות backprop through time שהטרידו RNNs לעשור שלם.

TRM: פישוט רדיקלי שמניב 87% על ARC Prize עם 7 מיליון פרמטרים בלבד

התשובה הישירה: Alexia לקחה את ארכיטקטורת HRM של 27 מיליון פרמטרים ופישטה אותה באופן רדיקלי: איחדה את שתי הרשתות (LNet ו-HNet) לרשת אחת עם שיתוף משקולות, הצטמצמה לשכבת טרנספורמר יחידה במקום ארבע, וביצעה backprop דרך לולאת רקורסיה שלמה אחת במקום שתי לולאות נפרדות. התוצאה: מודל של 7 מיליון פרמטרים בלבד השיג 87% על ARC Prize 1: קפיצה של 17 נקודות אחוז מ-70% של HRM, עם ביצועים טובים גם על ARC Prize 2. זה מוכיח שהרקורסיה, לא גודל המודל, היא הליבה של הנמקה יעילה.

הפישוט של TRM אינו פשוט עניין של מחיקת קומפוננטים. זה שינוי אדריכלי עמוק שחושף אילו חלקים של HRM היו באמת קריטיים. Francois Chaubard הסביר שהתגלית המרכזית של Alexia הייתה שה-outer refinement loop: הלולאה החיצונית שחוזרת על כל התהליך מספר פעמים: היא מה שמניע את הביצועים. Constantine, מחוקר בחברתו של Fronto Chalet, ערך ablation studies מפורטים שהראו שהלולאה החיצונית הזו היא המנוע האמיתי. Alexia לקחה את התובנה הזו והחליטה: אם הלולאה החיצונית היא מה שחשוב, אולי אני יכול להסיר כל דבר אחר ולהשאיר רק את זה.

השינוי הטכני הראשון היה איחוד LNet ו-HNet. ב-HRM, היו שתי רשתות נפרדות: אחת לעיבוד ברמה נמוכה (local scope variables, ZL) ואחת לעיבוד ברמה גבוהה (Zh). ב-TRM, Alexia הראתה שאתה לא צריך שתי רשתות. רשת אחת יכולה ללמוד להפיק גם תכונות ברמה נמוכה וגם ברמה גבוהה: אתה פשוט צריך לשמור על שני hidden states נפרדים (ZL ו-Zh, או כפי שהיא קראתה להם בנייר, X ו-Y: מה שהוביל לבלבול מסוים בקריאת הנייר). בנוסף, היא צמצמה את עומק הטרנספורמר מ-ארבע שכבות ל-שכבה טרנספורמר אחת בלבד. זה אולי נראה כמו הפחתה קטנה, אבל זה הוביל לירידה דרמטית בספירת הפרמטרים.

החלק השני של השינוי היה בתהליך ה-backpropagation. ב-HRM, הם עשו backprop רק דרך שתי הלולאות התחתונות (TL ו-TH): הם עצרו את הגרדיינטים (stop-grad) לפני הלולאה החיצונית. זה היה תרגול פרקטי כדי להימנע מ-vanishing gradients. אך Alexia גילתה משהו נגד-אינטואיטיבי: אתה יכול בעצם לעשות backprop דרך לולאת רקורסיה שלמה אחת: כלומר, דרך כל הצעדים של ZL ו-Zh בתוך איטרציה אחת של הלולאה החיצונית. זה עדיין truncated backprop through time (בניגוד ל-backprop דרך כל 16 איטרציות של הלולאה החיצונית), אבל זה עמוק יותר מ-HRM. הפתעה: זה עבד טוב יותר. במילים אחרות, קצת יותר backprop דרך הרקורסיה הביא לשיפור משמעותי בביצועים.

הניסוי שנערך על תהליך האימון חושף גם תובנה חשובה על compute time בבדיקה. Alexia אימנה את המודל על 16 צעדי outer refinement, אבל בבדיקה היא בדקה מה קורה אם היא משתמשת בצעד אחד בלבד. התוצאה: היא קיבלה כ-70% מהביצועים המלאים עם צעד בדיקה יחיד. זה אומר שרוב הביצועים הגבוהים מגיעים מהאימון עצמו, לא מ-test-time compute. זה סותר את ההנחה הנפוצה שאתה צריך הרבה compute בזמן בדיקה כדי להשיג תוצאות טובות. במילים אחרות, אתה יכול להשיג ביצועים קרובים לאופטימליים עם compute בדיקה מינימלי: זה יעיל מאוד.

היבט מעניין נוסף: MLP לעומת Transformer. ב-Sudoku, Alexia בדקה אם היא באמת צריכה שכבת Transformer. התשובה הייתה לא. MLP בלבד עלה על Transformer ב-Sudoku. אך ב-maze, ה-MLP קיבל אפס: זה לא יכול להתמודד עם הבעיה. זה מראה שלא תמיד Transformer הוא הבחירה הטובה ביותר. הבעיה עצמה קובעת איזו ארכיטקטורה מתאימה. זה שיעור חשוב: לא כל בעיה דורשת attention mechanism. לפעמים ניתן אפילו להשתמש בארכיטקטורה פשוטה יותר ולקבל תוצאות טובות יותר.

התובנה המרכזית: TRM מוכיח שרקורסיה בחלל סמוי (latent space) הוא הגורם הקובע לביצועים, לא גודל המודל: מודל קטן פי 4 עם רקורסיה עמוקה יותר מנצח מודל גדול פי 4 ללא רקורסיה עמוקה על בעיות בלתי-דחיסות כמו ARC Prize.

המשמעות האסטרטגית: שילוב רקורסיה עם LLMs גדולים: לאן זה הולך

מודל TRM של 7 מיליון פרמטרים השיג 87% על ARC Prize, בעוד מודלים בני מיליארדים נכשלים בבעיות בלתי-דחיסות. השאלה המרכזית היא לא איך מגדילים מודלים, אלא איך משלבים חשיבה רקורסיבית בחלל הסמוי (latent space) עם יכולות ההטמעה (embedding) של LLMs ענקיים. זה לא שתי אסטרטגיות מתחרות: זה שתי שכבות שצריכות לעבוד ביחד.

הבעיה הקריטית שעומדת בפנינו היא זו: TRM ו-HRM הם מודלים ספציפיים למשימה. מודל שאומן על Sudoku לא יכול לפתור ARC Prize ללא אימון ספציפי על סט הנתונים של ARC. זה בניגוד חד לLLMs, שמאומנים על מיליארדי טוקנים ויכולים להתמודד עם משימות חדשות דרך in-context learning או fine-tuning קל. כאן טמון הפער: אנחנו יודעים שרקורסיה בחלל הסמוי עובדת, אבל היא דורשת התאמה לכל בעיה. איך מחליצים מצב זה?

Jürgen Schmidhuber, מחקר שנים רבות, טוען שרקורסיה היא הכרחית ל-AGI. בנאום הNeurIPS keynote של Alex Graves בשנת 2016, הוא הציג את עבודתו על Adaptive Computation Time: מודל שלומד כמה צעדים חישוביים הוא צריך לבצע לכל קלט. זה היה קדום, אבל נתקל במגבלות backprop through time. כיום, Google כבר משלבת Recurrent Language Models בתוך המערכות שלה, כפי שציין Francois Chaubard. זה אומר שהתעשייה כבר מבינה שהעתיד הוא לא רק מודלים גדולים יותר: זה מודלים שחושבים בעומק.

Melanie Mitchell, חוקרת שכתבה על התופעה של סקלינג AI, הצביעה על משהו קריטי: לא הכרחי להגדיל מודל כדי לשפר ביצועים. זה לא טריוויאלי. כל תעשיית ה-AI בחמש השנים האחרונות התמקדה בהנחה שגודל = כוח. אבל TRM הוכיחה שעומק חישובי (computational depth): רקורסיה בזמן הסקה: יכול להחליף עומק פרמטרים (parameter depth). זה משנה משחק אם אתה מדבר על עלויות אימון, עלויות הסקה, וצריכת זיכרון.

כאן מתחיל ההתרחשות האמיתית: אם אתה משלב TRM עם LLM גדול, אתה מקבל את הטוב ביותר משני העולמות. ה-LLM מספק embedding space עשיר: ייצוג סמוי של משמעות, שיח, ודומיין-ידע. ה-TRM מספק חשיבה רקורסיבית בתוך המרחב הזה. במקום שה-LLM פשוט יוציא טוקן, הוא יכול להשתמש במנגנון רקורסיבי כדי לחשוב בעומק על בעיה קשה: הכל בתוך המרחב הסמוי, לא בחלל הטוקנים. זה אומר שאתה מקבל את היתרונות של chain of thought (יכולת לפתור בעיות מורכבות) אבל ללא מגבלות chain of thought (תלות בידע אנושי קיים, בזבוז של טוקנים, חוסר יכולת לגלות אלגוריתמים חדשים).

הנקודה המעשית: אם אתה בונה סוכן (agent) או מערכת חשיבה (reasoning system) עבור בעיות שדורשות חשיבה: optimization, planning, constraint satisfaction, או בעיות חדשות שלא נראו בנתוני ההדרכה: אתה צריך לחשוב על איך לשלב רקורסיה בחלל הסמוי של ה-LLM שלך. זה לא עוד שנתיים משם. Google כבר עושה את זה. OpenAI כנראה עושה את זה. Anthropic בודקת את זה. הבחירה שלך היא לא אם לעשות את זה, אלא איך ומתי.

התובנה המרכזית: TRM הוכיחה שמודל של 7 מיליון פרמטרים עם רקורסיה בזמן הסקה יכול להביס מודלים גדולים פי אלף: זה אומר שהגדלת מודלים בלבד היא דרך מבוזבזת וקוסטלית לשיפור ביצועים, ושילוב עומק חישובי עם embedding spaces של LLMs גדולים יהפוך את ארכיטקטורת ה-AI בשנים הקרובות.

שאלות נפוצות

מה ההבדל בין chain of thought לבין רקורסיה בחלל הסמוי: ולמה זה חשוב בפועל?

Chain of thought הוא רקורסיה בחלל הטוקנים: המודל מוציא פלט בדיסקרטי, קורא אותו, ומוציא פלט נוסף. זה אומר שכל "צעד חשיבה" חייב להיות מיוצג כטוקן: מילה, ספרה, סימן. הבעיה: הייצוג הדיסקרטי מגביל את העושר המידעי. חלל הסמוי הרציף של TRM ו-HRM, לעומת זאת, מאפשר לשמור מצב ביניים בממדיות גבוהה בהרבה מבלי לכווץ אותו לטוקן. Francois Chaubard מדמה זאת לסרט קלטת של מכונת טיורינג לעומת רשימת מילים כתובות: הראשון מאפשר חישוב שהשני לא יכול לייצג. ההשלכה המעשית: chain of thought כלוא בגבולות הידע האנושי שהמודל אומן עליו, בעוד רקורסיה בחלל הסמוי יכולה לגלות אלגוריתמים שלא קיימים בנתוני האימון.

האם TRM ו-HRM יכולים לעבוד על בעיות מעולם העסקים הישראלי, או שהם מוגבלים למשימות מחקריות?

כרגע, TRM ו-HRM הם מודלים ספציפיים למשימה: מודל שאומן על Sudoku לא יכול לפתור ARC Prize ללא אימון ייעודי נוסף. זאת מגבלה מהותית לשימוש עסקי כללי. עם זאת, הרעיון המרכזי: שילוב רקורסיה בחלל הסמוי עם מרחבי ה-embedding של LLMs גדולים: הוא בדיוק הכיוון שאליו מצביע Francois Chaubard: לקחת את יכולת הייצוג הסמנטי של מודלים כמו Gemini של Google, ולהוסיף מעליו מנוע חשיבה רקורסיבי קטן ויעיל. עבור עסקים ישראליים, הפוטנציאל הממשי יתממש כשארכיטקטורות היברידיות כאלה יגיעו לשלב מוצר: ולא בשלב המחקרי הנוכחי. בינתיים, ה-insight המעשי הוא לעקוב אחרי Recurrent Language Models של Google כאינדיקטור לקצב האימוץ המסחרי.

מה הן "בעיות בלתי-דחיסות" (incompressible problems) ואיך מזהים אותן בפרקטיקה?

בעיה בלתי-דחיסה היא בעיה שבה אי אפשר לקצר את מספר הצעדים החישוביים הנדרשים: כל קיצור מוביל לשגיאה. Sudoku הוא דוגמה קלאסית: לא ניתן לנחש את כל התאים בו-זמנית, כי כל תא תלוי במידע שמתגלה רק לאחר מילוי תאים אחרים. מיון השוואתי הוא דוגמה נוספת: הגבול התחתון המוכח הוא n log n צעדים, ומי שמנסה לעשות פחות מוציא תוצאה שגויה. בפרקטיקה עסקית, ניתן לזהות בעיות כאלה לפי שלוש תכונות: (א) הפתרון תלוי בגילוי מידע איטרטיבי במהלך הפתרון עצמו, (ב) אין "קיצור דרך" שמוכח תיאורטית, (ג) גודל הבעיה קובע ישירות את מינימום הצעדים. תכנון לוגיסטי מורכב, אופטימיזציית לוחות זמנים עם תלויות, ופתרון אילוצים מרובים: כולם נמצאים בקטגוריה זו ויכולים ליהנות מארכיטקטורות רקורסיביות כשאלה יבשילו לשימוש מסחרי.

מדוע אימון על 16 צעדים ובדיקה על צעד אחד בלבד שומר על רוב הביצועים: והאם זה אומר ש-test-time compute פחות חשוב ממה שחשבו?

הממצא הזה, שאומת על ידי Constantine בניתוח ה-scaling ablations שלו, מפתיע כי הוא מנוגד לאינטואיציה: נדמה שיותר חישוב בזמן הסקה אמור להניב תוצאות טובות יותר. ההסבר האפשרי הוא שרוב "העבודה הקוגניטיבית" מתרחשת בזמן האימון: המודל לומד אלגוריתם פנימי שמאוחסן במשקולות, ולא תלוי בחזרות רבות בזמן הסקה. ההשלכה המעשית חשובה: מודלים רקורסיביים עשויים להיות יעילים הרבה יותר בזמן ריצה מאשר גישות כמו o3 שמסתמכות על חיפוש נרחב בזמן הסקה. עם זאת, Chaubard מציין שלבעיות מורכבות יותר, test-time compute נוסף עדיין רלוונטי: הממצא מגביל את הטענה ולא שולל אותה לחלוטין.

מה ההשלכות של גילוי ש-MLP עולה על attention ב-Sudoku אך מכסה אפס על מבוך?

הממצא של Alexia שה-MLP (רשת נוירונים צפופה ללא מנגנון attention) מביס את הטרנספורמר ב-Sudoku אך מקבל אפס על maze, מלמד שיחס הגומלין בין ארכיטקטורה לבעיה עמוק יותר ממה שנהוג לחשוב. Sudoku הוא בעיה של אילוצים מקומיים: כל תא מושפע מהשורה, העמודה, והריבוע שלו בלבד. MLP מספיק לייצג את הלוגיקה הזו. מבוך, לעומת זאת, דורש מעקב אחרי מסלול גלובלי לאורך רצף: בדיוק מה ש-attention מיועד לו. המסקנה האסטרטגית: בחירת ארכיטקטורה לא צריכה להיות "טרנספורמר תמיד", אלא להיות מותאמת לסוג התלויות בבעיה. בהקשר של מוצרי AI עסקיים, זה אומר שמודל קטן ומותאם-בעיה יכול לעלות על מודל גנרי גדול: גם ביצועים וגם בעלות תפעול.

רוצה לדעת איפה האתר שלך עומד?

אנחנו מבצעים ניתוח SEO מקצועי בחינם. פנה אלינו בוואטסאפ עכשיו וקבל תמונת מצב מלאה של הנוכחות הדיגיטלית שלך: כולל המלצות מעשיות ליישום מיידי.

64% מחיפושי Google מסתיימים ללא קליק: בדוק שהאתר שלך נמצא במקום הנכון לפני שהתנועה עוברת לתחרות.

פנה אלינו

יעקב אברהמוב
יעקב אברהמובhttps://authorityrank.ai
יזם טכנולוגי ואדריכל תוכנה עם למעלה מ-20 שנות ניסיון בעולם הדיגיטלי. מייסד AuthorityRank — פלטפורמת AI להפיכת תוכן וידאו לבלוגים מדורגים. בעלים של YGL.co.il, מייסד Social-Ninja.co, ויוצר Swim-Wise. כותב על בינה מלאכותית, אסטרטגיית תוכן ושיווק דיגיטלי ב-AIBiz Magazine.
מאמרים קשורים

השאירו תגובה

אנא הזן את תגובתך
אנא הזן את שמך כאן

- Advertisment -
מקום ראשון בגוגל ובתשובות מנועי ה AI

הפופולריים ביותר

תגובות אחרונות