איך צוות של 7 אנשים שובר שיאים בבנצ'מרקים של AI

תובנות מרכזיות:
54% ביצועים ב-ARC AGI תוך שימוש ב-Gemini 3 Pro — שיפור של 9 נקודות אחוז מעל Gemini 3 Deep Think, ב-מחצית העלות ($32 לבעיה לעומת $70+)
שיפור עצמי רקורסיבי (Recursive Self-Improvement) מייצר מערכות הרנס שעובדות מעל כל מודל בסיס — ללא צורך באימון מחדש בכל שחרור גרסה
פחות מ-$100K לאופטימיזציה על Humanity's Last Exam (55% דיוק) — לעומת מאות מיליוני דולרים שנדרשים לאימון מודלי יסוד

תוכן עניינים

שיפור עצמי רקורסיבי כחלופה לפיין-טיונינג
שיאי בנצ'מרקים: ARC AGI ו-Humanity's Last Exam
למה הרנס מנצח פיין-טיונינג
ארכיטקטורת המטא-מערכת של Poetic
יישום עבור סטארטאפים: מתי להשתמש בהרנס
מסקנות אסטרטגיות

שיפור עצמי רקורסיבי כחלופה לפיין-טיונינג

Poetic בנתה מערכת שמייצרת הרנסים (Harnesses) — שכבות קוד, פרומפטים ודאטה שיושבות מעל מודלי שפה גדולים. ההבדל המהותי: במקום לאמן מודל חדש מאפס (שעולה מאות מיליוני דולרים ולוקח חודשים), המערכת הרקורסיבית של Poetic מייצרת מערכות שמשפרות את עצמן באופן אוטומטי. איאן פישר, ה-CEO, מסביר: "הרוב המכריע של הגישות שם בחוץ דורשות אימון של LLM חדש מאפס. זה עולה מאות מיליוני דולרים ולוקח חודשים. ואז Anthropic או OpenAI באים ופשוט אוכלים לך את הלאנץ' בשחרור המודל הבא."

הגישה של Poetic פותרת את הלקח המר (The Bitter Lesson) של ML: סטארטאפים שעושים פיין-טיונינג על GPT-3.5 מוצאים את עצמם מיושנים כשיוצא GPT-4. הרנס של Poetic, לעומת זאת, תואם באופן מושלם למודל החדש — ללא צורך בשינויים. המערכת יכולה להמשיך לבצע אופטימיזציה על המודל החדש ולייצר שיפור ביצועים נוסף, בעוד העלות נשארת זולה באופן דרמטי מפיין-טיונינג.

Strategic Bottom Line: אם אתה סטארטאפ שמשקיע במיליונים על פיין-טיונינג, אתה מהמר שהמודל הבא לא יעקוף אותך. עם הרנס רקורסיבי, אתה מחוסן מול שחרורי מודלים עתידיים.

שיאי בנצ'מרקים: ARC AGI ו-Humanity's Last Exam

בדצמבר האחרון, Poetic יצאה מ-Stealth Mode עם תוצאות על ARC AGI v2 — בנצ'מרק שנחשב לאחד המאתגרים ביותר ב-AI. Gemini 3 Deep Think הגיע ל-45% דיוק ב-$70+ לבעיה. יומיים לאחר מכן, Poetic פרסמה תוצאות של 54% דיוק ב-$32 לבעיה — שיפור של 9 נקודות אחוז ב-מחצית העלות. המערכת השתמשה ב-Gemini 3 Pro, מודל זול יותר, אך הרנס הרקורסיבי הצליח להוציא ממנו ביצועים עדיפים על Deep Think.

לאחרונה, Poetic הכריזה על 55% דיוק ב-Humanity's Last Exam — אוסף של 2,500 שאלות קשות שנכתבו על ידי מומחים בתחומים שונים, שנועדו לאתגר אפילו דוקטורנטים. Claude Opus 4.6 של Anthropic הגיע ל-53.1% שבוע קודם לכן. Poetic עקפה אותו ב-כמעט 2 נקודות אחוז — ועלות האופטימיזציה הייתה פחות מ-$100K. לשם השוואה, ריצת אימון של מודל יסוד עולה מאות מיליוני דולרים.

מדד	Gemini 3 Deep Think	Poetic (על Gemini 3 Pro)
ARC AGI v2 Accuracy	45%	54%
עלות לבעיה	$70+	$32
מודל בסיס	Gemini 3 Deep Think	Gemini 3 Pro (זול יותר)

Strategic Bottom Line: צוות של 7 אנשים מייצר תוצאות שמתחרות במודלים של OpenAI ו-Anthropic — ללא צורך בתקציבי אימון של Big Tech. זה מוכיח ש-הרנסים רקורסיביים הם יתרון תחרותי אמיתי.

למה הרנס מנצח פיין-טיונינג

פיין-טיונינג דורש איסוף של עשרות אלפי דוגמאות עבור הבעיה הספציפית שלך, ואז אימון של מודל קיים. העלות? מיליונים. הזמן? שבועות עד חודשים. התוצאה? מודל שעובד טוב יותר מהמקור — אבל כשיוצא מודל חדש, אתה צריך להתחיל מחדש. איאן פישר מתאר את התסריט: "אתה עשית פיין-טיונינג לפני 3 שנים על GPT-3.5, ואז GPT-4o יוצא ופשוט מפיל אותך. אתה הולך לעשות את זה שוב, או שאתה הולך לצאת מהעסק?"

הרנס של Poetic, לעומת זאת, הוא קוד, פרומפטים, ואסטרטגיות חשיבה שיושבות מעל המודל. כשמודל חדש יוצא, אותו הרנס תואם מיד — ואפילו מקבל שיפור ביצועים נוסף. המערכת יכולה להמשיך לבצע אופטימיזציה על המודל החדש, ללא צורך בהשקעה מחדש. בנוסף, העלות של יצירת הרנס היא זולה באופן דרמטי מפיין-טיונינג — Poetic הוציאה פחות מ-$100K על אופטימיזציה של Humanity's Last Exam, לעומת מאות מיליונים לאימון מודל חדש.

איאן מסביר את ההבדל בגישה: "אנחנו לא רואים במודלי היסוד כמתחרים. הם הקביים שאנחנו בונים עליהם. אבל אם לא היה לנו את השכבה הבסיסית הזו, Poetic לא הייתה יכולה להתקיים." הרנס הוא שכבת אינטליגנציה שמנצלת את המודל הבסיסי — לא מחליפה אותו.

Strategic Bottom Line: אם אתה בונה מוצר AI שדורש ביצועים עקביים לאורך זמן, הרנס רקורסיבי מבטיח שאתה תמיד מעל המודל הבסיסי — ללא תלות בשחרורים עתידיים.

ארכיטקטורת המטא-מערכת של Poetic

הטכנולוגיה המרכזית של Poetic היא המטא-מערכת (Meta System) — מערכת שמייצרת מערכות אחרות. הפלט של המטא-מערכת הוא הרנסים שפותרים בעיות קשות. איאן מתאר: "המטא-מערכת היא תהליך אופטימיזציה אוטומטי. היא יכולה לייצר מערכות אלה בצורה הרבה יותר אוטומטית — מה שאומר שאנחנו יכולים לעשות את זה הרבה יותר מהר וזול מאשר אם היית שוכר צוות בעצמך כדי לבנות את האג'נט שלך."

המערכת עובדת בצורה הבאה: היא מקבלת בעיה קשה (למשל, שאלה ב-Humanity's Last Exam), ואז מייצרת באופן אוטומטי קוד, פרומפטים, ואסטרטגיות חשיבה שפותרים אותה. התהליך כולל:

אופטימיזציה של פרומפטים: המערכת כותבת פרומפטים שלא בהכרח היו נכתבים על ידי בן אדם. איאן מספר על ARC AGI: "אפשר לקרוא את הפלטים ולהגיד — ובכן, זה לא מה שבן אדם היה כותב. יש שם דברים לא צפויים. המערכת עשתה דוגמאות פשוטות מאוד, ואחת הדוגמאות אפילו שגויה — אבל לא שינינו אותה. זה הפלט שהיא יצרה, אז השארנו את זה."
אסטרטגיות חשיבה (Reasoning Strategies): המערכת כותבת קוד שמגדיר איך המודל צריך לחשוב על הבעיה. בניסוי קודם ב-DeepMind, איאן הראה שאופטימיזציה ידנית של פרומפטים הביאה ל-5% ביצועים על בעיה קשה. כשהוסיפו אסטרטגיות חשיבה, הביצועים זינקו ל-95%.
Context Stuffing ו-Reranking: המערכת מחליטה באופן אוטומטי אם להוסיף יותר קונטקסט, לייצר דוגמאות, או לסדר מחדש את התוצאות — בהתאם לבעיה.

איאן מדגיש: "היסטורית ב-ML, הכלל תמיד היה שאתה חייב להכיר את ה-Dataset שלך ממש טוב. אבל עכשיו אנחנו מעבירים את זה ל-AI עצמו. תפקיד ה-AI הוא להבין את ה-Dataset ולמצוא איפה נקודות הכשל ואיפה האסטרטגיות החזקות."

Strategic Bottom Line: המטא-מערכת של Poetic היא מפעל לייצור אינטליגנציה — היא לא דורשת מהמשתמש להבין את הדאטה או לכתוב פרומפטים. היא עושה את זה בעצמה.

יישום עבור סטארטאפים: מתי להשתמש בהרנס

Poetic פותחת גישה מוקדמת לסטארטאפים שמתמודדים עם בעיות קשות שלא נפתרות על ידי מודלי שפה סטנדרטיים. איאן מסביר: "אם אתה סטארטאפ או חברה שיש לך בעיה ממש קשה, וניסית כל דבר שאתה יכול כדי לעשות אותה אמינה וחזקה, ואתה פשוט לא יכול להגיע לשם — אתה צריך משהו יותר — תספר לנו. אנחנו מחפשים בעיות כאלה."

התסריט האופייני: סטארטאפ שבנה אג'נט לתחום ספציפי (למשל, ניתוח משפטי, אבחון רפואי, או אופטימיזציה פינסית), אבל הביצועים לא מספיקים. במקום לאסוף עשרות אלפי דוגמאות ולעשות פיין-טיונינג (שעולה מיליונים), הם יכולים להביא את האג'נט ל-Poetic. המטא-מערכת תבצע אופטימיזציה על:

הפרומפטים — תשפר את האופן שבו המודל מקבל הוראות
אסטרטגיות החשיבה — תכתב קוד שמגדיר תהליכי חשיבה מתקדמים
כל האג'נט — תייצר הרנס חדש לגמרי שיושב מעל המודל הבסיסי

העלות? פחות מ-$100K לאופטימיזציה מלאה — לעומת מיליונים לפיין-טיונינג. והתוצאה? מערכת שתמיד תעבוד מעל המודל הבסיסי, גם כשיוצא מודל חדש.

איאן מדגיש את ההבדל: "אנחנו לא מבלים הרבה זמן בלהסתכל על הדאטה הספציפית שאיתה אנחנו עובדים. במקום זאת, אנחנו נותנים למטא-מערכת להסתכל על הדאטה הזו. אם היא חושבת שהיא צריכה לעשות יותר Context Stuffing, היא תעשה את זה. אם היא צריכה לייצר דוגמאות, היא תעשה את זה בשבילך."

Strategic Bottom Line: אם אתה סטארטאפ שמשקיע בפיין-טיונינג, אתה משקיע ב-תשתית שתתיישן. אם אתה משקיע בהרנס רקורסיבי, אתה משקיע ב-יתרון תחרותי מתמשך.

מסקנות אסטרטגיות

Poetic מוכיחה ש-שיפור עצמי רקורסיבי הוא לא רק תיאוריה — זה מציאות מסחרית. צוות של 7 אנשים מצליח להתחרות במודלי היסוד של OpenAI, Anthropic ו-Google — ללא תקציבי אימון של מאות מיליוני דולרים. המפתח: הם לא מנסים להחליף את המודלים האלה. הם בונים שכבת אינטליגנציה שיושבת מעליהם.

עבור סטארטאפים, המסר ברור: אל תשקיעו בפיין-טיונינג. השקיעו בהרנסים רקורסיביים שיישארו רלוונטיים גם כשיוצא המודל הבא. העלות נמוכה יותר, הזמן קצר יותר, והתוצאות עדיפות. והכי חשוב — אתם מחוסנים מול הלקח המר של ML.

איאן מסכם את הפילוסופיה: "העולם משתנה כל כך מהר. זה כנראה קצת ברור, אבל אתה פשוט צריך לנסות דברים. כל יום תעשה משהו עם AI. אל תגביל את עצמך. כל דבר שאתה מדמיין, אתה פשוט צריך לנסות להשתמש ב-AI ולראות עד כמה אתה יכול להגיע איתו — ואתה תהיה עושה את העולם טוב יותר."

ב-[email protected], אנחנו עוזרים לסטארטאפים לבנות מערכות AI שנשארות רלוונטיות לאורך זמן. אם אתה מתמודד עם בעיה קשה שלא נפתרת על ידי מודלי שפה סטנדרטיים, צור קשר — נעזור לך לבנות הרנס שיעבוד מעל כל מודל עתידי.

איך צוות של 7 אנשים שובר שיאים בבנצ'מרקים של AI

שיפור עצמי רקורסיבי כחלופה לפיין-טיונינג

שיאי בנצ'מרקים: ARC AGI ו-Humanity's Last Exam

למה הרנס מנצח פיין-טיונינג

ארכיטקטורת המטא-מערכת של Poetic

יישום עבור סטארטאפים: מתי להשתמש בהרנס

מסקנות אסטרטגיות

מערכות הפעלה מבוססות AI: איך לבנות עוזר אישי אוטונומי עם Claude Code ו-Remote Control

איך להחליף כלי AI בעלות $2,400 בחלופות חינמיות מקצועיות

איך Gemini + Antigravity משנים את משחק האוטומציה העסקית (מדריך מעשי 2025)

השאירו תגובה בטל תגובה

הפופולריים ביותר

מערכות הפעלה מבוססות AI: איך לבנות עוזר אישי אוטונומי עם Claude Code ו-Remote Control

ארכיטקטורת זיכרון מבוזר: איך Obsidian ו-Claude משנים את תשתית ניהול הידע הארגוני

איך להחליף כלי AI בעלות $2,400 בחלופות חינמיות מקצועיות

איך Gemini + Antigravity משנים את משחק האוטומציה העסקית (מדריך מעשי 2025)

תגובות אחרונות

בחירת העורך

מערכות הפעלה מבוססות AI: איך לבנות עוזר אישי אוטונומי עם Claude Code ו-Remote Control

ארכיטקטורת זיכרון מבוזר: איך Obsidian ו-Claude משנים את תשתית ניהול הידע הארגוני

איך להחליף כלי AI בעלות $2,400 בחלופות חינמיות מקצועיות

פוסטים פופולריים

מערכות הפעלה מבוססות AI: איך לבנות עוזר אישי אוטונומי עם Claude Code ו-Remote Control

ארכיטקטורת זיכרון מבוזר: איך Obsidian ו-Claude משנים את תשתית ניהול הידע הארגוני

איך להחליף כלי AI בעלות $2,400 בחלופות חינמיות מקצועיות

קטגוריה פופולרית

אודותינו

עקבו אחרינו