TL;DR: סוכן AI מבוסס על קוד פתוח של אנדריי קרפתי הריץ 748 ניסויים תוך שתי ימים – משימה שלוקחת חוקרים אנושיים 8 שנים. המערכת מצאה 20 שיפורים בקוד שכבר היה מייטב, כולל באג שהמומחה פספס. התוצאה: ירידה של 11% בזמן הדרך לדיוק GPT2. הדפוס הזה – מטרה ברורה, מטרית הערכה, אתר ניסויים אוטונומי – חל על כל תחום שיש בו משוב מדיד.
- הפריצה: מה בדיוק קרפתי בנה
- עיצוב המערכת שמאפשר סקלה אוטונומית
- ההשלכות בעולם האמיתי מעבר ללמידת מכונה
- סוכנים מופצים: כשהחזקים והחלשים עובדים ביחד
- החלת הדפוס לכל תחום עם מטריקה ברורה
- הממשק בין אנושי למכונה: מה בעצם התפקיד שלך
- סיכום וצעדים הבאים
הפריצה: מה בדיוק קרפתי בנה
אנדריי קרפתי, מראשי המחקר בעולם בתחום בינה מלאכותית, פתח ריפו ב-GitHub שנקרא Auto-Research שהשיג 26,000 כוכבים בשבוע אחד. הסיבה להתפרצות הזו פשוטה אך פורצת דעות: סוכן AI שרץ ניסויים בלי הפסקה, בלי עייפות, בלי אגו.
הרעיון בגרעין שלו: אתה נותן לסוכן AI מודל שפה קטן עם הגדרות אימון, ואתה הולך לישון. בזמן שאתה ישן, הסוכן רץ ניסוי אחרי ניסוי – משנה את קצב הלמידה (learning rate), משתנה את הארכיטקטורה, מתאים נורמליזציה. הוא בודק אם המודל השתפר. אם כן, הוא שומר את השינוי. אם לא, הוא זורק את זה ומנסה משהו אחר. שתי ימים שלמים של ריצה אוטונומית הניבו 748 ניסויים.
לשם השוואה: חוקר אנושי טוב מאוד עשוי להשלים 8 עד 10 ניסויים ביום עבודה מלא. קרפתי עצמו, עם 20 שנות ניסיון בלמידה עמוקה, כבר היה הקשה את הקוד הזה למשך חודשים. עדיין, הסוכן מצא 20 שיפורים אמיתיים – כולל באג בהטמעת ה-attention שלו. מכפיל סקלר חסר היה גורם לה-attention להיות מפוזר מדי על כל ה-heads. קרפתי פספס את זה. הסוכן לא.
"הסוכן לא מתעייף. הוא לא מחליט ללכת לקחת קפה אחרי הניסיון ה-15 שנכשל. הוא פשוט ממשיך."
אנדריי קרפתי, בניתוח שלו על Auto-Research
התוצאה הסופית: הזמן שלקח להגיע למטרית GPT2 ירד מ-2.2 שעות ל-1.8 שעות – שיפור יעילות של 11% על קוד שאחד מהחוקרים הטובים בעולם כבר חשב שהוא מייטב.
עיצוב המערכת שמאפשר סקלה אוטונומית
הגניוס של המערכת הזו נעוץ בפשטותה. כל הריפו הוא למעשה שלושה קבצים בלבד. אין מורכבות מיותרת, אין הסחות דעת, אין מקום להחלטות שגויות.
הקובץ הראשון הוא prepare.py – סקריפט הכנת נתונים. אתה לא צריך לגעת בו. הוא מכין את נתוני האימון.
הקובץ השני הוא train.py – 630 שורות קוד שמכיל את לוגיקת האימון. זה הקובץ היחיד שהסוכן משנה. בכל ניסוי, הסוכן קורא את הקובץ, יוצר השערה, עושה שינוי, מריץ אימון. קובץ אחד. מטרה אחת. זה הוא היופי של העיצוב הזה – אתה מגביל את מה שהסוכן יכול לשנות, וזה כופה עליו להיות יצירתי בתוך גבולות.
הקובץ השלישי הוא program.md – קובץ markdown בשפה אנושית רגילה. זה הוא החלק הברק. קובץ זה מספר לסוכן מה לעשות. זה כמו הוראות שתיתן לעוזר מחקר. אתה אומר לו מה לחקור, אילו אילוצים להכבד, מה המטרה. אתה לא כותב קוד יותר. אתה כותב כיוונים.
"התפקיד של האדם כבר לא כתיבת קוד. התפקיד של האדם הוא עכשיו יותר מכוון לכתיבת כיווני מחקר. אתה המייעץ למחקר בעידן הזה של AI. הסוכן הוא סטודנט דוקטורט שאף פעם לא ישן ואף פעם לא התלונן."
אנדריי קרפתי, בתיאור המודל החדש של שיתוף פעולה אדם-מכונה
עכשיו, לגבי האילוצים החכמים שהופכים את זה לעובד. כל ניסוי מקבל בדיוק 5 דקות של זמן GPU. זה אומר שכל התוצאות הן השוואתיות. אתה יכול בעצם להגיד אם שינוי אחד היה טוב יותר מהשני כי התנאים היו זהים. זה כמו תערוכת מדע ל-AI. תנאים הוגנים, מטריקה ברורה, שיתפו את הניסוי הטוב ביותר.
המטריקה היא val_bpb – validation bits per byte. נמוך יותר זה טוב יותר. זה המספר היחיד שחשוב. האם הוא ירד? שמור את זה. האם הוא עלה? זרוק את זה. זה באמת כל כך פשוט. הסוכן לא צריך להבין למה משהו עובד. הוא רק צריך לדעת אם המספר הלך בכיוון הנכון.
ההשלכות בעולם האמיתי מעבר ללמידת מכונה
זה לא רק קרפתי שמשתמש בזה. כל הקהילה קפצה פנימה. בלילה של 8 במרץ, 35 סוכנים אוטונומיים על רשת peer-to-peer של חברת Hyperspace AI הריצו 333 ניסויים על רשת לא מפוקחת לחלוטין.
הנה הנקודה המדהימה: הסוכנים שרצים על H100 GPU ענקיים השתמשו בכוח גולמי כדי למצוא קצבי למידה אגרסיביים. אבל הסוכנים שרצו על מחשבים נייחים רגילים עם רק CPU היו צריכים להיות חכמים. הם לא יכלו להסתמך על חישוב גולמי בלבד. אז הם התמקדו באסטרטגיות אתחול (initialization strategies) ובבחירות נורמליזציה. המתחתונים הפכו ליצירתיים כי היה להם אילוצים.
וכאן זה הופך להיות מטורף: הם שיתפו גילויים בזמן אמת באמצעות משהו שנקרא gossip protocol. כשסוכן אחד גילה שטכניקת אתחול ספציפית הורידה הפסד ב-21%, הגילוי הזה התפשט דרך הרשת כמו אש בשדה יבש. תוך שעות, 23 סוכנים אחרים שילבו את זה לתוך הניסויים שלהם.
ב-17 שעות, סוכנים אלה גילו באופן עצמאי אבני דרך ML שלקחו לחוקרים אנושיים ב-Google Brain ובـ OpenAI כמעט 8 שנים כדי לפורמליזציה. 17 שעות לעומת 8 שנים.
Powered by AI Authority
סוכני AI לא צריכים לישון.
אתה יכול לעשות זאת בתוך שעות.
80% מקובעי B2B מחפשים מקוון לפני שהם צופים בספק. סוכני AI מתוזמרים יכולים לבנות סמכות בחלק מהזמן שלקח בעבר. AuthorityRank הופכת את הדפוס הזה לאוטומציה.
ניסיון חינם · ללא כרטיס אשראי
סוכנים מופצים: כשהחזקים והחלשים עובדים ביחד
המקרה של Hyperspace AI מראה משהו קריטי: סוכנים מופצים לא רק מהירים יותר, הם חכמים יותר. כשאתה מאלץ סוכן לעבוד עם משאבים מוגבלים, הוא צריך להמציא אלגוריתמים טובים יותר. הוא לא יכול פשוט להשתמש בכוח גולמי.
זה יוצר מערכת שבה כל סוכן מתמחה במשהו אחר. ה-H100 מוצא את קצבי הלמידה. ה-CPU מוצא את טכניקות האתחול. ואז הם משתפים. זה כמו קהילת חוקרים, אבל הם לא ישנים, לא מביישים, ולא מתחרים זה בזה. הם פשוט עובדים.
זה גם מורה לנו משהו חשוב על עתיד העבודה. אתה לא צריך את ה-GPU הטוב ביותר. אתה צריך את הדפוס הנכון.
החלת הדפוס לכל תחום עם מטריקה ברורה
כאן זה הופך להיות ממש רלוונטי לך, בין אם אתה אי פעם אימנת מודל שפה או לא. אפילו אם אין לך GPU Nvidia, אפילו אם המילה PyTorch גורמת לעיניך להתעלם, הדפוס הזה צריך להיות משנה עבורך.
חשוב על מה שבעצם קורה כאן. אתה נותן לסוכן מטרה ברורה. אתה נותן לו מטריקה להעריך. אתה נותן לו אילוצים. ואז אתה משחרר אותו. הוא מריץ ניסויים. הוא שומר על מה שעובד. הוא זורק מה שלא עובד. והשיפורים המצטברים לאורך זמן הם מטורפים.
זה לא רק מחקר למידת מכונה. זה הכל. המיתוג שלך. עמוד הנחיתה שלך. שורות הנושא של הדוא"ל שלך. אסטרטגיית התוכן שלך. אפילו דף המחירים שלך. כל אחד מאלה יכול להיות מסגר כניסוי עם מטריקה ברורה בראש.
| הגישה הקונבנציונלית | הדפוס של סוכנים אוטונומיים |
|---|---|
| אתה כותב כותרת דוא"ל. אתה מחכה שבוע. אתה בודק את שיעור הפתיחה. אתה מנסה שוב. | סוכן כותב 100 וריאציות בלילה. בוקר אחד, התוצאות כבר בחזרה. אתה שומר את המנצח. |
| אתה בוחר עיצוב נחיתה. אתה מעריך את ההמרה. אתה משנה משהו. אתה חוזר לשנייה. | סוכן בוחן 50 וריאציות של פריסה, טקסט, צבע. הוא משפר את ההמרה ב-18% בשבוע. |
| אתה מנחש אילו מילות מפתח יעבדו. אתה מעדכן את הדף. אתה מחכה לדירוגים. | סוכן בוחן 200 קומבינציות של שפה ומבנה. הדירוגים משתפרים בתוך ימים. |
| אתה מרגיש רגשות מקוננים בתוך הקוד שלך. קשה לזרוק משהו שעבדת עליו. | סוכן לא מרגיש כלום. אם המטריקה לא משתפרת, הוא זורק את זה ומנסה הבא. |
שיעור הפתיחה עלה. שמור את זה. שיעור ההמרה ירד. זרוק את זה. קליקים שיפרו. ערום על גבי המנצח האחרון. לולאת המשוב היא המוצר. זה הוא התובנה. קרפתי הראה את זה בהקשר של אימון מודל שפה. אבל הדפוס חל בכל מקום בפרויקט שלך.
הממשק בין אנושי למכונה: מה בעצם התפקיד שלך
קרפתי כתב מבוא מדע בדיוני לריפו שנתן לי צמרמורות. הוא אמר: "בימים ישנים, מחקר AI מגדולים היה בעיתון של מחשבים בשר בין אכילה, שינה, כיף אחר וסינכרון פעם בזמן באמצעות גלי קול בטקס של פגישת קבוצה. הזמן הזה הוא מזמן עבור. מחקר הוא כעת לחלוטין בתחום של נחילי אוטונומיים של סוכנים AI הרצים על אשכולות חישוב, מגדלים ענקיים בשמיים."
בעצם, הוא מתאר עתיד שבו חוקרים אנושיים לא עושים את הניסויים יותר. הם קובעים את הכיוון. הם כותבים את קובץ ה-markdown של התוכנית. הם מחליטים אילו שאלות שווה לשאול. ואז הסוכנים עושים את מה שבעצם עובד בתשובה לשאלות האלה במהירות ובקנה מידה שאף אדם לא יכול להתאים.
זה אומר שהתפקיד שלך משתנה. אתה כבר לא הקוד כותב. אתה הפילוסוף. אתה המטא-מחשבה. אתה אומר: "אני רוצה להשתפר בזה. אני רוצה למדוד את זה. הנה האילוצים. עכשיו לך וגלה."
וזה מאחד בפני עצמו מעניין, כי זה הפוך מ-"אתה צריך להיות מהנדס טוב." עכשיו, אתה צריך להיות טוב בהגדרת בעיות. אתה צריך להיות טוב בהבחנה בין מה שחשוב ומה שלא. אתה צריך לדעת איך למדוד הצלחה בדרכים שהסוכן יכול בעצם לעבוד עם.
סיכום וצעדים הבאים
הדפוס של סוכנים אוטונומיים עם לולאות משוב מדודות הוא לא עתידי. זה עכשיו. הריפו הוא MIT licensed, מקור פתוח לחלוטין. אתה יכול להסתכל בו כרגע. זה שלושה קבצים. זה הכל. אם יש לך GPU Nvidia, אתה יכול להריץ את זה הלילה. אם אין לך, הקהילה כבר פתחה את זה ל-Mac, Windows, ו-AMD.
הריפו דורש Claude Code או Codeex או באמת כל סוכן קידוד שיכול לקרוא קובץ markdown ולשנות סקריפט Python. הנקודה הספציפית של הריפו אפילו לא משנה. הנקודה היא הדפוס.
תן לסוכן מטרה ברורה. תן לו מטריקה מדידה. תן לו אילוצים לעבוד בתוכם. ואז תן לו לרוץ. זה הנוסחה כולה בקליפה אגוז. בין אם אתה אימון מודל שפה או בדיקת כותרות דף נחיתה או אפילו אופטימיזציה של תמונות YouTube שלך, הלולאה היא זהה.
הערך האמיתי כאן הוא זה: אם אתה יכול לפרק בעיה לתוך מטרה, מטריקה, וקבוצה של ניסויים, אתה יכול להפוך אותה לאוטונומית. וברגע שזה אוטונומי, זה כבר לא בידיים שלך. זה בידיים של משהו שלא מתעייף.
AuthorityRank.app
מאמר זה נוצר עם AuthorityRank – כך מנועי AI מומליצים אותך
64% מחיפושי Google מסתיימים ללא קליקים. AuthorityRank הופכת את התובנות של מומחים מובילים לתוכן מקצועי שמנועי AI ממליצים עליו.
✓ ללא כתיבה




