Hermes Agent עם DeepSeek V4: איך לבנות מערכת AI שעובדת 24/7 במחיר של פחות מקפה
הדופק:
- DeepSeek V4 עולה 0.87 דולר למיליון טוקנים פלט לעומת 75 דולר ל-Claude Opus 4.7 – פי 100 זול יותר, עם 95% מהביצועים לפי הבנצ'מרקים.
- תכונת zero completion של OpenRouter חוסכת כ-20,000 דולר בשבוע על פני בסיס הלקוחות שלה – כלומר אף עסק לא משלם על תגובות ריקות או שגויות.
- שיטת ה-Triad מחלקת כל משימה לשלושה מודלים: Claude Opus 4.7 כמנצח, DeepSeek V4 כפועל הכבד ו-ChatGPT 5.5 כמבקר – לולאת שיפור שמבוססת על העיקרון שהוביל ל-WD40: 40 גרסאות של שיפור מהיר עד לתוצאה שעובדת.
תקציר: חיבור Hermes Agent עם DeepSeek V4 דרך OpenRouter מאפשר מערכת AI שעובדת ברקע 24/7 במחיר של כ-0.87 דולר למיליון טוקנים – פחות מ-1% מעלות Claude Opus 4.7. שיטת ה-Triad מחלקת כל משימה לשלושה מודלים – מתכנן, מבצע ומבקר – כדי לייצר תוצאות שלא ניתן להשיג ממודל בודד. מפתח API אחד דרך OpenRouter נותן גישה לכל המודלים, עם ניתוב חכם, מעקב עלויות ואפס תשלום על תגובות שגויות.
פתיח אנליטי: המתח המרכזי שמערכת זו פותרת הוא הפער בין עוצמת מודלים frontier לבין העלות שמונעת מעסקים קטנים להריץ אותם 24/7. כאשר Claude Opus 4.7 עולה 75 דולר למיליון טוקנים ו-DeepSeek V4 עולה פחות מדולר לאותה כמות, השאלה אינה עוד "איזה מודל הכי טוב" – אלא "איך בונים מערכת שמשתמשת בכל מודל בדיוק איפה שהוא מוסיף ערך מרבי". שיטת ה-Triad של Jack Roberts, מייסד ויוצר התוכן, נותנת מענה מעשי לשאלה הזו דרך חלוקת תפקידים ברורה בין שלושה מודלים שונים.
בעולם שבו תוכנה עולה פחות משכר מינימום – כדבריו של Jack Roberts – השאלה האמיתית שעומדת בפני כל עסק אינה אם להשתמש ב-AI, אלא כמה דקות ביום יש לו מערכות AI שפועלות ברקע ומייצרות ערך בזמן שהוא עוסק בדברים אחרים. Hermes Agent, בשילוב עם DeepSeek V4 דרך OpenRouter, הוא התשובה המעשית לשאלה הזו – ובמאמר זה אעבור על כל שלב מההגדרה ועד לתוצאה האמיתית.
למה DeepSeek V4 דרך OpenRouter הוא הבסיס הנכון למערכת Hermes
הבחירה בין הרצת DeepSeek V4 ישירות לבין שימוש בו דרך OpenRouter משנה באופן דרמטי את כלכלת המערכת. OpenRouter מאפשר חיבור למודלים מרובים דרך API אחד, ניתוב חכם לספקים מהירים וזולים ביותר, ותכונות מתקדמות כמו zero completion שחוסכת עשרות אלפי דולרים בשבוע. לא זו בלבד שהעלות יורדת לשברים – הגמישות שלך בבחירת המודל הנכון לכל משימה גדלה בצורה משמעותית.
כשאני עובד עם לקוחות בבניית מערכות AI, הנקודה הראשונה שאני מדגיש היא שהתמחור של מודלים AI השתנה לחלוטין. DeepSeek V4 עולה 0.87 דולר למיליון טוקנים פלט לעומת 75 דולר ל-Claude Opus – פי 100 זול יותר. זה לא טעות קטנה בחשבון – זה הבדל מוגדל שמאפשר לך להריץ מודל חזק כל הלילה בעלות שלא תשפיע על התקציב. Jack Roberts, מייסד ויוצר התוכן של Hermes, הדגיש שהשאלה המהותית היא לא "האם DeepSeek V4 טוב כמו Claude Opus" – כמובן שהוא לא – אלא "האם אני מוכן לשלם 1% מהמחיר כדי לקבל 95% מהביצועים?" כשאתה עובד עם מערכות שרצות 24/7, התשובה היא כמעט תמיד כן.
OpenRouter הוא הנקודה המרכזית שמעשית את הדינמיקה הזו. במקום לנהל מפתחות API נפרדים לכל מודל – אחד ל-OpenAI, אחד ל-Anthropic, אחד ל-DeepSeek – אתה מחובר דרך מפתח OpenRouter יחיד. זה לא רק נוחות ניהול; זה פתח לתכונות ניתוב מתקדמות שמשנות את כלכלת המערכת. OpenRouter מציע ניתוב :nitro (הספק המהיר ביותר), :floor (הזול ביותר) ו-OpenRouter Auto (הבחירה האוטומטית). כל אחת מהן משרת מקרה שימוש שונה: כשאתה צריך תוצאה מהירה, אתה מנתב ל-:nitro; כשאתה מריץ עבודה כבדה בלילה ועלות היא הקריטריון העיקרי, :floor הוא הבחירה. OpenRouter Auto בוחר בין הספקים בהתאם לאופטימיזציה דינמית של עלות וביצועים – וזה עובד ללא תוספת עלות.
יש עוד שתי תכונות שיש להבין כדי להנציח את הערך. ראשית, Bring Your Own Keys מאפשר להוסיף מפתח DeepSeek ישירות ל-OpenRouter כדי להימנע מהגבלות קצב. אם אתה מתכנן להריץ משימות כבדות בלילה, אתה יכול להוסיף את המפתח שלך של DeepSeek ישירות לחשבון OpenRouter – זה מונע חנק בקצב ונותן לך שליטה מלאה על הקצאת התקציב. שנית, תכונת zero completion חוסכת כ-20,000 דולר בשבוע על פני בסיס הלקוחות של OpenRouter. זה אומר שאם מודל מחזיר תגובה ריקה או שגיאה, אתה לא משלם עבורה. כשאתה מריץ מערכות אוטונומיות שמבצעות ניסיונות וטעויות, החיסכון הזה הוא משמעותי.
| הגישה המקובלת | הזווית של המומחה |
|---|---|
| שימוש בClaude Opus 4.7 לכל משימה, כולל עבודה כבדה בלילה | Claude Opus 4.7 כמנצח ותכנן, DeepSeek V4 כפועל כבד בלילה – 95% ביצועים ב-1% עלות |
| ניהול מפתחות API נפרדים לכל ספק (OpenAI, Anthropic, DeepSeek) | מפתח OpenRouter אחד לכל המודלים, עם ניתוב חכם (:nitro, :floor, Auto) |
| אי-ידיעה על תכונות ניתוב מתקדמות או שימוש בהן ידנית | ניתוב :floor לעבודה בלילה, :nitro לתוצאות מהירות, Auto לאופטימיזציה דינמית |
| תשלום עבור כל תגובה, כולל שגיאות וחזרות ריקות | Zero completion חוסך ~20,000 דולר בשבוע – אין תשלום על תגובות ריקות |
| מגבלות קצב אם משתמשים ב-API חופשי של DeepSeek | Bring Your Own Keys – הוסף מפתח DeepSeek ל-OpenRouter, אין מגבלות קצב |
התובנה המרכזית: OpenRouter הופך את DeepSeek V4 מ"מודל זול" ל"תשתית חכמה" – הניתוב האוטומטי ל-:floor בלילה משפר את הרווחיות של כל משימה שמורצת בשעות הערבה, בעוד zero completion מגן מפני הפסדים בשגיאות.
שיטת ה-Triad: מנצח, פועל ומבקר – איך לבנות לולאת שיפור אוטונומית
ארכיטקטורת ה-Triad מחלקת כל משימה מורכבת לשלושה מודלים עם תפקידים ברורים: Claude Opus 4.7 כמתכנן שמפרק את הבעיה וכותב בריף, DeepSeek V4 כמבצע הכבד שעובד 24 שעות ברקע, ו-ChatGPT 5.5 כמבקר שמפרק את התוצאה בביקורת קשה. השיטה הזו עוקפת את הבעיה המרכזית של שימוש במודל יחיד – שהוא תמיד מסכים עם עצמו ולא מציע ביקורת משמעותית על התוצאות שלו.
הרעיון המרכזי כאן הוא שכל מודל AI בעל חוזקות וחולשות שונות. Claude Opus 4.7 מצטיין בתכנון אסטרטגי ופירוק משימות מורכבות – הוא שואל שאלות הבהרה, בונה בריף מובנה ומנהל את הזרימה הכוללת. DeepSeek V4, לעומת זאת, מספק 95% מהביצועים של Opus ב-1% מהעלות, מה שהופך אותו לאופציה אידיאלית לעבודה כבדה שרצה בלילה כשאתה ישן. הוא יכול להרוץ במשך 24 שעות ברקע ללא הגבלות, מה שאומר שאתה יכול להוציא תוצאות בעוד אתה עוסק בעבודה יומיומית שלך. ChatGPT 5.5, מצדו, משחק תפקיד שונה לחלוטין – הוא אינו מודל שנועד להסכים או להשלים. הוא מעוצב לביקורת קשה, לפירוק של ההנחות ולהצבת שאלות קשות על כל מה שנוצר בשלב הביצוע.
המנגנון שמאחורי זה מבוסס על מחקר מצוי בתחום קבלת החלטות וניהול איכות. בכל לולאה של תכנון-ביצוע-ביקורת, המערכת לומדת מהטעויות הקודמות ומשפרת את התוצאה בהדרגה. זה בדיוק מה שקרה עם WD40 – שם המוצר מגיע מכך שהוא היה הגרסה ה-40 שעבדה. החברה עברה דרך 39 נסיונות כושלים לפני שהגיעה לנוסחה הנכונה. הסיבה שהם הצליחו היא שלהם היתה לולאת משוב מהירה מאוד – כל ניסיון נתן להם מידע על מה שלא עבד. באותו אופן, כשיש לך מודל ביקורת שונה שמפרק את עבודת המבצע, אתה מקבל לולאת משוב אמיתית שמנוע התקדמות. כל סיבוב משפר את התוצאה הבאה.
בהקשר של Hermes Agent, זה אומר שאתה לא רק מקבל תוצאה טובה יותר – אתה מקבל תוצאה שעברה דרך תהליך חשיבה מרובה-שכבתי. Opus מתכננת, DeepSeek עובד, ו-ChatGPT קורע את הכל לגזרים. התוצאה הסופית שאתה מקבל היא לא סתם "תשובה טובה" – היא תשובה שעברה דרך ביקורת קשה, שעדיין עמדה בה, ושנשלחה בחזרה למתכנן לאימות סופי. כשאתה מפעיל את זה בלילה עם DeepSeek, אתה בעצם מעסיק צוות של שלושה מודלים שעובדים בשיתוף פעולה כדי לתת לך תוצאות שלא היה אפשר להשיג ממודל בודד, גם אם הוא היה המתקדם ביותר.
התובנה המרכזית: שיטת ה-Triad עם DeepSeek בתפקיד המבצע מעניקה לך את יכולת הביקורת הקשה של מודלים מרובים – וזה מה שמפתח את הביצועים מ-95% לערך שקרוב יותר ל-110% של מה שמודל בודד יכול לעשות, כי אתה מקבל תוצאות שעברו דרך סינון איכות אמיתי.
בניית פרסונת Orpheus ב-Hermes: הגדרה מעשית של ה-Triad בתוך הסוכן
בניית פרסונה מורכבת ב-Hermes דורשת שלושה שלבים: הגדרת הזרימה בטמפלט, חיבור OpenRouter דרך הטרמינל, וקביעת המודלים שלך לכל תפקיד. כשמפעילים את Orpheus, אתה מעסיק למעשה שלושה מוח AI שונים בו-זמנית – Claude Opus כמתכנן, DeepSeek V4 כפועל הכבד, ו-ChatGPT 5.5 כמבקר קשה – וכל אחד מהם מבצע את עבודתו בשלב ספציפי של הפתרון.
התהליך מתחיל ב-Pantheon, הדאשבורד הוויזואלי של Hermes. כשאתה לוחץ על "הוספת פרסונה" ובוחר שם כמו "Orpheus", אתה בעצם יוצר קובץ הגדרה שמכיל את כל הוראות הזרימה. הטמפלט שלנו מחלק את העבודה לשלוש פעולות בברור: Opus מנצח שואל 5-10 שאלות הבהרה, כותב בריף של עמוד אחד, DeepSeek תוקף מ-3-5 זוויות, GPT 5.5 מפרק עד שניתן לשלוח. זה לא סתם סדר – זה מנגנון שמשפר כל שלב בהתאם לחוזקות של כל מודל. Opus מעולה בפירוק בעיות מורכבות לרכיבים פשוטים. DeepSeek זול מספיק שתוכל להריץ אותו כל הלילה בלי לדאוג לעלות. ו-ChatGPT 5.5 מיומן בביקורת כי הוא מודל שונה – הוא לא יסכים בעיוורון עם מה שDeepSeek כתב, הוא יתקוף את זה מ-3-5 זוויות שונות.
כדי לחבר את זה לפועל, אתה צריך לנתב את OpenRouter דרך הטרמינל. הפקודה פשוטה: בטרמינל של Anti-Gravity או שורת הפקודה שלך, הקלד hermes setup model, בחר את OpenRouter מהרשימה, והדבק את מפתח ה-API שלך מ-openrouter.com. אם אתה משתמש ב-DeepSeek ורוצה להימנע מהגבלות קצב, אתה יכול גם להוסיף את המפתח שלך ישירות דרך "Bring Your Own Keys" – זה חוסך זמן וממנע תקיעות באמצע הלילה כשהמערכת עובדת בשיא הפעילות. אחרי שהחיבור מוגדר, Hermes יכול להחליף בין המודלים באופן דינמי – Opus יתחיל, DeepSeek יקח את הכפפה, ו-ChatGPT יעבור על התוצאה.
דוגמה מעשית: ביקשתי מ-Orpheus למצוא נישה עסקית בטקסס עם שוליים גבוהים וביקוש גבוה לאוטומציה. Opus שאל חמש שאלות הבהרה – גיאוגרפיה, סוג הלקוח, טווח מחיר, סוג מכירה – וכתב בריף בן עמוד אחד. DeepSeek עבד כל הלילה דרך שלוש זוויות שונות: ניתוח שוק, מודל עסקי, וקיימות. ChatGPT הביע ביקורת קשה על ההנחות. התוצאה: שלוש נישות עם הסבר מדוקדק. הראשונה היתה שיקום אש, מים ועובש – תוצאת הדגמה: נישת שיקום אש/מים/עובש בטקסס – עבודה אחת שווה 3,000 עד 50,000 דולר. זה לא מספר אקראי – זה נתון מחקר שDeepSeek מצא על ידי סריקת הנתונים של טקסס על שיקום חירום.
כשאתה צריך יותר כוח חזותי, Hermes יכול גם להשתמש ב-CLI כלים. למשל, אם אתה רוצה שHermes ינתח את הווידאו האחרון שלך ביוטיוב, אתה יכול להגיד: "השתמש ב-Gemini CLI כדי לנתח את הווידאו הזה." Gemini CLI לניתוח וידאו – מודל מולטימודלי שמנתח את 10 השניות הראשונות של סרטון YouTube. Hermes מריץ את הפקודה, Gemini מנתח את המסגרות הראשונות, ומחזיר לך ניתוח ויזואלי – כל זה בלי לעזוב את הממשק. הוא גם יכול לעבוד עם Glaido, שהוא ממשק קול-לטקסט שמאפשר לך לדבר ישירות אל Hermes במקום להקליד. Glaido כממשק קול-לטקסט לתקשורת מהירה עם Hermes. אתה פשוט מדבר, וHermes הופך את זה לטקסט ומעביר אותו לפרסונה שלך – מושלם כשאתה עסוק או רוצה לחשוב בקול.
המפתח להבנת מערכת זו הוא שכל מודל עובד בתפקיד שונה בחלוטין מאשר אם היית משתמש בו לבדו. Opus לא כותב את התוכן – הוא מארגן. DeepSeek לא מבקר – הוא עובד. ChatGPT לא מתכנן – הוא מפרק ומטיל ספק. התוצאה היא שהמערכת כולה טובה יותר מכל אחד מהחלקים שלה. זה כמו להעסיק קבוצה של שלושה מומחים שונים במקום מומחה אחד – כל אחד מביא זווית שונה, וההשקה הסופית היא הרבה יותר חזקה.
מה זה אומר בפועל: מערכת Orpheus שלך עובדת 24/7 במחיר של $0.87 למיליון טוקנים, מחלקת משימות מורכבות לשלושה מודלים, וממירה את התוצאה לתיקיה שניתן לשלוח – כל זה ללא התערבות ידנית שלך.
soul.md ו-Hermes Memory: איך להפוך את הסוכן לכלי שגדל איתך לאורך זמן
תשובה ישירה: soul.md היא קובץ הזהות המרכזי של Hermes – מקום שבו אתה מגדיר את מטרותיך, מדדי העסק שלך וסגנון התקשורת המועדף. בניגוד ל-Claude Code שחי בתוך repo ומוגבל לסשן בודד, Hermes הוא persistent ו-self-evolving – כל משימה שאתה נותן לו מעמיקה את הבנתו שלך, וכל הקשר חדש משפר את איכות הפלט שלו בעתיד.
הנקודה המרכזית כאן היא הבדל אדריכלי בין שני מערכות שונות לחלוטין. Claude Code הוא כלי לכתיבת קוד – הוא חי בתוך מאגר הקוד שלך (repository), יש לו לולאת כלים הדוקה, וכל סשן הוא מתחדש ללא זיכרון מהעבר. Hermes, לעומת זאת, עובד על פני כל חיי העסק והעבודה שלך. הוא שומר על הקשר מצטבר, לומד מכל משימה שאתה נותן לו, ויוצר מודל הולך וגדל של מי אתה, מה אתה רוצה, ואיך אתה אוהב לעבוד. זה לא סתם כלי – זה שותף שמכיר אותך.
ה-soul.md הוא הגן של המידע הזה. כשאתה פותח את הקובץ, אתה מוצא מבנה ברור שמחולק לחלקים ספציפיים. חלק ראשון הוא זהות – מי אתה, מה אתה עושה, מה הערך שלך. חלק שני הוא מטרות שנתיות – לדוגמה, אם אתה בעל עסק SaaS, אתה יכול לכתוב "אני רוצה להגיע ל-20,000 דולר בחודש מהמוצר שלי" או "אני רוצה להכפיל את תיק ההשקעות שלי" או "אני רוצה לרכוש שבע חברות השנה". מה שחשוב הוא שHermes יודע בדיוק מה המטרה שלך. חלק שלישי הוא מדדי עסק – המספרים שחשובים לך. הכנסה חודשית, runway של מזומנים, עלויות קבועות, שיעורי המרה. חלק רביעי הוא סגנון תקשורת – איך אתה אוהב שHermes ידבר אליך. קצר בברירת מחדל? שאלה אחת בכל פעם? כתיבה ישירה וללא עטיפות? הוא צריך לדעת את זה.
הדרך להגדיר את soul.md היא פשוטה אך עמוקה. אתה לוקח את התבנית שJack Roberts סיפק, ואתה פשוט מחליף את הערכים בשלך. אתה אומר לHermes "זה אני, זה מה שאני רוצה, זה איך אני חושב, זה איך אני רוצה שתדבר אליי." וכשאתה שמור את הקובץ, Hermes מתחיל להשתמש בו כהקשר קבוע לכל משימה שאתה נותן לו. כל פעם שאתה שואל אותו משהו, הוא קורא את soul.md שלך תחילה, ואז הוא מבין את ההקשר המלא שלך.
אבל זה לא עצור שם. Hermes יכול גם ללמוד מיום ליום מהשיחות שלך איתו. כל משימה שאתה נותן לו, כל תוצאה שהוא מייצר, כל פידבק שאתה נותן לו – כל זה מתחזק את ההבנה שלו שלך. זה ההבדל ה-self-evolving. לא רק שהוא זוכר, אלא שהוא גדל עם הזמן. אם אתה אומר לו "זה לא בדיוק מה שרציתי, הייתי רוצה יותר טון ישיר וקצר יותר", הוא מתעדכן. בפעם הבאה, הוא כבר יודע את זה.
כדי לחבר את Hermes ל-OpenRouter ולהגדיר את soul.md שלך, אתה צריך להשתמש בטרמינל. הפקודה היא פשוטה: hermes setup model. כשאתה מקליד את זה בטרמינל (או ב-Anti-Gravity אם אתה משתמש בכלי זה), Hermes יציע לך רשימה של כל ה-providers שאתה יכול לחבר. אתה לוחץ spacebar כדי לבחור OpenRouter, ואז הוא שואל אותך עבור API key. אתה הולך ל-openrouter.com, יוצר key חדש, ופשוט מעתיק ודבק אותו בחזרה לטרמינל. זה לוקח שתי דקות.
אחרי שאתה מחובר, אתה יכול לעדכן את soul.md שלך בכמה דרכים. אחת היא לערוך את הקובץ ישירות – פשוט תפתח את soul.md, כתוב את המטרות שלך, שמור. דרך שנייה היא להשתמש בדרך הידנית – אתה פשוט אומר לHermes "Hey, אני רוצה להוסיף את זה לsoul.md שלי" ואתה יכול אפילו להגיד לו "go handsfree mode" והוא יקליט את כל מה שאתה אומר ויוסיף את זה באופן אוטומטי. זה מאוד פשוט ואינטואיטיבי.
עכשיו, איפה זה הופך להיות באמת חזק הוא ב-Pantheon – הדאשבורד הויזואלי שJack Roberts בנה. Pantheon היא לוח בקרה שמציג לך הכל בעקבה אחת. אתה רואה את ה-spend שלך – כמה אתה מוציא על כל מודל, כל provider. אתה רואה את ה-skills שלך – כל הפרסונות וה-workflows שבנית. אתה רואה את ה-memory systems שלך – איך Hermes מעקב אחרי מה שאתה עשית. ואתה רואה גם משהו שנקרא "חלומות לילה אוטומטיים" – זה בעצם משמעות שHermes יכול לרוץ משימות בעצמו בלילה בזמן שאתה ישן, ולהציע לך רעיונות או תוצאות בבוקר.
הדבר המעניין ביותר כאן הוא שHermes משתמש בsoul.md שלך כמה שיותר בכל משימה. כשאתה נותן לו בעיה לפתור, הוא קורא את soul.md, הוא מבין את המטרות שלך, הוא מבין את מדדי ההצלחה שלך, והוא מתכנן את התוצאה שלו בהתאם. אם המטרה שלך היא להגיע ל-20,000 דולר בחודש, והוא מציע לך משהו שלא מתיישב עם זה – הוא יודע לשאול קודם "האם זה מתיישב עם המטרה שלך?" או אפילו לעדכן את הפתרון שלו כדי להיות יותר מותאם למטרה הספציפית הזו.
זו הנקודה שJack Roberts הדגיש: Hermes הוא לא רק סוכן – הוא כלי שגדל איתך. ככל שאתה משתמש בו יותר, הוא מבין אותך יותר טוב. ככל שהוא מבין אותך יותר טוב, התוצאות שלו הופכות יותר מדויקות ויותר רלוונטיות. זו לולאה חיובית. וכל זה מתחיל בקובץ אחד – soul.md – שמכיל את ליבת הזהות והמטרות שלך.
התובנה המרכזית: soul.md ו-Pantheon יחד יוצרים מערכת זיכרון שמתפתחת כל הזמן – בעוד Hermes מריץ משימות בלילה עם DeepSeek V4 בעלות של פחות מ-1 דולר, הוא בנוסף מעמיק את הבנתו שלך, מה שמשמ
שאלות נפוצות
האם ניתן להשתמש ב-DeepSeek V4 בחינם, ומה החסרונות של המודלים החינמיים בסביבת Hermes?
טכנית, קיימים ספקים שמציעים גישה חינמית ל-DeepSeek V4 דרך OpenRouter, אך Jack Roberts ממליץ בפירוש נגד שימוש במודלים חינמיים בסביבת Hermes לכל משימה שצריכה לרוץ ברקע. הסיבה: "free is not free" – מודלים חינמיים נוטים להיות מוגבלי קצב (rate limited) בדיוק ברגעים שהסוכן עובד לבד בלילה. אם Hermes מריץ לולאת Triad על משימה חשובה ומגיע לגבול קצב באמצע, כל ההתקדמות עלולה לאבד. ההמלצה הפרקטית: הפקידו 5 עד 10 דולר ישירות בפלטפורמת DeepSeek, הוסיפו את המפתח ל-OpenRouter דרך "Bring Your Own Keys", ותהנו מגישה ישירה ללא הגבלות קצב – במחיר של 0.87 דולר למיליון טוקנים פלט שממילא מייתר את הצורך בחינמי.
מה ההבדל המעשי בין :nitro ל-:floor ב-OpenRouter – מתי להשתמש בכל אחד?
שני הסיומות הן ביטויי ניתוב (routing expressions) שמצורפים לסוף שם המודל ב-OpenRouter ומשנים את הספק שמשרת את הבקשה. :nitro מנתב אוטומטית לספק המהיר ביותר בזמן אמת – מתאים כשה-Triad עובד בזמן אמת ואתם מחכים לתשובה, למשל כשה-Conductor (Claude Opus 4.7) צריך לכתוב בריף מהיר. :floor בוחר תמיד את הספק הזול ביותר – מתאים לריצות לילה של DeepSeek V4 שבהן מהירות לא קריטית אך עלות כן. יש גם :extended לחלון הקשר (context window) מורחב, ו-OpenRouter Auto שבוחר את המודל המתאים ביותר לפרומפט ללא עלות נוספת. הכלל הפרקטי: השתמשו ב-:nitro לשלב התכנון עם Claude Opus, ב-:floor לשלב הביצוע הכבד עם DeepSeek V4 בלילה.
איך Hermes שונה מ-Claude Code ומתי כדאי להשתמש בכל אחד מהם?
ההבדל הוא ארכיטקטורלי ולא רק פונקציונלי. Claude Code חי בתוך ריפוזיטורי (repo) – הוא מוגבל לסשן אחד, עובד בתוך בסיס קוד ספציפי, ואין לו זיכרון מתמשך מעבר לאותה ישיבה. Hermes חי על פני כל החיים הדיגיטליים שלכם – הוא persistent, לומד מכל משימה, מתזמן עבודות ברקע, ומחזיק הבנה עמוקה של הזהות, המטרות והסגנון שלכם דרך קובץ soul.md. הכלל הפשוט: כשצריך לבנות או לתקן קוד בפרויקט ספציפי, השתמשו ב-Claude Code. כשצריך סוכן שיחשוב, יתכנן, יבצע ויבקר לאורך זמן – על פני נושאים עסקיים, ניתוחי שוק, ואסטרטגיה – Hermes עם ה-Triad הוא הכלי הנכון. בפועל, Jack Roberts משתמש בשניהם במקביל: Claude Code לפיתוח, Hermes לניהול ואסטרטגיה.
כמה עולה להפעיל לולאת Triad מלאה ללילה שלם עם DeepSeek V4?
בהתבסס על המחיר של 0.87 דולר למיליון טוקנים פלט ל-DeepSeek V4, לולאת Triad שרצה 8 שעות ברקע עם עשרות איטרציות של תכנון-ביצוע-ביקורת תעלה בדרך כלל כמה דולרים בלבד – לעומת עשרות דולרים אם הייתם מריצים את כל שלבי הלולאה עם Claude Opus 4.7 בלבד. השלב היקר יחסית הוא שלב ה-Conductor עם Opus, אך מכיוון שהוא מבצע פעולה אחת בתחילת הלולאה (כתיבת הבריף), העלות שלו מינורית. ה-Critic עם ChatGPT 5.5 נכלל במינוי החודשי של 20 דולר ל-OpenAI, כך שבפועל רוב עלות הלילה היא עלות DeepSeek V4 בלבד – שהיא זניחה. תכנן תקציב של 5 עד 15 דולר לחודש לריצות לילה אינטנסיביות.
האם ניתן להשתמש ב-Glaido עם Hermes ב-Windows, ומהן חלופות לתקשורת קולית?
Glaido הוא ממשק קול-לטקסט (speech-to-text) שJack Roberts משתמש בו לתקשורת מהירה עם Hermes – הוא מאפשר "ליפ" (yapping) חופשי במקום הקלדה, מה שמאיץ משמעותית את הגדרת משימות מורכבות
