GPT-Realtime-2: המדריך המלא לבניית סוכני קול חכמים עם ממשק ה-API החדש של OpenAI

יעקב אברהמוב

4 שעות ago

GPT-Realtime-2: המדריך המלא לבניית סוכני קול חכמים עם ממשק ה-API החדש של OpenAI

הדופק:

GPT-Realtime-2 מגיע עם חלון הקשר של 128,000 טוקנים – פי 4 מהגרסה הקודמת, שווה ערך לכמעט שעה שלמה של שיחה רציפה ללא חיתוך הקשר.

Sierra, שמפעילה סוכני שירות לקוחות עבור חברות Fortune 100, מדווחת על שיפור של 30% בזמן תגובה ב-P50 ועד 200% ב-P90 לעומת מערכות קסקייד מסורתיות (STT + LLM + TTS נפרדים).

בסביבת לקוחות ארגוניים, שיעור שגיאה של 0.1% בלבד הופך סוכן קולי לבלתי שמיש – הרף הוא לא "נשמע טבעי" אלא "ניתן לסמוך עליו לביצוע משימות".

תקציר: OpenAI שחררה שלושה מודלי קול חדשים בשבוע אחד: GPT-Realtime-2 עם יכולות reasoning ברמת GPT-5 וחלון הקשר של 128k טוקנים, GPT-Realtime-Translate עם תמיכה ביותר מ-70 שפות קלט ו-13 שפות פלט, ו-GPT-Realtime-Whisper עם זמן תגובה של 200 אלפיות שנייה. Sierra – שמפעילה סוכני קול בסקייל של Fortune 100 – מדווחת על שיפורי ביצועים דרמטיים, אך מדגישה שהמודל הוא רק שכבה אחת בתוך ארכיטקטורת ייצור שלמה.

128k טוקנים – שעה שלמה

חלון ההקשר של GPT-Realtime-2 גדל פי 4, ומאפשר שיחות ארוכות ללא חיתוך הקשר ועם instruction following משופר לאורך כל השיחה.

Parallel Tool Calling

המודל יכול לנהל בו-זמנית 15 עד 20 כלים – כולל API חיצוני כמו תחזית מזג אוויר – בלי להמתין לסיום כל קריאה לפני הבאה.

200ms זמן תגובה

GPT-Realtime-Whisper מגיע לזמן תגובה של 200 אלפיות שנייה עם 80 שפות קלט, ומאפשר function calling מוקדם יותר ומוצרים חיים שמרגישים מהירים יותר.

200% שיפור ב-P90

Sierra מדווחת על שיחות מהירות ב-30% ב-P50 ועד 200% ב-P90 לעומת מערכות קסקייד – נתון שמשנה את חוויית המשתמש בשיחות מורכבות.

דיבור מהיר פי 4 מהקלדה

היתרון הבסיסי של ממשק קולי פותח מקרי שימוש שלא היו אפשריים בטקסט – מ-stream of consciousness ועד אינטראקציה בזמן נהיגה.

0.1% שגיאה – הגבול האדום

בסביבה ארגונית, שיעור שגיאה נמוך מאוד הופך סוכן לבלתי שמיש. הרף הוא אמינות תפעולית מלאה, לא רק איכות קול.

פתיח אנליטי: המתח המרכזי שעולה מהשחרור הזה הוא בין עוצמת המודל הבסיסי לבין מורכבות הפריסה בייצור. GPT-Realtime-2 מציג קפיצת מדרגה ב-reasoning וב-tool calling, אך Sierra – שפורסת סוכנים אלה מול לקוחות Fortune 100 – מדגישה שהמודל לבדו אינו מספיק: ה-agent harness, ה-VAD המותאם אישית, מנגנוני ה-guardrail וניהול ה-session state הם ההבדל בין הדמו המרשים לבין מערכת שניתן לסמוך עליה. Ken Murphy מ-Sierra ניסח זאת בדיוק: "שיעור שגיאה של 0.1% בלבד כבר הופך סוכן לבלתי שמיש בסביבת לקוחות ארגוניים."

בשנים האחרונות, הארכיטקטורה הנפוצה לסוכני קול הייתה קסקייד – שלוש שכבות נפרדות של זיהוי דיבור, מודל שפה ויצירת קול. GPT-Realtime-2 מאתגר את ההנחה הזו מהיסוד, ומציע ארכיטקטורה voice-to-voice שחותכת את החיכוך בין השכבות ומספקת חוויה שמרגישה אנושית יותר – אך גם דורשת גישה חדשה לבנייה, להערכה ולפריסה בסביבות ייצור אמיתיות.

שלושת המודלים החדשים של OpenAI לקול – מה שוחרר ולמה זה שונה

OpenAI שחררה בשבוע שעבר שלושה מודלים קוליים חדשים שמשנים באופן מהותי את אופן בנייה סוכני קול בייצור. GPT-Realtime-2 מביא יכולות reasoning מדרגה GPT-5 לשיחות קוליות עם חלון הקשר (context window) של 128,000 טוקנים – כמעט שעה שלמה של שיחה. GPT-Realtime-Translate תומך ביותר מ-70 שפות קלט ו-13 שפות פלט עם תרגום בזמן אמת. GPT-Realtime-Whisper משדר עם זמן תגובה של 200 אלפיות שנייה ותמיכה ב-80 שפות קלט. הטריק הטכני הגדול: אין עוד צורך בסטאק קסקייד מסורתי של STT-LLM-TTS (speech-to-text, language model, text-to-speech). כל שלוש הפעולות קורות בו-זמנית בתוך מודל יחיד, מה שמקטין זמן תגובה ומשפר דיוק.

הגישה המקובלת	הזווית של המומחה
שלוש שירותים נפרדים – STT (לדוגמה, Whisper), LLM (GPT-4), TTS (Eleven Labs)	מודל יחיד קוליים-לקוליים – GPT-Realtime-2 – המטפל בשלוש הפעולות בו-זמנית
זמן תגובה של 2-3 שניות בממוצע בגלל עיכוביים בתור בין השירותים	זמן תגובה של 200 אלפיות שנייה – מרגיש כמו שיחה אנושית אמיתית
כלים חכמים מוגבלים – סוכן קול טיפוסי יכול להתמודד עם 2-3 כלים בסדר רציף	ביצוע מקביל של כלים – הדמו שלנו העביר 15-20 כלים בו-זמנית, כולל בדיקת מזג אוויר חיצוני
חלון הקשר קטן – הסוכן שוכח מידע מהתחלת השיחה אחרי 10-15 דקות	חלון הקשר של 128k טוקנים – הסוכן שומר על הקשר מלא לאורך שעה שלמה של שיחה
דיוק מוגבל בשפות שאינן אנגלית – דיוק נמוך בשפות בעלות אקסנטים או רעש רקע	דיוק גבוה ב-80 שפות קלט, עם תרגום בזמן אמת ל-13 שפות פלט

Terry, שהוא Product Manager ל-Multimodal APIs ב-OpenAI, הסביר לנו שהשחרור הזה פותח שלוש דפוסי בנייה שונים לחלוטין. ראשית, יש "voice to action" – אפליקציות ללא ידיים שמונעות על ידי קול. שנית, "systems to voice" – כאשר מערכות קיימות מקבלות שכבת קול שמשדרת החלטות. שלישית, "voice to voice" – שיחות קוליות קצה-לקצה בין משתמש לסוכן, כמו שיחות שירות לקוחות. כל דפוס דורש מנטליות בנייה שונה, ולכן הדיוק של הבדל זה חיוני.

GPT-Realtime-2 בעצמו מביא שלוש יכולות שמשנות את המשחק לעומת מודלים קודמים. ראשית, parallel tool calling – אתה כבר לא צריך לקרוא לכלים בסדר רציף. כשהדמו שלנו חיפש אוהל, הוא קרא בו-זמנית לחיפוש מוצרים, בדיקת מלאי, ובדיקת מזג אוויר. זה לא אפשרי בקודמיו. שנית, חלון הקשר של 128,000 טוקנים – זה גדול פי 4 מהגרסה הקודמת. Erica, שהיא Solutions Engineer ב-OpenAI, הסבירה שזה שווה ערך לכמעט שעה שלמה של שיחה רציפה. משמעות זה: סוכן לא שוכח מה קרה בדקות הראשונות. שלישית, preambles – המודל יכול להגיד "תן לי רגע" או "בואו נבדוק זאת" לפני שהוא מחשיב תשובה, בדיוק כמו אדם אמיתי. זה לא רק שיפור קטן – זה משנה את תחושת האינטראקציה מ"רובוט" ל"בן שיחה אמיתי".

GPT-Realtime-Translate הוא כלי מתורגם בזמן אמת שתומך ביותר מ-70 שפות קלט ו-13 שפות פלט, עם עיכוב נמוך מאוד. בדמו שלנו, Terry דיבר באנגלית אבל הטקסט המתורגם הופיע בספרדית בזמן אמת, בלי עיכוביים מורגשים. זה משנה את המשחק למשל לשיחות וידיאו בין משתתפים בשפות שונות, או לשירות לקוחות גלובלי בו סוכן אחד יכול להשרת עשרות שפות. GPT-Realtime-Whisper, לעומת זאת, הוא מודל transcription מהיר במיוחד – הוא מגיע לזמן תגובה של 200 אלפיות שנייה עם תמיכה ב-80 שפות קלט. זה חשוב כי transcription מהיר פותח פונקציות קריאה מוקדמת של כלים ודיוק טוב יותר בביצוע הוראות, מה שהופך מוצרים חיים להרגישו מהיר ותגובתי יותר.

התובנה המרכזית: הפיתוח מ-cascaded systems ל-voicetovoice native פותח מקרי שימוש שעד כה היו בלתי אפשריים – סוכנים קוליים שמטפלים בו-זמנית ב-20 כלים, ששומרים על הקשר מלא לאורך שעה, ויכולים לנמק בעומק GPT-5 בזמן אמת.

שני דמואים מעשיים: סוכן קניות קולי ולוח אנליטיקה – כך GPT-Realtime-2 עובד בפועל

ההבדל המהותי בין GPT-Realtime-2 למודלי קול קודמים מתגלה לא בתיאוריה אלא בביצוע בפועל: המודל יכול לתפעל ממשק משתמש דינמי דרך tool calling מקבילי, לא סתם להשיב בטקסט. שני הדמואים הבאים מראים כיצד זה משפר את חווית המשתמש ואת זרימת העבודה של מנהלים – מחיפוש קולי מתקדם ועד ניתוח שורשי גורמים בזמן אמת.

הדמו הראשון הוא סוכן קניות קולי באתר e-commerce. Erica, solutions engineer ב-OpenAI, הדגימה כיצד משתמש יכול לבצע שיחת קניות מלאה ללא לחיצת כפתורים – הוא פשוט מדבר לסוכן. הדמו העביר 15 עד 20 כלים במקביל לסוכן הקולי – כולל בדיקת מזג אוויר חיצוני, חיפוש מוצרים, סינון לפי תקציב, בדיקת דירוגים, והוספה לעגלה. זה לא היה אפשרי בגרסאות קודמות של Realtime API. הסוכן היה צריך לטפל בכל כלי בזה אחר זה – waterfall pattern – מה שהיה מאט את השיחה וגורם לחוויה מנותקת. כאן, המודל קרא את ההקשר של השיחה, הבין מה הקונה צריך, וקרא לכלים מרובים בו-זמנית כדי לספק תשובה מדויקת ומהירה. העגלה הסתכמה ב-644.70 דולר: אוהל ב-419.85 דולר ונעלי הליכה ב-224.85 דולר – וכל זה בוצע דרך שיחה טבעית, בלי שהקונה היה צריך לנווט בממשק.

הדמו השני הראה את הצד השני של המטבע: ממשק voice-to-action לא voice-to-voice. כאן, Erica משחקת תפקיד של מנהל מוצר ב-Supply Co שרוצה לחקור נפילה בהמרות. היא לא רוצה שהמודל ישוחח איתה כל הזמן – היא רוצה שהוא יפעיל סינונים בלוח המידע שלה, יריץ ניתוח root cause, ויספר לה את הממצאים רק כשהיא שואלת. זה דורש instruction following ברמה גבוהה הרבה יותר. כאשר היא אמרה "בואו נסנן לפי אירופה", הסוכן לא ביקש אישור – הוא פשוט עשה את זה. כאשר היא ביקשה root cause investigation, הוא הריץ ניתוח מקביל על הנתונים ובחן את ההבדלים בין Mobile Safari ל-Chrome. דמו לוח האנליטיקה גילה רגרסיה ספציפית ל-Mobile Safari בקרב קונים ראשונים באירופה בקטגוריית הנעלה – בעיה שלא היתה גלויה בנתונים הגולמיים. הסוכן הצליח לזהות שהבעיה הייתה בעדכון של עמוד פרטי המוצר ב-Safari, לא בבעיה רחבה יותר בחיפוש או באיכות התנועה. זה דורש reasoning עמוק על מערך נתונים גדול – משהו שמודלי Realtime קודמים לא יכלו לעשות.

ההבדל הקריטי בין שני הדמואים הוא בעיצוב של האינטראקציה. בדמו הקניות, המודל יוזם פעולות ודיברור בו-זמנית – הוא מתחקר, מחשב, ומדבר כדי להדריך את הקונה. בדמו האנליטיקה, המודל מתוך מודע לכך שמנהל המוצר לא רוצה הפרעות קבועות – הוא מבצע פעולות בשקט ודיברור רק כשמתבקש. זה מראה את הגמישות של GPT-Realtime-2: הוא לא קבוע לדפוס אחד של אינטראקציה. אתה יכול לתכנת אותו להיות מדבר יותר או פחות יותר, להיות יוזם או תגובתי, בהתאם לצרכי המקרה. הסיבה שזה אפשרי היא combination של שלוש יכולות: (1) parallel tool calling – קריאה למרובים כלים בו-זמנית, (2) חלון הקשר של 128k טוקנים – מספיק גדול כדי להחזיק את כל הקשר של שיחה ארוכה ונתונים רבים, ו-(3) reasoning ברמת GPT-5 – יכולת לחשוב דרך בעיות מורכבות לפני הדיבור.

מה זה אומר בפועל: אם אתה בונה סוכן קולי, אתה כבר לא קשור לדפוס "שמע – עבד – דבר". אתה יכול לבנות זרימות עבודה שבהן הסוכן מבצע פעולות מרובות בו-זמנית, משמר הקשר בעל משמעות על פני שעות של שיחה, ומתאים את קצב ותוכן הדיבור שלו לסוג המשימה – תוך שמירה על דיוק גבוה וביצוע מהיר.

GPT-Realtime-2 בייצור בסקייל: לקחים מ-Sierra ומחברות Fortune 100

סוכני קול בסביבת ייצור לא מדברים על עצמם – הם פותרים בעיות אמיתיות של לקוחות Fortune 100, וזה דורש יותר מאשר מודל חכם. Sierra, חברה המפעילה אלפי שיחות שירות לקוחות יומיות עבור מותגים גדולים, בנתה "agent harness" – שכבה ייצורית שלמה סביב GPT-Realtime-2 – כדי להפוך סוכן קול מנומס לסוכן שניתן להסמיך. לא מדובר רק בזמן תגובה מהיר; מדובר בשגיאות שהן אפילו קטנות מדי לסובלנות בעולם האמיתי.

Ken Murphy, engineer בצוות הקול של Sierra, הדגיש שיעור שגיאה של 0.1% בלבד כבר הופך סוכן לבלתי שמיש בסביבת לקוחות ארגוניים. זה לא מדיניות קפדנית – זה מציאות: כשאתה מטפל בקול לעשרות אלפי שיחות בחודש, גם שגיאות נדירות הופכות לתאונות תדירות. סוכן שטועה 0.1% מהזמן יטעה מאות פעמים בחודש. בשירות לקוחות, שגיאה אחת בביטול הטיסה הלא נכונה או בעיבוד הזמנה שגויה יכולה לעלות לעשרות אלפי דולרים בהשבה, בנזקי מוניטין, ובחוסר אמון. לכן Sierra בנתה מערכת שלמה סביב הערכה רציפה – לא רק של איכות הקול או של הנימוסים של הסוכן, אלא של יכולתו בפועל להשלים משימות בעולם האמיתי, עם אודיו מבולגן, מבטלים, וגבר רקע.

ביחס לביצועים, Sierra דיווחה על שיפור של 30% בזמן תגובה ב-P50 ועד 200% ב-P90 לעומת מערכת קסקייד מסורתית (speech-to-text נפרד, LLM, text-to-speech). P50 ו-P90 חשובים כאן – P50 היא החציון, אבל P90 היא ה-90 אחוזון, כלומר השיחות שנמשכות הכי הרבה זמן. שיפור של 200% ב-P90 פירושו שהשיחות הארוכות ביותר והמורכבות ביותר כעת מסתיימות הרבה יותר מהר, מה שמשפר בעצם את חוויית הלקוח. אבל – וזה חשוב – זמן בלבד אינו המדד. Sierra משתמשת בסימולציות שחוזרות על שיחות לקוחות אמיתיות המותאמות לזרימת העבודה של כל לקוח. הם מודדים האם הסוכן בעצם משלים את המשימה – לא האם הוא נשמע טוב.

Soham, מצוות מחקר הקול של Sierra, הדגיש שכשלי נפוצים שעוד מטרידים סוכני קול כוללים שגיאות איות בשמות ומספרים (אם הסוכן שומע "Smith" בטעות כ-"Smythe", האם הוא מתאושש בחינם? האם הוא שומר על הטעות בזיכרון ומשתמש בה בקריאת כלים מאוחר יותר?), ושגיאות לוגיות (ביטול הטיסה הלא נכונה). מודלים קסקייד זוהרים בתנאים מבוקרים כי כל רכיב (STT, LLM, TTS) יכול להיות מכוונן בנפרד. אבל voice-to-voice דורש חשיבה מקצה לקצה. GPT-Realtime-2 מציע יתרון כאן – זה מודל reasoning, כלומר יש לו "train of thought" – הוא חושב לפני שהוא מדבר, ויכול להתאושש משגיאות בקלות יותר. עם זאת, Sierra עדיין משתמשת בדגמי VAD (Voice Activity Detection) משלה, מותאמים לאודיו בעולם אמיתי של שירות לקוחות – רעש רקע, ילדים, הפרעות, אנשים משנים כיוון באמצע משפט.

השורה התחתונה המעשית: שיפור של 30% ב-P50 בזמן תגובה משמעותי, אבל שיעור שגיאה של 0.1% בסביבת Fortune 100 מחייב שכבה ייצורית שלמה – לא רק מודל טוב יותר.

ארכיטקטורה, ניהול הקשר ושיטות עבודה מומלצות לבנייה עם Realtime API

הגישה המומלצת לבנייה עם GPT-Realtime-2 מערבת שלוש שכבות: שליטה דקדקנית בזיהוי תורות דיבור (VAD – Voice Activity Detection), ניהול מצב (state) מתוחכם לשיחות ארוכות, וניהול דינמי של הקשר עם מטמון של עד 128,000 טוקנים. זה לא רק בחירה של מודל – זה אורכסטרציה של מערכת שלמה המאזנת בין מהירות, אמינות וביצועים בסביבת ייצור.

אחת התגליות החשובות שעלתה מהעבודה של Sierra עם סוכני קול בייצור היא שהמודל הטוב ביותר בעולם לא יספיק אם לא תשלוט על זיהוי תורות הדיבור. כפי שהסביר Ken Murphy מצוות ה-voice ב-Sierra, הם משתמשים בדגמי VAD מותאמים אישית שהוכשרו ספציפית על שיחות שירות לקוחות בעולם האמיתי – עם רעש רקע כבד, ילדים בסביבה, טלוויזיה, והפרעות בלתי צפויות. OpenAI מספקת VAD בנוי שעובד טוב מהקופסה, אך Terry הדגיש תכונה קריטית שרבים מדלגים עליה: ניתן להשבית VAD לפי תור בודד כדי למנוע הפרעה בזמן הצהרות חובה. משמעות זה היא שאם הסוכן צריך לומר כתב שחרור חוקי או הודעת חובה, אתה יכול להשבית את היכולת של המשתמש להפריע בתור זה, ואז להחזיר את VAD לאחר. זה לא הסתמכות על הנחיות בלבד – זה מניעה פיזית של הפרעה, דבר קריטי בסביבות כמו שיחות ממוסדות פיננסיים או בדיקות רפואיות.

בעיה נוספת שנתקלה בה Sierra היא ניהול שיחות שעוברות את גבול שעה אחת. זו לא בעיה תיאורטית – בסביבת שירות לקוחות של Fortune 100, שיחות יכולות להימשך שעות. הפתרון שהם פיתחו מדגים עיקרון מרכזי בתכנון סוכנים בייצור: לשיחות מעל שעה: לשמור state ולהזריק 128k טוקנים של הקשר לסשן חדש. במילים אחרות, כשאתה מתקרב לגבול הזמן או הטוקנים של סשן, אתה שומר כל מה שהסוכן למד על הלקוח (שמות, מספרי חשבון, הקשר עסקי), מתחיל סשן חדש, ומזריק את כל ההקשר הזה כחלק מהטוקנים הראשוניים של הסשן החדש. בגלל שחלון ההקשר גדל פי 4 ל-128,000 טוקנים, יש לך מרחב עצום להזרקת הקשר זה – שווה ערך לכמעט שעה שלמה של שיחה. זה פותח דפוס שלא היה אפשרי בדגמים הקודמים: סוכן שיכול לשמור על זיכרון הקשר דקדקני על פני שיחות ארוכות מאוד.

הבדל מהותי בין קול לטקסט הוא קצב הדיבור. Terry הדגיש נקודה שאנשים רבים מתעלמים ממנה: דיבור מהיר פי 4 מהקלדה – זה לבדו פותח מקרי שימוש שלא היו אפשריים בטקסט. משמעות זה היא שמשתמש יכול לתאר בעיה מורכבת בעל-פה בעשר שניות, משהו שלוקח דקה או יותר להקלדה. זה משנה את הדינמיקה של כל סוכן – הלקוח יכול להעביר הקשר עשיר הרבה יותר מהר, מה שמשמעותו סוכן צריך להיות מסוגל להטמיע ולעבד מידע בקצב גבוה יותר. Soham מצוות ה-voice research ב-Sierra הוסיף שזה מסבך דברים מרובה: משתמשים מפריעים, משנים כיוון באמצע משפט, ומדברים עם הטעם – וכל זה קורה בו-זמנית. הדגם צריך להטמיע את זה כשהוא מדבר, לא אחרי כן.

כשמדובר בניהול הקשר מתוחכם, Perplexity מספקת דוגמה מעשית. Perplexity השתמשה בניהול הקשר ו-truncation optimization עם Realtime 1.5 – דבר שהיה חיוני כאשר חלון ההקשר היה קטן יותר. עם GPT-Realtime-2, יש לך יותר חופש, אך עדיין צריך להיות אסטרטגי. Erica הדגישה שאתה יכול להזריק הקשר דינמית בכל עת דרך conversation item create, ללא הדלקת תגובת מודל. משמעות זה היא שאתה יכול להריץ כלים ארוכי משך באופן אסינכרוני בעוד הסוכן ממשיך לדבר, ואז להזריק את התוצאות חזרה לתוך ההקשר כשהן מוכנות. זה דפוס קריטי לסוכנים המטפלים בעומסי עבודה מורכבים – אתה לא חוסם את השיחה בהמתנה לתוצאה של כלי.

התובנה המרכזית: ניהול הקשר ו-VAD הם שכבות בקרה שמבדילות בין סוכן שנראה טוב בדמו לבין סוכן שיכול לעמוד בחוזה של Fortune 100 – כששגיאה של 0.1% כבר הופכת את הסוכן לבלתי שמיש בייצור.

שאלות נפוצות

האם GPT-Realtime-2 מחליף לחלוטין את מערכות ה-STT+LLM+TTS המסורתיות, או שכדאי לשמור על גישת קסקייד?

התשובה הקצרה היא: תלוי בדרישות הספציפיות של הפרויקט. GPT-Realtime-2 מבטל את הצורך בשלושה רכיבים נפרדים – תמלול, מודל שפה וסינתזת קול – ומחליף אותם בצינור קול-לקול אחיד. Sierra, שמפעילה סוכנים בסקייל של Fortune 100, מדווחת על שיפור של עד 200% בזמן תגובה ב-P90 לעומת הגישה המדורגת המסורתית.

עם זאת, Ken Murphy מ-Sierra מציין שהם עדיין שומרים על גישה היברידית: עבור סוכנים פשוטים שדורשים תגובה מהירה, GPT-Realtime-2 הוא הבחירה הברורה. עבור זרימות עבודה מורכבות יותר, הם ממשיכים להשתמש במודלים טקסטואליים מסורתיים כמו GPT-5 דרך ארכיטקטורת ה-agent harness שלהם. הגישה הנכונה היא לבנות תשתית הערכה (eval) שמודדת הצלחה מקצה לקצה – לא רק איכות קול, אלא השלמת משימה בפועל.

איך מטפלים בשיחות שעוברות את גבול שעה אחת עם Realtime API?

הפתרון המומלץ הוא שמירת state ו-session rehydration: כאשר שיחה מתקרבת לגבול, פותחים סשן חדש ומזריקים לתוכו את כל ההקשר שנצבר עד כה. עם חלון ההקשר המורחב של 128,000 טוקנים, ניתן לטעון כמעט שעה שלמה של שיחה לתוך הסשן החדש בפרמפט אחד.

Terry מ-OpenAI מדגיש שאותה גישה רלוונטית גם למקרים פחות צפויים: נפילת שיחה, ניתוק מקרי, או לקוח שמתקשר חזרה לאחר זמן קצר. הפתרון המעשי הוא לשמור את ה-state באופן רציף לאורך השיחה כולה – לא רק בסופה – כך שכל נקודת כניסה מחדש מקבלת קונטקסט מלא. כלל האצבע: אל תסמכו על זיכרון הסשן בלבד, שמרו state חיצוני תמיד.

מתי כדאי לאסקלציה מ-GPT-Realtime-2 ל-GPT-5 במהלך שיחה?

Sierra משתמשת בשתי גישות מקבילות בסביבת ייצור. הגישה הראשונה היא supervisor אסינכרוני שסוקר את השיחה בזמן אמת ומחליט האם להזריק מידע נוסף לקונטקסט – מבלי להפריע לזרימת השיחה. הגישה השנייה היא בחירה מוקדמת: עבור סוכנים פשוטים עם דרישות latency גבוהות, GPT-Realtime-2 הוא הבחירה; עבור זרימות עבודה מורכבות עם הרבה כלים ומדיניות עסקית מסובכת, הם עוברים ל-GPT-5 דרך ממשק טקסטואלי.

נקודה טכנית חשובה שמציין Terry: ניתן להזריק תוצאות של tool calls לקונטקסט בכל עת באמצעות conversation item create – מבלי להפסיק את תגובת המודל. כלומר, ניתן להריץ תהליך ארוך ברקע בזמן שה-agent ממשיך לדבר, ואז להזריק את התוצאות כשהן מוכנות. זה מבטל את הצורך בהשהיה ניכרת לצורך reasoning מורכב.

כיצד מתמודדים עם backchannel signals – מילות מילוי כמו "אה", "כן", "בסדר" – שמבלבלות את המודל?

Soham מצוות המחקר של Sierra מגדיר זאת כאחד מכשלי הייצור הנפוצים ביותר: מודלי קול רבים מאומנים להגיב לכל קלט קולי, בעוד שבני אדם מסננים אוטומטית אותות backchannel כמו "מהמ", "כן, בדיוק" ו-"אה". כתוצאה מכך, המודל עלול להפסיק הסבר חשוב באמצע כדי לאשר מה שהמשתמש אמר.

הפתרון המעשי כולל שני רכיבים: ראשית, כוונון ה-VAD (Voice Activity Detection) כך שיזהה אותות קצרים כ-backchannel ולא כתור חדש. שנית, הוספת הוראות מפורשות ב-system prompt שמגדירות אילו סוגי תגובות מצדיקות הפסקה ואילו לא. Sierra משתמשת ב-VAD מותאם-אישית שעבר כוונון ספציפי לאודיו של שיחות שירות לקוחות – כולל רעשי רקע, מבטאים ואנשים שמשנים כיוון באמצע משפט.

האם GPT-Realtime-Translate מתאים לבניית שירות לקוחות רב-לשוני בישראל?

GPT-Realtime-Translate תומך ביותר מ-70 שפות קלט ו-13 שפות פלט עם streaming בזמן אמת – מה שהופך אותו לרלוונטי ביותר לשוק הישראלי, שמאופיין בריבוי שפות: עברית, ערבית, רוסית, אמהרית ואנגל

Exit mobile version