נוסחת ה-JSON הסודית לשליטה מוחלטת ב-Nano Banana 2: המדריך המלא

יעקב אברהמוב

8 שעות ago

נוסחת ה-JSON הסודית לשליטה מוחלטת ב-Nano Banana 2: המדריך המלא

The Pulse:

פרומפט טקסט רגיל גורם ל-Nano Banana 2 "לנחש" את הקשרים בין אלמנטים בכל גנרציה מחדש. JSON מפריד כל אלמנט לשדה עצמאי, ומאפשר שינוי כירורגי של שדה בודד מבלי לגעת בשאר הסצנה.

NB2 רץ על Gemini 3.1 Flash ותומך בעד 5 דמויות ו-14 אובייקטים עם עד 14 תמונות ייחוס בוורקפלו אחד. יותר מ-6 תמונות ייחוס מתחילות לפגוע בדיוק המבני כי המודל מקבל אותות סותרים.

עלות API של NB2 עומדת על $0.08 לתמונה ברזולוציה סטנדרטית לעומת $0.15 ל-Nano Banana Pro. ב-VO3.1, רוב הוורקפלואים המעשיים רצים על 8-15 שניות לקליפ למרות שהפלטפורמה תומכת בקליפים עד 60 שניות.

TL;DR: פרומפטים בפורמט JSON מאפשרים שליטה מדויקת על כל שדה בתמונה שנוצרת ב-Nano Banana 2, בניגוד לפרומפט טקסט רגיל שגורם למודל לנחש ולשבור אלמנטים שלא ביקשת לשנות. הגישה עובדת גם על וידאו ב-VO3.1, ומאפשרת לבנות מערכת ייצור תמונות חזרתית, ניתנת לגרסאות ולשיתוף עם צוות.

JSON כשפת האם של NB2

Nano Banana 2 בנוי על ארכיטקטורת reasoning של Gemini 3.1 Flash. JSON הוא המבנה שהמודל מבין ישירות, בניגוד ל-Midjourney שבו JSON פוגע ביצירתיות.

חילוץ DNA מתמונה

פרומפט אחד ב-Gemini מחזיר JSON מלא של כל אובייקט בתמונה עם חומר, צבע ומיקום. זה הבסיס לכל עריכה כירורגית שתבוא אחר כך.

Character Bible נעול

בלוק JSON אחד שומר על עקביות פנים של דמות בחמש סצנות שונות. עד 6 תמונות ייחוס, לא יותר, לדיוק מבני מיטבי.

Camera Schema Transfer

ניתן לחלץ את פרופיל המצלמה בלבד מתמונת ייחוס ולהחיל אותו על סצנה שונה לחלוטין, כולל עדשת fisheye עם עיוות פרספקטיבה מלא.

JSON עובד גם על VO3.1

אותה שיטה בדיוק עובדת על יצירת וידאו. שדה dialogue עם מרכאות מפעיל lip sync נייטיב, ושדות motion ו-audio הופכים קליפ גנרי לפרסומת קולנועית.

הבעיה שכל מי שעובד עם כלי יצירת תמונות AI מכיר: 40 דקות של איטרציות להגיע לתאורה המושלמת, ובקשה אחת קטנה שוברת הכל. זו לא בעיה של הכלי, זו בעיה של שפה. כשמדברים עם NB2 בפרומפט טקסט, המודל צריך לנחש מחדש את כל הקשרים בין האלמנטים בכל גנרציה. JSON מסיר את הניחוש הזה לחלוטין.

במאמר הזה אעבור על הוורקפלו המלא: מחילוץ JSON מתמונה קיימת דרך Gemini, דרך עריכת שדה בודד, בניית character bible לעקביות דמויות, גניבת פרספקטיבת מצלמה מתמונת ייחוס, ועד יישום אותה שיטה על קליפי VO3.1. כל שלב כולל את הפרומפט המדויק ואת הסיבה שהוא עובד ברמת המנגנון.

למה פרומפט טקסט רגיל שובר את הסצנה – והמנגנון שמאחורי JSON

כשאתה משנה שדה אחד בפרומפט טקסט, המודל מנחש מחדש את כל הסצנה – וכל דבר שהיה מושלם מתפרק. JSON מפריד כל אלמנט לשדה נפרד, כך ש-Nano Banana 2 יודע בדיוק איזה חלק לגעת בו ואיזה להשאיר לבדו. זו לא בעיה של המודל – זו בעיה של איך אתה מדבר אליו.

הבעיה המבנית בפרומפטים כתובים היא שהם דחוסים. כשאתה כותב "כורסה קרם בסלון מודרני עם תאורה חמה ותמונה משקפת חלון גדול," אתה זורק הכל לתוך בלוק אחד. המודל צריך לפרק את הטקסט הזה, להבין אילו חלקים קשורים זה לזה, ולהחליט מה עיקרי ומה משני. כל פעם שאתה משנה משהו – "אוקיי, כורסה אדומה" – המודל מתחיל מחדש. הוא לא מעדכן שדה בודד; הוא משחזר את כל הסצנה עם הנתון החדש, וזה גורם לשאר האלמנטים להשתנות בדרכים שלא ביקשת. הרגע שבו הגדרת את הרגש של התמונה – אור חם, צללים עמוקים, פרספקטיבה ספציפית – הוא נמחק כשאתה מנסה לעדכן צבע.

JSON עובד אחרת לגמרי. במקום בלוק טקסט, אתה מקבל מבנה מסודר שבו לכל אלמנט יש מקום משלו. הכורסה כאן, השטיח שם, המנורה במקום שלישי. כל אחד מהם מכיל תיאור – חומר, צבע, גודל, מיקום – אבל הם מחוברים לא כטקסט אלא כשדות בודדים. כשאתה משנה את צבע הכורסה מ-cream ivory ל-deep burgundy, אתה משנה רק את השדה הזה. המודל יודע שהשטיח לא קשור לשדה הזה, המנורה לא קשורה, התאורה לא קשורה. הוא משנה רק מה שביקשת. פרספקטיבה נשארת זהה, פיקסל לפיקסל. אין הלוציציה, אין ניחושים.

Nano Banana 2 רץ על Gemini 3.1 Flash, ובנוי על אותה ארכיטקטורת reasoning שמפעילה את ה-AI השיחתי של Gemini. זה לא מודל diffusion קדום שמתאים מילים לפיקסלים. הוא מבין יחסים בין אלמנטים – איך הצל של המנורה צריך ליפול על הכורסה, איך הצבע של הקיר משפיע על הצבע של הרהיטים. כשאתה משתמש ב-JSON, אתה מדבר בשפת האם של המודל. אתה לא מכריח אותו לנחש מבנה; אתה נותן לו מבנה מובנה שהוא בנוי להבין. זה גם אומר שאתה יכול לעשות דברים שאתה לא יכול לעשות עם טקסט בלבד – לשנות שדה אחד בדיוק, להחליף אובייקט שלם תוך שמירה על הרגע של הסצנה, להעביר זווית מצלמה מתמונה אחת לתמונה אחרת.

הגישה המקובלת	הגישה של יעקב אברהמוב
פרומפט טקסט אחד ארוך עם כל המידע	JSON מובנה עם שדות נפרדים לכל אלמנט
כל שינוי קטן משחזר את כל הסצנה	שינוי שדה בודד משאיר את השאר ללא שינוי
פרספקטיבה וזווית מצלמה משתנות בכל איטרציה	פרספקטיבה נעולה; רק השדות שביקשת משתנים
דורש 15-40 דורים להגיע לתוצאה סופית	בדרך כלל 2-3 דורים עם עריכה מדויקת
קשה לשתף תבניות עם הצוות	JSON נשמר, מעודכן, משותף כמו בסיס נתונים

עכשיו, דבר חשוב שרוב ההדרכות מדלגות עליו: JSON לא עובד על כל מודל. על Midjourney, זה למעשה גרוע יותר. Midjourney בנוי לחקירה אסתטית, לגיבוש רגשות ויזואליים דרך ניסיון וטעייה. מבנה הורס את היצירתיות שלו. אם אתה משתמש ב-JSON ב-Midjourney, אתה מאבד את היתרון שלו. Nano Banana 2 הוא אחר לגמרי – הוא בנוי כדי להבין מבנה, ולכן JSON הוא לא רק תכונה שימושית, זו הדרך הטבעית שלו לעבוד.

מבחינת גישה, Nano Banana 2 הוא המודל הברירה ב-Gemini החינמי. עד 20 תמונות ביום, ברזולוציה של 1K, ללא כרטיס אשראי. משתמשים בתשלום מקבלים 2K. 4K זמין רק דרך ה-API. דרך API, Nano Banana 2 עולה כ-$0.08 לתמונה ברזולוציה סטנדרטית. Nano Banana Pro, הגרסה בעלת נאמנות גבוהה יותר, עולה $0.15. עבור וורקפלואים של איטרציה, ההבדל הזה מצטבר במהירות – 50 דור בעלות רגילה זה $4, אבל ב-Pro זה $7.50. זו הסיבה שאתה משתמש ב-NB2 לאיטרציה מהירה וב-Pro רק לדור הסופי.

התובנה המרכזית: JSON הוא ההבדל בין ניחוש מחדש של כל הסצנה לבין עריכה כירורגית של שדה בודד – וזה מעניק לך שליטה שטקסט בלבד לא יכול לתת.

הנוסחה המלאה: מ-Gemini Extraction ועד עריכת שדה בודד בלי לשבור שום דבר

כשאתה מחלץ JSON מתמונה דרך Gemini ואז משנה שדה בודד – צבע, חומר, או פרספקטיבה – המודל יודע בדיוק איזה אלמנט לגעת בו ואיזה להשאיר במקום. זה ההבדל בין 40 דקות של ניסיון וטעייה לבין שלוש דקות של שליטה כירורגית. הנה הוורקפלו המלא, שלב אחר שלב.

ההתחלה היא בחילוץ. אתה לוקח כל תמונה שאתה אוהב – סלון, דמות, מוצר – ודורך אותה ל-Gemini עם פרומפט אחד: "Extract all the information from this image and convert it into structured JSON." מה שחוזר בחזרה הוא DNA של כל אובייקט בסצנה. הכורסה מתוארת כ-cream ivory, linen fabric. השטיח כ-wool, cream. המנורה כ-brass base, white shade. כל אלמנט קיבל את השדות שלו: צבע, חומר, מיקום, פרופורציות. זה לא תיאור טקסט רגיל. זה מסד נתונים שאתה יכול לערוך ישירות. כשתעביר את ה-JSON הזה חזרה ל-Nano Banana 2 עם הפרומפט "Modify this image based on the following JSON," המודל יודע שהוא עובד עם שדות שונים, לא עם blob של טקסט מעורבב. השינוי של שדה אחד – armchair color: cream ivory → deep burgundy – לא משפיע על השטיח, על המנורה, על הפרספקטיבה. הם נשארים pixel-for-pixel זהים. זה לא ניחוש. זה ניתוח מבני.

כשאתה רוצה לדחוף יותר, אתה משנה שני שדות בו זמנית: armchair material: linen → velvet, lamp base: brass → matte black. דיוק כירורגי. כל שאר הסצנה – הרצפה, התאורה, הקומפוזיציה – נשמרת ללא שינוי. זה מה שנותן JSON לך. במקום להקליד "make the chair red and the lamp black and keep everything else exactly the same," אתה משנה שני שדות במסד נתונים ו-Nano Banana 2 מבין בדיוק מה הנתונים שלך. הוא לא צריך לנחש. הוא לא מעביר את הסצנה דרך חזון מחדש כל פעם. הוא עורך.

יש שימוש מתקדם שרוב המשתמשים דילגים עליו: style transfer עם שמות מצלמות וסרטים אמיתיים. כשאתה מחלץ JSON מתמונת ייחוס, אתה לא מחלץ מה שנמצא בתמונה. אתה מחלץ איך היא צולמה. lighting setup, color grading, lens character, grain, post-processing. וכאן הוא הטריק: כשה-JSON חוזר עם שמות ספציפיים כמו Hasselblad או Kodak Portra, אלה לא קישוט. Nano Banana 2 נוצר על מיליוני תמונות צילום אמיתיות. שמות מצלמות וסרטים אמיתיים מפעילים visual priors מדויקים שהמודל למד מהם. עדשת 85mm portrait מייצרת תוצאות שונות מהותית מ-"portrait lens" גנרי. כשאתה לוקח את ה-style JSON הזה ומחיל אותו על תמונה אחרת של אדם שונה, בפוזה שונה, במקום שונה, אתה מקבל את אותה אסתטיקה צילום. אותה temperature, אותה grain structure, אותו character של הלנס. אתה חוסך עשרות דורים של "hope it works." אתה שומר את ה-JSON הטוב ביותר שלך, ואתה משתמש בו שוב בכל דור עתידי. כל פוסט נראה כאילו הוא שייך לאותה מערכת ויזואלית.

כשאתה צריך לשנות אובייקט שלם – להחליף כיסא, להחליף שולחן – אתה עובד עם שתי JSON בנפרד. אתה מחלץ JSON של הרהיט הישן עם פרופורציות וקואורדינטות מרחביות. אתה מחלץ JSON של הרהיט החדש מתמונת ייחוס. ואז אתה אומר ל-Gemini: "Merge the two. Swap the existing armchair in JSON A with the chair from JSON B, preserving the original room's lighting and perspective." המודל מבין את ההקשר המרחבי. הצללים מחלון הרהיט החדש נוחתים בזוויות נכונות. הכרית שהייתה על הכיסא הישן נמצאת על החדש. הכיוונון, שהיה שונה לחלוטין בתמונת הייחוס, מתוקן כדי להתאים לחדר. זה בקרה קומפוזיציונית. אתה לא יכול לעשות את זה עם פרומפטים טקסט ללא 20 דורים של שריפה.

התובנה המרכזית: JSON הופך כל עריכה לפעולה בודדת וקטגוריה – לא בחזון מחדש של הסצנה כולה. כשאתה משנה armchair color בשדה אחד, Nano Banana 2 משנה את הצבע בלבד, לא את התאורה, לא את הפרספקטיבה, לא את כל השאר שעבד. זה מה שהופך את JSON לנוסחה המעשית ביותר לשליטה בתמונות AI בקנה מידה.

Character Bible ו-Camera Transfer: שני שימושים מתקדמים שרוב המשתמשים מוותרים עליהם

איך שומרים על עקביות פנים של דמות בסצנות שונות, ואיך גונבים פרספקטיבת מצלמה מתתמונת ייחוס? Character Bible בפורמט JSON מעוגן הוא בלוק קוד שנעול – הוא לא משתנה בין סצנות, רק השדות של סצנה, תאורה וביגוד משתנים. Camera Transfer מחלץ את ה-schema של העדשה, המרחק המוקד, עומק השדה וההיסט של הפרספקטיבה מתמונת ייחוס אחת ומיישם אותו על סצנה שונה לחלוטין – כל זה בלי לשבור את הקומפוזיציה.

הבעיה שרוב המשתמשים פוגשים היא שדמות משתנה כל פעם שמשנים סצנה. הגישה הסטנדרטית – כתיבת תיאור טקסט ארוך של הדמות והדבקתו בכל פרומפט חדש – לא עובדת. כל סצנה היא קונטקסט חדש, והמודל לא זוכר. הפנים משתנות, השיער משתנה, אתה מקבל אדם אחר בכל פעם. הפתרון אינו פרומפט ארוך יותר. זה בלוק JSON נעול שנקרא Character Bible. Nano Banana 2 תומך בעד 5 דמויות ו-14 אובייקטים בוורקפלו אחד עם עד 14 תמונות ייחוס – זו תכונה מובנית ב-NB2, לא משהו שצריך לשדרג ל-Pro כדי לקבל. אתה כותב את הבלוק הזה פעם אחת, ואז אתה מדביק אותו כמו שהוא לחמש סצנות פרומפט שונות: בית קפה, גג, סטודיו, רחוב, משרד. רק השדות של סצנה, תאורה וביגוד משתנים. בלוק ה-Character Bible לא זז. אותה פנים, חמש סצנות עקביות, בלוק אחד.

מבנה ה-Character Bible עצמו הוא פשוט אך חזק. אתה מוגדר "style_lock" array שאומר ל-NB2 מה לא ניתן לשינוי: מבנה הפנים, צבע העיניים, סימנים מובחנים, גם כל דבר אחר בסצנה, מצב רוח, תאורה, הוא גמיש. הזהות נשארת נעולה. כאשר אתה מוסיף תמונות ייחוס של הדמות, יש שני דברים שישמרו עליך הרבה תסכול. ראשית, אם אתה מעלה תמונות ייחוס, הגבל את זה לשש תמונות. זה נראה נגד-אינטואיטיבי, אבל הוספת יותר משש למעשה מתחילה להשפיע על דיוק מבני. המודל מקבל אותות סותרים כשיש יותר מדי זוויות או תאורה שונה. שש ייחוסים נקיים מובילים לתוצאות טובות בהרבה מ-14 בינוניים. שנית, כאשר אתה משתמש בתמונות ייחוס, שמור על תיאור הטקסט שלך מינימלי. פשוט תווית את הדמות "דמות A" והנח לתמונות המועלות לעשות את העבודה. שילוב תיאור טקסט ארוך על תמונות ייחוס גורם לשני המקורות להילחם זה בזה – הפתרון הוא תווית אחת בלבד ועד שש ייחוסים. זה הצירוף שמחזיק.

טיפ מתקדם נוסף: ב-Gemini יש בחירת מודל drop-down עם מצבי "Fast" ו-"Thinking" ו-"Pro". עבור דמויות מורכבות, סצנות עם מספר נושאים וקשרי תאורה ספציפיים, עבור מ-Fast ל-Thinking. זה אותו מודל NB2, אך הוא חושב בעדינות רבה יותר לפני הגנרציה. מצב Thinking ב-Gemini (drop-down selector) מאפשר reasoning מעמיק יותר לפני הגנרציה לסצנות מורכבות. רוב האנשים מתעלמים לחלוטין מה-drop-down הזה. עכשיו, עקביות דמות היא חלק אחד. ברגע שיש לך דמות יציבה, השלב הבא הוא להראות אותה מזוויות מצלמה מרובות. אנחנו בנינו סרטון מוקדש לחלוטין בדיוק לכך – איך ליצור זוויות מצלמה מרובות מתמונת ייחוס אחת באמצעות Nano Banana Pro.

Camera Transfer היא התכונה המתקדמת שמעוררת את הדברים ביותר. אתה לוקח את פרספקטיבת המצלמה מתמונה אחת – עדשה, אורך מוקד, עומק שדה, framing – ומיישם אותה על סצנה שונה לחלוטין. המפתח הוא בידוד. אתה חולץ רק את ה-camera JSON: אורך מוקד, aperture, פרספקטיבה, distortion, placement של נקודת המוקד. שום דבר על החדר עצמו, סכמה טהורה של מצלמה. אותה חדר שינה, אותה רהיטים, אותם צבעים, אבל המצלמה היא עכשיו fisheye. ה-AI היה צריך להיות hallucinate את הקצוות, דברים מחוץ לפריים המקורי, אבל ה-transfer של הפרספקטיבה עצמו הוא חסר פגמים. אתה פשוט גנבת בחירת עדשה של cinematographer והחלת אותה על הסצנה שלך. זה הופך את ה-camera JSON לשונה מ-object JSON או lighting JSON – הוא מתמקד בחלוטין בחומרה ובגיאומטריה, לא בתוכן הסצנה.

התובנה המרכזית: Character Bible ו-Camera Transfer מחליפים את שתי הבעיות הגדולות ביותר בעבודה עם וידאו וסצנות מרובות – drift של דמויות וחוסר עקביות של קומפוזיציה – על ידי בידוד של הזהות מהסצנה, ויצירת שכבות בלוק JSON שנעולות על זוויות מצלמה. זה הופך את הוורקפלו מ"נסה שוב" ל"שנה שדה אחד, שמור את כל השאר."

JSON לוידאו ב-VO3.1: מפרסומת מוצר ועד דמות מדברת עם lip sync

אותה שיטת JSON עובדת גם על וידאו ב-VO3.1, אך עם שדות נוספים לתנועה, משך הקליפ ואודיו. השדה dialogue עם מרכאות מפעיל את ה-lip sync הנייטיבי של VO3, וזה מאפשר לך ליצור סרטי מוצר ודמויות מדברות בשיטה דטרמיניסטית בלי ניחושים.

הרחבת JSON לוידאו היא אחד מהשימושים המתקדמים ביותר שרואים בשוק כרגע. VO3.1 תומך בקליפים עד 60 שניות, אך רוב הוורקפלואים המעשיים דרך Flow ו-Vertex רצים על 8-15 שניות לקליפ. הסיבה היא שיותר קצר = יותר תהליכים של ייצור מתוך תקציב נתון, ויותר קל לשלוט בעקביות בין קליפים. כשאתה בונה VO JSON, אתה מוסיף שדות שלא קיימים בתמונה סטטית: motion (תנועת המצלמה), camera_movement (זום, pan, tilt), duration (משך בשניות), ו-audio_cues (רמזים לאודיו או מוזיקה רקע). זה מפריד בין מה שקורה בסצנה (עצמים נעים, דמויות נעות) ובין איך המצלמה רואה את זה (זום לאט, סיבוב, סטטיק).

דוגמה ראשונה: פרסומת משקה. אם אתה משתמש בפרומפט טקסט רגיל ל-VO, אתה כותב משהו כמו "סרטון של פחית משקה על שולחן, אור זהוב, המצלמה זומת פנימה". VO יעשה משהו סביר. עם JSON, אתה מחלץ ב-Studio Assistant את כל הנתונים: עצם הפחית (חומר, צבע, לוגו), תאורה (golden hour, rim lighting, כיוון האור), תנועה (dolly push, מהירות, משך), ואודיו (ambient sound, מוזיקה רקע, pitch). כשאתה מפעיל את הגנרציה, VO קורא כל שדה בנפרד ויוצר סרטון קולנועי בתשובה אחת. אין ניסיונות מרובים, אין "אה, הוא זום בכיוון הלא נכון". JSON אומר בדיוק מה קורה, ומתי.

דוגמה שנייה, שדה dialogue: זהו הטריק שמסנכרן שפתיים. כשאתה כותב dialogue עם מרכאות בתוך שדה VO JSON (למשל: "dialogue": "Hello, I'm your AI assistant"), VO3 מפעיל את ה-lip sync הנייטיבי שלו. המודל קורא את הטקסט, משדר את המילים דרך קול (TTS או קול שהעלית), וסנכרן את תנועת השפתיים של הדמות לכל הברה. זה לא עובד בפרומפט טקסט רגיל – אם אתה כותב "דמות מדברת שלום", VO עלול לייצר דמות שמזיזה את הפה אבל הטקסט לא מסתנכרן. עם JSON ו-dialogue שדה עם מרכאות, זה מובטח. אתה גם יכול להוסיף שדה emotional_tone ("excited", "somber", "neutral") כדי לשלוט בטון הקול והביטוי הפנימי.

עכשיו, יש טריק קהילתי שכל מי שעובד עם VO צריך לדעת עליו: timestamp prompting. זה לא תכונה מתועדת רשמית ב-API של VO, אבל זה עובד בפועל. במקום לכתוב "scene 1, scene 2, scene 3", אתה כותב בתוך ה-JSON: "0:03 scene 1 – דמות נכנסת לחדר", "0:06 scene 2 – מצלמה זומת לפנים". VO קורא את הטיימסטמפים ומנסה ליישר את כל אלמנט לרגע הנכון בסרטון. זה עובד, אבל זה community workflow, לא guarantee רשמי. אם אתה משתמש בו, שמור על מדויקות: אם אתה אומר "0:05 sound effect", ה-sound effect חייב להתחיל בדיוק ב-5 שניות, או כל הקליפ יהיה מחוץ לסנכרון. אם אתה לא בטוח, דחה את timestamp prompting ותן ל-VO לעשות את הסדר בעצמו.

מגבלה אחרונה שחשובה: VO3.1 מושתק אוטומטית כשדמויות מתוארות כילדים קטנים מאוד או גורי בעלי חיים. זה פרוטוקול בטיחות – Google לא רוצה AI שמייצר קול של ילדים בלי בקרה. אם אתה צריך דמות צעירה שמדברת, תאר אותה כ-"young adult" או "teenager". אם אתה צריך בעל חיים שמדבר, תאר אותו כ-"anthropomorphic creature" או "character designed as an animal". הקול חוזר מיד. זה לא עקיפה, זה פשוט תיאור שונה של אותה דמות.

התובנה המרכזית: JSON בוידאו פותח את הדלת לסרטוני מוצר וסרטוני דמויות שנראים כמו הפקות מקצועיות בתשובה אחת – בלי עריכה, בלי ניסיונות מרובים, בלי סנכרון ידני של אודיו.

שאלות נפוצות

מה ההבדל בין מצב Fast למצב Thinking ב-Gemini, ומתי כדאי לעבור ביניהם?

מצב Fast הוא ברירת המחדל: הוא מהיר, חסכוני ומספיק לסצנות פשוטות עם אובייקט אחד או שניים ותאורה ישירה. מצב Thinking מפעיל שרשרת reasoning (שרשרת חשיבה) עמוקה יותר לפני שהמודל מתחיל לגנרט. ההבדל מורגש בסצנות עם מספר דמויות, אינטראקציות תאורה מורכבות, או כשמשלבים character bible עם camera transfer בו-זמנית. הכלל המעשי שלי: אם ה-JSON שלך מכיל יותר מ-4 אובייקטים עצמאיים עם תנאי תאורה שונים, עבור ל-Thinking. הזמן הנוסף שווה את ההשקעה.

איך עובד הוורקפלו של "redo with Nano Banana Pro" ומתי משתלם להשתמש בו?

אחרי שאיטרציה ב-NB2 הגיעה לקומפוזיציה שמתאימה לך, לחץ על תפריט שלוש הנקודות על התמונה שנוצרה ובחר "redo with Nano Banana Pro". הפעולה שולחת את אותו JSON ואותה קומפוזיציה מדויקת לרנדור מחדש במודל Pro, שעולה $0.15 לתמונה לעומת $0.08 ב-NB2 הרגיל. הלוגיקה הכלכלית ברורה: מבזבזים דולרים בזולים על איטרציות, ומוציאים את הפרמיה רק על הגרסה הסופית שיוצאת ללקוח. לא כדאי להתחיל מיד ב-Pro, כי כל שינוי שדה עולה כמעט פי שניים.

מה קורה כשמשאירים שדה "exterior weather visible: true" ב-JSON של תאורה, ולמה הווילונות נעלמים?

כשהשדה הזה קיים ב-JSON, המודל מפרש אותו כהוראה להוכיח שהמזג אוויר החיצוני נראה בסצנה. התוצאה: הוא מסיר את הווילונות כדי לחשוף את החלון ולאפשר ראיית הגשם. זהו דוגמה מצוינת לאופן שבו מילים כמו visible, dramatic ו-exposed פועלות כהוראות קומפוזיציה ולא רק כתיאורים. הפתרון פשוט: מחק את השדה הזה לחלוטין מה-JSON וגנרט מחדש. הרהיטים ישארו במקומם והמצב-רוח האטמוספרי ישמר. כלל אצבע: בדוק כל שדה ב-JSON שלך לפני שליחה ושאל את עצמך האם הוא מכריח את ה-AI לשנות קומפוזיציה כדי "להוכיח" את השינוי.

האם timestamp prompting ב-VO3.1 אמין מספיק לעבודת לקוחות?

Timestamp prompting, כלומר פורמט של 0:03 scene 1, 0:06 scene 2 כדי לכוון מספר שוטים בגנרציה אחת, הוא community workflow ולא תכונה מתועדת רשמית ב-API של VO3.1. זה אומר שהוא עובד בפועל אבל אין לו ערבות יציבות לאורך זמן. לעבודת לקוחות שבה חייבים תוצאה חזרתית, ההמלצה שלי היא לגנרט כל קליפ של 8-15 שניות בנפרד עם JSON עצמאי, ולמנות בצד את ה-timestamps כשכבת ניסוי. חשוב במיוחד: אם משתמשים ב-timestamps, חובה שה-audio timestamps יתאימו בדיוק ל-scene timestamps, אחרת כל הקליפ יוצא לא מסונכרן.

מה המגבלה המעשית של תמיכת NB2 ב-14 אובייקטים ו-5 דמויות בוורקפלו אחד?

על הנייר, NB2 תומך ב-עד 5 דמויות ו-14 אובייקטים עם עד 14 תמונות ייחוס בוורקפלו אחד. בפועל, המגבלה הקריטית היא לא המספר המרבי אלא איכות הייחוסים: יותר מ-6 תמונות ייחוס לדמות אחת מתחילות לדגרד את הדיוק המבני כי המודל מקבל אותות סותרים. הנוסחה שעובדת בפועל היא 6 ייחוסים איכותיים לכל דמות, עם תווית טקסט מינימלית בלבד. אם הוורקפלו שלך מכיל 3 דמויות, זה אומר עד 18 תמונות ייחוס בסך הכל, אבל חלוקה נכונה של 6 לכל אחת, לא 14 לאחת ו-4 לשתיים האחרות.

AuthorityRank

רוצה לדעת איפה האתר שלך עומד?

עסקים שמשתמשים בתוכן ממוקד SEO מקבלים 67% יותר לידים מעסקים שלא. ניתוח SEO מקצועי חושף בדיוק איפה אתה מפסיד תנועה ומה צריך לתקן קודם.

אנחנו מבצעים ניתוח SEO מקצועי בחינם. פנה אלינו בוואטסאפ עכשיו.

צור קשר בוואטסאפ

קראו עוד במגזין SEO של AuthorityRank