הסוכן הראשון שלך — להריץ משימה אמיתית מקצה-לקצה, מפוקח

מה תוכלו לעשות אחרי הפרק הזה

להתקין Chrome extension של סוכן (Claude in Chrome או Codex for Chrome), לחבר אותו לחשבון שלכם, ולמפות בעצמכם את הרשאות ה-Chrome הרחבות שהענקתם — debugger, read/modify all sites, history, downloads — ולהסביר למה כל אחת מהן נדרשת
להריץ משימת קריאה-בלבד אמיתית מקצה-לקצה — לסכם dashboard מחובר או לאסוף מידע על-פני מספר tabs לתוך טבלה — ולאמת את התוצאה בעיניים
לתפעל את ה-per-site confirmation prompt (Allow this chat / Always allow host / Decline) כגבול אבטחה, ולנמק בכתב מתי לבחור כל אופציה — לפי סיכון האתר וסיכון הפעולה
לפקח על ריצה חיה בLive View/streaming — להשתמש ב-pause, interrupt, take-over — ובמקביל להריץ את אותה משימה ב-Browser Use OSS המקומי, כדי להוכיח שהנתיב החינמי קיים ושווה-ערך

לפני שמתחילים

פרקים קודמים: פרק 1 — "מה זה בעצם סוכן שמפעיל את המחשב (ומה זה לא)" — חובה. פרק 2 — "נוף 2026 — מי עושה מה" — חובה. בלי ההבחנה בין computer-use / browser-use / API-first, ובלי מפת המוצרים, הבחירה בכלי להרצה הראשונה תהיה ניחוש.
מה תצטרכו: Chrome רשמי (לא Edge, לא Brave, לא Arc, לא Opera — גם אם מבוססי Chromium), חשבון בתשלום לפחות לאחד מהספקים האלה — Claude Pro/Max, ChatGPT Plus/Pro, או גישה ל-GLM-5.1 דרך Z.AI לנתיב ה-DIY. אופציונלי: Python 3.13 + Playwright + Chromium על המכונה שלכם להרצה מקבילה ב-Browser Use.
זמן משוער: 80-100 דקות קריאה + 90-120 דקות תרגול (התקנה, הרצת משימה read-only ב-extension, הרצה מקבילה ב-Browser Use, תיעוד).

הפרויקט שלך — איפה אנחנו במסלול

בפרק 1 בניתם את המודל המנטלי, ובפרק 2 קיבלתם מפת מוצרים שמחזיקה גם כשמוצר נסגר. בפרק 3 (זה) אנחנו הופכים את שניהם לזיכרון-שרירי: אתם מתקינים extension, מריצים משימה אמיתית read-only על session מחובר, רואים את ה-per-site confirmation, לוחצים pause, ומקבלים תוצר בר-בדיקה. במקביל, אתם מריצים את אותה משימה על Browser Use OSS מקומי וחינמי — כדי שתראו במו עיניכם שהפתרון לא תלוי בספק. בפרק 4 נרחיב את ההחלטה לשלוש קטגוריות: hosted agent מול DIY framework מול deterministic — בהתבסס על יציבות-משימה, נפח, רגישות-נתונים, אזור, תקציב ו-vendor lock-in. בפרק 7 (הקפסטון) תבנו את ה-workflow הראשון האמיתי שלכם, תמדדו אותו על פני 10 הרצות, ותחליטו אם הוא production-ready.

מתחיל 10 דקות בחירה extension

הכלי הראשון שלך — Claude in Chrome או Codex for Chrome, ולמה

לפני שאתם פותחים את Chrome Web Store, עצרו לרגע. ההחלטה "באיזה extension להתחיל" היא לא על "מי הכי טוב" — היא על מה הכי זמין לכם, במדינה שלכם, בחשבון שלכם. ב-2026 הנוף הזה דינמי, ומה שעבד בשבוע שעבר עלול לא לעבוד השבוע. חמש דקות של תכנון מקדים יחסכו לכם שעה של debug באמצע.

Claude in Chrome הוא הנתיב הפשוט ביותר להתחלה בישראל, מכמה סיבות. ראשית, הוא זמין בכל תוכנית בתשלום של Anthropic — Pro, Max, Team, Enterprise — בלי צורך ב-tier נפרד. הוא היה research-preview באוגוסט 2025, ובדצמבר 2025 הוא נפתח לכל התוכניות בתשלום. שנית, הוא מגיע עם ידע מובנה על איך להפעיל את Slack, Google Calendar, Gmail, Google Docs, ו-GitHub — חמש אפליקציות שרוב הצוותים בארץ משתמשים בהן. שלישית, יש לו אינטגרציה עם Claude Code (build-test-verify loop) שמאפשרת לבנות בטרמינל ולאמת בדפדפן.

Codex for Chrome הוא הנתיב השני המומלץ. הוא הושק ב-7 במאי 2026, מותקן מתוך Codex Plugins (לא מ-Chrome Web Store), ופועל עם הפרופיל המחובר שלכם. הוא זמין ב-ChatGPT Plus/Pro/Business, אבל לא זמין ב-EU או UK בהשקה. ישראל מבחינה גיאוגרפית מחוץ ל-EU, אבל ההרצה לרוב מתחילה ב-US-then-rollout — לכן חובה לאמת גישה מהחשבון שלכם לפני שאתם מתחילים לבנות עליו. אם אתם כבר משלמים על ChatGPT Plus/Pro, Codex for Chrome נכלל בלי תוספת תשלום. אם לא, תצטרכו להחליט אם להירשם רק בשביל ה-extension, או ללכת על Claude.

ההחלטה המעשית לרוב הלומדים: אם כבר יש לכם Claude Pro/Max, התחילו ב-Claude in Chrome. אם כבר יש לכם ChatGPT Plus/Pro ואתם רואים שה-extension זמין בחשבון שלכם, לכו על Codex. אם אין לכם אף אחד מהשניים, שקלו את הנתיב החינמי — Browser Use OSS עם vision LLM דרך Z.AI (GLM-5.1) — שיוצג בהמשך הפרק, ושלא דורש תשלום חודשי כלל.

Framework 1 — "השאלה האחת" לפני בחירת כלי להרצה ראשונה

לפני שאתם מתקינים, ענו על שאלה אחת בלבד, בכנות: "האם יש לי כבר חשבון בתשלום אצל הספק שמציע את ה-extension שאני רוצה?" אם התשובה "כן" — זה הכלי. אם "לא" — אל תירשמו לחשבון חדש רק בשביל ההרצה הראשונה. ההרצה הראשונה היא לימוד, לא פרודקשן. תלמדו עם Browser Use החינמי, ואחר כך תחליטו אם שווה לשלם.

יש לי Claude Pro/Max → Claude in Chrome. התקנה מ-Chrome Web Store, אימות חשבון, מוכן.
יש לי ChatGPT Plus/Pro, ואני רואה Codex for Chrome בחשבון שלי → Codex for Chrome. התקנה מ-Codex Plugins, אימות, מוכן.
אין לי אף אחד מהשניים, או שאני רוצה ללמוד בלי לשלם → Browser Use OSS מקומי + GLM-5.1 דרך Z.AI. דורש Python 3.13 ו-Playwright, אבל חינמי לחלוטין.
יש לי שניהם, ואני לא יודע לבחור → Claude in Chrome. הוא יציב יותר, פחות churn בשבועות האחרונים, ויש לו אינטגרציות מובנות שחוסכות זמן.

אחרי שבחרתם, רשמו את ההחלטה ב-Google Doc או Notepad. "כלי להרצה ראשונה: ____ , סיבה: ____ , plan: ____ , תאריך התקנה: ____". זה יהיה הקלט לכל המדידה בהמשך.

מתחיל 12 דקות התקנה הרשאות

התקנה וחיבור — ההרשאות הרחבות שאתם מעניקים, ולמה הן נדרשות

עכשיו החלק שבו רוב הלומדים מדלגים על הקריאה ופשוט לוחצים "Add to Chrome" או "Install". זו טעות. ההרשאות שה-extension מבקש הן הסיבה שהוא יכול לעבוד — והן גם הסיבה שאם תתקינו אותו בפרופיל הלא-נכון, אתם פותחים blast radius עצום. בואו נפרק את ההרשאות אחת-אחת.

כש-Chrome מציג לכם את רשימת ההרשאות, אלה הקטגוריות המרכזיות שתראו:

Read and change all your data on websites — זו ההרשאה שמאפשרת לסוכן לראות מה יש בכל אתר שאתם גולשים אליו, וגם לשנות טפסים, ללחוץ כפתורים, להזין טקסט. בלי זה, הוא לא יכול למלא שום טופס. הסיכון: אם מותקן בפרופיל הראשי, יש לו גישה לכל סשן מחובר.

Read your browsing history — מאפשר לסוכן להבין איפה הייתם ולקבל הקשר. גם דרך זו הוא יכול לדעת שיש לכם סשן פתוח ב-Gmail, ב-Salesforce, ב-portal של ספק. הסיכון: דליפת היסטוריית גלישה למודל.

Manage your downloads — מאפשר לסוכן להוריד קבצים: חשבוניות, דוחות, קבצי CSV. הסיכון: הוא יכול להוריד גם דברים שלא ביקשתם, אם הוא מפרש לא נכון.

Debugger — גישה ל-Chrome DevTools. זה מה שמאפשר ל-Claude Code לקרוא console errors, לבדוק network requests, ולבצע build-test-verify. רוב המשתמשים לא צריכים את זה למשימות read-only, אבל ה-extension מבקש את זה מראש.

Tab Groups — יכולת לקבץ טאבים. זה תמים לכאורה, אבל זה גם אומר שהסוכן יכול לפתוח טאבים חדשים בשמכם. הסיכון: אם הוא נתקע בלולאה, הוא עלול לפתוח עשרות טאבים ריקים.

למה כל ההרשאות האלה נדרשות? כי מודל ה-computer-use עובד כך: הוא מצלם את המסך, רואה אלמנטים על הדף, צריך גישה ללחוץ עליהם ולהקליד בהם. בלי גישה "read and change all data" — הוא יכול לראות את המסך, אבל לא לפעול. בלי "manage downloads" — הוא לא יכול לשמור קבצים. זה לא "הרשאות מפחידות" — זה המחיר של היכולת. ההחלטה אינה "להעניק או לא" אלא "באיזה פרופיל להעניק".

פרופיל ייעודי לסוכן — חובה, לא המלצה

הטעות הקריטית של מתחילים היא להתקין את ה-extension בפרופיל הראשי של Chrome, שבו מחוברים Gmail, בנק, Salesforce, LinkedIn, ועוד עשרות חשבונות. ברגע שהסוכן רץ — גם אם רק read-only — הוא רואה הכל. הפתרון הוא פרופיל נפרד.

Chrome תומך בפרופילים מרובים (Settings → You and Google → Add person). צרו פרופיל חדש בשם "Agent" או "Sandbox", התקינו בו את ה-extension, והתחברו רק לחשבונות שאתם רוצים שהסוכן יראה. בפרק 6 נרחיב את ההיבט של הפרופיל הייעודי, הרשאות מינימליות, ו-memory isolation. לעת עתה, מספיק לזכור כלל אחד: אל תתקינו את ה-extension בפרופיל הראשי שלכם לפני שהבנתם איך הוא מתנהג.

תהליך ההתקנה עצמו קצר. ל-Claude in Chrome: פתחו Chrome Web Store, חפשו "Claude", לחצו "Add to Chrome", אשרו הרשאות, יופיע חלון קופץ שמבקש login ל-Anthropic. ל-Codex for Chrome: פתחו Codex (אפליקציה או web), לכו ל-Codex Plugins, חפשו "Chrome", לחצו Install, ה-extension מותקן ומופעל אוטומטית. בשני המקרים, אחרי ההתקנה תראו את האייקון של הסוכן ב-toolbar של Chrome.

Do Now — 5 דקות (בחירת כלי + פרופיל)
לפני שאתם פותחים את Chrome Web Store, ענו ב-Notepad על 3 שאלות: (1) איזה חשבון בתשלום יש לי? (2) האם אני רואה את ה-extension בחשבון שלי? (3) באיזה פרופיל Chrome אני מתקין? תוצאה צפויה: 3 שורות. השלישית חייבת להיות "פרופיל חדש וייעודי" — אם לא, חזרו לקרוא את הסעיף לפני שאתם מתקינים.

מתחיל 9 דקות קריאה-בלבד חוק זהב

חוק הזהב של ההרצה הראשונה — Read-Only First

זה הכלל שיחסוך לכם הכי הרבה כאב ראש, ולכן הוא הראשון שאתם לומדים. ההרצה הראשונה שלכם עם סוכן חייבת להיות משימת קריאה-בלבד. אפס פעולות כותבות. אפס שליחת מיילים. אפס עדכון רשומות. אפס מחיקה. רק צפייה, סיכום, איסוף מידע, חישוב.

למה? כי אתם עדיין לא יודעים איך הסוכן מתנהג. אתם לא יודעים אם הוא מפרש נכון את ה-prompts שלכם, אם הוא מבצע פעולות באתר הנכון, אם הוא מסוגל להתאושש משגיאה. כל פעולה כותבת בהרצה הראשונה היא הימור — ואם הסוכן טועה, אתם לא יכולים לבטל. מייל שנשלח אי אפשר לקחת בחזרה. רשומה ב-CRM שעודכנה אי אפשר לבטל בלי trace.

משימת קריאה-בלבד, לעומת זאת, היא בטוחה גם אם הסוכן טועה. אם הוא מסכם dashboard בצורה לא נכונה, תראו את הטעות בעיניים, תתקנו את ה-prompt, ותריצו שוב. אם הוא טועה בזיהוי של טאב, הוא פשוט יקרא טאב לא נכון — לא ימחק כלום. הסיכון הוא אפסי, הלמידה היא מקסימלית.

מה נחשב "קריאה-בלבד"?

לא כל משימה שנראית "בטוחה" היא באמת קריאה-בלבד. דוגמאות ברורות:

כן, קריאה-בלבד: לסכם את כל המיילים מהיום האחרון ב-Gmail. לקרוא את המספרים מ-dashboard של אנליטיקס. להוציא רשימת הזמנות מפורטל ספק. לאסוף שמות וטלפונים מ-LinkedIn. להשוות מחירים משלוש אתרי סחר.

לא, זה כתיבה: לשלוח מייל. לעדכן תאריך ב-Calendar. לסמן מייל כנקרא. להוריד חשבונית (כי זה יוצרת קובץ חדש במערכת). למלא טופס וללחוץ Submit.

תלוי: להוריד דוח (קובץ עובר למחשב שלכם, זו לא כתיבה במערכת המקור — אבל זה כן side-effect במכונה שלכם).

הכלל המעשי: אם אתם לא בטוחים אם פעולה היא קריאה או כתיבה, הניחו שהיא כתיבה, ואל תתנו לסוכן לבצע אותה. בפרק 6 נלמד לסווג פעולות בצורה שיטתית לפי blast radius — אבל להרצה הראשונה, conservative bias הוא הבחירה הנכונה.

טעות נפוצה: להריץ משימה כותבת כבר בהרצה הראשונה
הסיפור הכי נפוץ בקבוצות הדיון של Claude in Chrome ושל Codex for Chrome הוא: "הפעלתי את הסוכן, הוא הלך לאתר הלא נכון, לחץ Submit על טופס שלא התכוונתי אליו, ועכשיו אני צריך לבטל פעולה". ההגנה היחידה היא לא לתת לסוכן להגיע לכפתור Submit בהרצה הראשונה. קריאה-בלבד, ורק קריאה-בלבד. את הכתיבה תלמדו בפרק 6, עם gates של אישור אנושי.

מתחיל 15 דקות משימה tabs

משימת קריאה-בלבד לדוגמה — לסכם dashboard מחובר על-פני tabs

עכשיו אתם יודעים שההרצה הראשונה צריכה להיות read-only. השאלה הבאה היא: איזה משימה? הקריטריונים: (1) שימושית עבורכם בעולם האמיתי, (2) קצרה יחסית (עד 5 דקות לסוכן), (3) ללא צורך ב-2FA או CAPTCHA, (4) על ממשק שאתם כבר מכירים.

הדוגמה הקלאסית היא "סכם לי את הנתונים מה-tab הזה, או אסוף מידע מכמה tabs לטבלה". ניקח דוגמה קונקרטית: אתם מנהלי מוצר, יש לכם 3 כרטיסי Jira פתוחים, אתם רוצים לדעת מה הסטטוס שלהם, מי ה-assignee, ומה העדיפות. במקום לעבור טאב-טאב, אתם נותנים לסוכן את המשימה: "עבור על שלושת הכרטיסים הפתוחים שלי ב-Jira, תן לי סיכום בן 3 שורות — סטטוס, assignee, עדיפות — לכל אחד".

משימה אחרת, מציאותית לא פחות: "תסכם לי את שלושת המיילים האחרונים מ-LinkedIn ב-Gmail. לכל מייל, תן לי שורה אחת: מי שלח, מה הבקשה, ואם דורש תגובה.". או: "תראה לי את 5 ההזמנות האחרונות במערכת הספקים, עם סכום, תאריך, ושם הספק — רק כטבלה, בלי להוריד כלום.".

בחרו אחת מהדוגמאות האלה (או דומה להן), ובצעו את הצעדים הבאים. הצעדים מתוארים באופן כללי, ומתאימים גם ל-Claude in Chrome וגם ל-Codex for Chrome — שני ה-extension מציגים UI דומה בעקרונותיו.

הצעדים — הרצה ראשונה ב-Claude in Chrome

צעד 1 — פתחו את ה-Chrome profile הייעודי (זה שיצרתם עם ה-extension). ודאו שהוא נבדל מהפרופיל הראשי שלכם, ושאתם מחוברים רק לחשבונות שאתם רוצים שהסוכן יראה.

צעד 2 — פתחו את הטאב/ים הרלוונטיים. עבור דוגמת ה-Jira, פתחו טאב אחד עם רשימת הכרטיסים. עבור דוגמת ה-Gmail, פתחו את Gmail. אם יש לכם מספר tabs, פתחו את כולם.

צעד 3 — לחצו על אייקון ה-extension ב-toolbar. תיפתח תיבת chat (בצד הימני של ה-Chrome, במצב RTL). בתיבה, הקלידו את המשימה שלכם בשפה טבעית: "תסכם לי את הכרטיס הראשון ב-Jira — כותרת, סטטוס, assignee, ועדיפות". הימנעו מפקודות ארוכות עם הרבה תנאים; התחילו בפשוט.

צעד 4 — שלחו וצפו. הסוכן יתחיל לעבוד: תראו streaming של הפעולות, כל קליק וכל גלילה. זה הLive View. אל תסגרו את ה-tab, גם אם זה לוקח זמן. הסוכן חושב בלולאה: צילום-מסך → ניתוח → פעולה. זה לוקח זמן.

צעד 5 — קיבלתם תשובה? בדקו אותה. אל תסמכו על הסוכן בעיניים עצומות. הוא יכול לטעות. פתחו את הטאב בעצמכם, השוו את מה שהוא כתב למה שבאמת רשום ב-Jira. אם יש סטיה — רשמו אותה, תקנו את ה-prompt, והריצו שוב.

ה-latency האמיתי — למה זה לוקח יותר זמן ממה שאתם חושבים

אחת ההפתעות הגדולות של מתחילים היא שמשימה שלוקחת לכם 30 שניות ידנית יכולה לקחת לסוכן 2-5 דקות. הסיבה: הלולאה screenshot→reason→act היא איטית מטבעה. הסוכן מצלם (300-800ms), שולח למודל (1-3 שניות), מקבל פעולה (עוד 500ms-2s), מבצע (1-2 שניות). על משימה של 8-15 פעולות, זה מצטבר.

בנוסף, המודל עצמו לא תמיד מצליח בניסיון הראשון. ייתכן שהוא ילחץ על כפתור לא נכון, יזהה אלמנט לא נכון, או יחזור על פעולה. Anthropic מדווחת ש-Claude in Chrome מצליח ב-workflows מורכבים ב-~60-80% מהפעמים, תלוי במורכבות. תכננו להמתין 3-7 דקות למשימה בינונית, ואל תבטלו את הריצה באמצע אלא אם כן הסוכן תקוע בלולאה ברורה.

מתחיל 11 דקות אבטחה confirmation

Per-Site Confirmation — הגבול האבטחתי האמיתי בפעולה

עכשיו אנחנו נכנסים ללב העניין. ברגע שהסוכן מוכן לפעול, הוא פוגש את הגבול האבטחתי הראשון שלו: ה-per-site confirmation prompt. זה לא הגדרה נסתרת בתפריט — זה חלון קופץ שצץ בכל פעם שהסוכן רוצה לפעול באתר חדש. זה הרגע שבו אתם מחליטים אם לתת לו לפעול, או לעצור.

ה-prompt מציג שלוש אופציות, והן בדיוק מה שהשם שלהן אומר:

"Allow this chat" — אישור חד-פעמי. הסוכן רשאי לפעול באתר הזה, רק במהלך השיחה הנוכחית. ברגע שתסגרו את ה-tab או תתחילו שיחה חדשה, הוא יצטרך לבקש שוב. זו ברירת המחדל הבטוחה ביותר.

"Always allow host" — אישור קבוע ל-host. הסוכן רשאי לפעול באתר הזה בכל שיחה עתידית, בלי לשאול שוב. זה נוח, אבל זה גם מסיר את ה-confirmation עבור אותו אתר. תחשבו פעמיים לפני שאתם לוחצים על זה.

"Decline" — דחייה מוחלטת. הסוכן לא יפעל באתר הזה. הוא יציע לכם משימה חלופית או יעצור. זו האופציה הנכונה לכל אתר שאתם לא מכירים, לא סומכים עליו, או לא רוצים שהסוכן יגע בו.

בפועל, מה שקורה הוא זה: אתם פותחים את המשימה ("תסכם את ה-Jira שלי"), הסוכן רואה שצריך לפעול ב-app.atlassian.net, הוא מבקש אישור. אתם לוחצים "Allow this chat" (כי זו הרצה ראשונה), הסוכן מתחיל לעבוד. ברגע שהוא סיים את המשימה, אם תפתחו שיחה חדשה, הוא יצטרך לבקש שוב. זו ההתנהגות הרצויה.

המלכודת היא הציפייה. אחרי 3-4 הרצות שבהן לחצתם "Allow this chat" על אותו אתר, אתם מתחילים לחשוב "למה לא פשוט Always?". התשובה: כי ברגע שתלחצו "Always allow host", אתם מסירים שכבת הגנה. אם הסוכן יחטוף prompt injection (קוד זדוני בתוך תוכן האתר שמשפיע על ההתנהגות שלו), הוא יוכל לפעול בלי שתדעו. Anthropic מדדה את זה: גם אחרי מיטיגציות, attack-success-rate של prompt injection ב-Claude in Chrome הוא 11.2% — 1 מכל 9 התקפות מצליח. "Always allow host" לא גורם לזה, אבל הוא מסיר את האזעקה שתופסת חלק מהמקרים.

בפרק 6 נרחיב את המודל הזה לעומק — כולל allowlist/blocklist גלובליים, פרופילים ייעודיים, ו-memory isolation. לעת עתה, הכלל הפשוט: "Allow this chat" כברירת מחדל, "Decline" לכל דבר לא-מוכר, "Always allow host" רק אחרי שאתם באמת מבינים מה הסיכון.

טעות נפוצה: ללחוץ "Always allow host" על אתר לא-מוכר רק "כדי שלא יציק"
ההצדקה הנפוצה: "אני מריץ את הסוכן 20 פעם ביום על אותו אתר, נמאס לי ללחוץ Allow". הבעיה: ברגע שלחצתם, הסוכן יכול לפעול באתר הזה בכל זמן, בלי שום prompt נוסף. אם מישהו מזריק prompt זדוני לאתר הזה (למשל, פוסט בפורום שמכיל הוראה חבויה), הסוכן עלול לבצע פעולה בלי שתדעו. "Always allow host" הוא לא לא חוקי — הוא פשוט דורש רמת אמון שצריך לבנות, לא להניח. התחילו ב-"Allow this chat" לכל אתר, ורק אחרי 20-50 הרצות מוצלחות ובדיקה של ההתנהגות, שקלו "Always".

מתחיל 8 דקות החלטה טבלה

טבלת ההחלטה — מתי Allow, מתי Always, מתי Decline

עכשיו, כשאתם מכירים את שלוש האופציות, אתם צריכים כלל מעשי שיעזור לכם לבחור מהר. לא תרצו לעצור ולחשוב 30 שניות על כל prompt — אתם רוצים כלל שאפשר ליישם תוך 3 שניות. הנה טבלה שעובדת ברוב המקרים.

סוג האתר סוג הפעולה הבחירה הנכונה הסיבה

אתר שאתם מכירים וסומכים עליו (Gmail, Jira, פורטל פנימי) קריאה-בלבד (סיכום, חיפוש) Allow this chat הסיכון אפסי, גם אם הסוכן טועה. השיחה הבאה תדרוש אישור מחדש.

אתר שאתם מכירים (Gmail, CRM) כתיבה (שליחה, עדכון) Allow this chat + pause + human-approval קריאה חופשית, אבל לפני כל כתיבה — pause, קראו מה הסוכן עומד לעשות, אשרו ידנית.

אתר שאתם מכירים היטב, אחרי 20+ הרצות מוצלחות קריאה-בלבד, חוזרת Always allow host (לאתר הספציפי) אחרי שאתם סומכים על הסוכן, חיסכון הזמן שווה את הסיכון המופחת.

אתר לא מוכר (חדש, נישתי, לא-מוכר) כל פעולה Decline הסוכן לא יפעל. אתם יכולים לחקור את האתר ידנית או לבחור משימה חלופית.

אתר פיננסי או רגיש (בנק, מס, ביטוח לאומי) כל פעולה, גם קריאה Decline (בהרצה הראשונה) גם קריאה יכולה לדלוף מידע. אחרי 50+ הרצות מוצלחות, אפשר לשקול Allow.

אתר עם הרבה JavaScript דינמי (SPA, dashboards) קריאה-בלבד Allow this chat + צפייה צמודה הסוכן עלול להתבלבל בין אלמנטים. pause מוכן.

העיקרון המנחה פשוט: החלטה דיפולטיבית היא "Allow this chat", וכל חריגה דורשת נימוק. כשאתם מתלבטים, "Allow this chat" כמעט תמיד נכון. "Always allow host" כמעט אף פעם לא נכון בהרצה הראשונה. "Decline" כמעט תמיד נכון לכל מה שלא-מוכר.

Allowlist ו-Blocklist גלובליים — הרובד השני

בנוסף ל-confirmation prompt, בהגדרות של ה-extension (Codex for Chrome: Computer Use settings; Claude in Chrome: Settings → Computer use) יש שני מסננים גלובליים: Allowlist (אתרים שתמיד מותר לסוכן לפעול בהם בלי prompt) ו-Blocklist (אתרים שאף פעם לא מותר). זה הרובד השני של ההגנה, והוא רץ לפני ה-confirmation prompt.

ההגדרה מומלצת להתחלה: השאירו את ה-allowlist ריקה (כלומר, אין אתר שמותר בלי prompt), והוסיפו ל-blocklist את כל הדברים הרגישים — בנקים, מס, ביטוח לאומי, מערכות פנימיות של חברה, אפליקציות SaaS שמחזיקות נתוני לקוחות. ככל שתצברו ניסיון, תוכלו להעביר אתרים מ-allowlist אל "Allow this chat" רגיל.

Do Now — 4 דקות (קבע את ה-Blocklist שלך)
לפני שאתם מריצים את המשימה הראשונה, פתחו את ההגדרות של ה-extension, מצאו את ה-Blocklist, והוסיפו 5 אתרים: (1) הבנק שלכם, (2) אתר הארנונה/מיסים, (3) מערכת ה-CRM של העבודה, (4) Gmail, (5) אפליקציה פנימית אחת של החברה. תוצאה צפויה: 5 כניסות ב-Blocklist. גם אם תשכחו מה-confirmation prompt, הסוכן לא יוכל לגעת באתרים האלה.

מתחיל 12 דקות פיקוח pause

פיקוח חי — Live View, pause, interrupt, take-over

אחרי שהסוכן קיבל אישור והתחיל לפעול, אתם לא צריכים לסמוך עליו בעיניים עצומות. ההפך — הפיקוח מתחיל עכשיו. כל ה-extension המובילים ב-2026 מציעים ארבע יכולות פיקוח שחייבים להכיר.

Live View / Streaming — אתם רואים את המסך של הסוכן בזמן אמת. כל צילום-מסך שהוא לוקח, אתם רואים. כל פעולה שהוא מתכנן, אתם רואים (בדרך כלל כ-text overlay על המסך). Claude in Chrome מציג גם את "מחשבות" הסוכן: "אני רואה שיש כפתור 'עדכן' בפינה הימנית-תחתונה, אני לוחץ עליו". Codex for Chrome מציג פחות טקסט, אבל מציג חיווי ויזואלי על כל פעולה. תנאי חובה: אל תסגרו את ה-tab של ה-Live View. זה הcontrol plane שלכם.

Pause — עוצרים את הסוכן באמצע פעולה. הוא ישלים את הפעולה הנוכחית (למשל, אם הוא באמצע הקלדה, הוא יסיים את המילה), ואז יעצור. זה שימושי כשאתם רואים שהוא הולך לכיוון לא נכון — למשל, הוא פותח כרטיס Jira לא נכון, ואתם רוצים לתקן את הבחירה שלו. ברגע שאתם לוחצים resume, הוא ממשיך מאיפה שעצר. לא מאתחלים, לא מתחילים מחדש.

Interrupt — עוצרים מיד, בלי להשלים את הפעולה. שימושי כשאתם רואים שהוא עומד לעשות משהו לא רצוי. למשל, הוא מתחיל למלא טופס לא נכון. לחיצה אחת, והוא עוצר. שימו לב: interrupt שונה מ-pause. אחרי interrupt, לפעמים הסוכן מציע להמשיך עם prompt חדש, ולפעמים צריך להתחיל שיחה חדשה. זה תלוי במוצר.

Take-over — אתם לוחצים בעצמכם על ה-Chrome, והסוכן נסוג. זה המצב הקריטי: אתם רואים שהסוכן לא מבין מה לעשות, אתם רוצים לעשות פעולה ידנית, ואז להחזיר לו את השליטה. רוב ה-extensions מזהים את זה אוטומטית (אם הם רואים mouse movement אנושי, הם מבינים שהם לא זה שמזיז). תרגול חשוב: נסו את זה בהרצה הראשונה, גם אם לא הייתם צריכים. תדעו איך זה מרגיש לפני שתצטרכו את זה באמת.

מתי להשתמש בכל יכולת

הזהב בהרצה הראשונה: השתמשו ב-pause ברגע שאתם לא בטוחים. אל תחכו שהסוכן יעשה טעות — תעצרו אותו לפני. הtake-over הוא למצבי חירום: הסוכן תקוע, אתם צריכים לעשות פעולה ידנית (למשל, לאשר 2FA), ואז להחזיר לו. interrupt הוא כשאתם רואים שהוא עומד לעשות פעולה בלתי-הפיכה בלי שאישרתם.

הטעות של מתחילים היא לסמוך על הסוכן "כי הוא הצליח 3 פעמים". כל הרצה היא עצמאית. גם אם הוא הצליח בעבר, בהרצה הנוכחית הוא עלול לטעות בגלל שינוי קטן בממשק, prompt injection, או פשוט רעש סטטיסטי. תפקחו, גם אם הוא עובד היטב.

טעות נפוצה: למסור לסוכן את פרופיל ה-Chrome הראשי המחובר-לכל
"אני רוצה שהוא יראה הכל, אז אני נותן לו את הפרופיל הראשי שלי" — זה ההיגיון שמרגיש נכון, וזו הטעות הגדולה ביותר של מתחילים. הפרופיל הראשי שלכם מכיל: Gmail, בנק, עבודה, LinkedIn, חשבונות אישיים, ועוד עשרות סשנים. אם הסוכן טועה (ויש לו סיכוי לטעות, 1-מ-9 מ-prompt injection, 25% מ-OSWorld), הblast radius הוא כל החיים הדיגיטליים שלכם. פרופיל ייעודי = גבול ברור. גם אם הסוכן נחטף ב-prompt injection, הוא נמצא בפרופיל שבו אין לו גישה לבנק. פרק 6 ירחיב את ההיבט הזה. לעת עתה, זכרו: פרופיל נפרד, תמיד.

בינוני 15 דקות DIY OSS חינמי

הנתיב החינמי במקביל — Browser Use OSS מקומי

עד עכשיו דיברנו על extensions בתשלום. יש נתיב שני, חינמי לחלוטין, שעובד על המכונה שלכם בלי תלות בספק. הוא קצת יותר טכני, אבל הוא המקום שבו השליטה באמת שלכם — ולכן הוא המקום שבו ההרצה הראשונה צריכה לרוץ גם במקביל.

Browser Use הוא framework open source שמאפשר לכם להריץ agent שמפעיל דפדפן, ב-Python, עם vision LLM שאתם מביאים. הוא רץ על המכונה שלכם (או בכל מקום שתריצו Python), משתמש ב-Playwright (או ב-Chromium ישירות), ומחזיר לכם control מלא על מה שקורה. הוא לא extension — הוא סוכן עצמאי שמפעיל דפדפן דרך קוד.

הרכיבים הנדרשים: Python 3.13 (או 3.11+), Playwright להפעלת Chromium, vision LLM לקבלת פעולות. ה-LLM יכול להיות Claude (API), GPT (API), Gemini (API), או GLM-5.1 דרך Z.AI — האופציה הזולה ביותר עם תמיכה מצוינת ב-vision. העלות לכל הרצה: כמה סנטים ב-tokens, תלוי במורכבות.

התקנה — 5 שורות

ההתקנה עצמה קצרה. אחרי שיש לכם Python 3.13, אתם צריכים את המודולים האלה:

pip install browser-use playwright playwright install chromium export ZAI_API_KEY="..." # API key שלכם מ-Z.AI

את המודול browser-use אפשר להחליף בגרסה קודמת (היא רצה ב-2026) או במודולים מקבילים כמו langgraph עם browser tools, או crewai עם custom actions. העיקרון זהה: agent loop → screenshot → LLM → action.

למה להריץ במקביל ל-extension?

הסיבה הראשונה היא הוכחת הנתיב. אם אתם רואים שה-extension עובד וה-DIY עובד, אתם יודעים שהבעיה שלכם ניתנת לפתרון בלי תלות בספק. אם הספק יעלה מחיר, יסגור שירות, או יחסום אזור — יש לכם fallback.

הסיבה השנייה היא לימוד. כשאתם רואים את שתי ההרצות זה-לצד-זה, אתם מבינים את הלולאה. ה-extension מסתיר את המכונה — אתם רואים רק פלט. ה-DIY חושף את המכונה — אתם רואים גם את הקלט למודל, גם את הפלט, גם את ה-screenshots הביניים. זה ה-debugger הטוב ביותר למי שרוצה להבין לעומק.

הסיבה השלישית היא עלות. עבור משימות חוזרות ב-volume, ה-DIY זול משמעותית. תשלום רק על tokens של vision LLM, בלי מנוי חודשי לספק.

Do Now — 10 דקות (הכן את ה-DIY stack)
אם יש לכם Python 3.13: פתחו terminal, הריצו pip install browser-use playwright ואז playwright install chromium. צרו קובץ .env עם ה-API key שלכם (Z.AI, OpenAI, Anthropic — מה שזמין). תוצאה צפויה: הודעה "chromium installed successfully" בטרמינל. אם אין לכם Python — דלגו לתרגיל הבא. ה-DIY הוא חינמי, לא חובה.

בינוני 14 דקות קוד אנטומיה

איך נראית משימה ב-Browser Use — אנטומיה של ריצה

בואו נראה קוד אמיתי. הדוגמה הבאה מריצה את אותה משימה שהרצנו ב-extension — סיכום 3 כרטיסי Jira — אבל ב-Browser Use. הקוד פשוט, והמטרה היא שתראו איך הלולאה נראית מבפנים.

from browser_use import Agent from langchain_openai import ChatOpenAI import asyncio import os async def main(): llm = ChatOpenAI( base_url="https://api.z.ai/api/paas/v4/", model="glm-4.5v", api_key=os.environ["ZAI_API_KEY"], ) agent = Agent( task=( "היכנס ל-Jira, סכם 3 הכרטיסים הפתוחים הראשונים שלי. " "לכל כרטיס תן: כותרת, סטטוס, assignee, עדיפות. " "אל תשנה דבר. אל תלחץ submit על שום טופס." ), llm=llm, ) result = await agent.run() print(result) asyncio.run(main())

מה קורה כאן? הtask הוא ה-prompt — בשפה טבעית, בעברית. ה-LLM הוא GLM-4.5V (vision LLM של Z.AI) — זול, מהיר, תומך vision. ה-agent מקבל את ה-task, פותח דפדפן, מצלם, שולח ל-LLM, מקבל פעולה, מבצע. בלולאה.

ההבדל המהותי מה-extension: אתם רואים את כל הצעדים בטרמינל. זה שקוף. אתם יכולים לעצור באמצע (Ctrl+C), לבדוק את הקובץ screenshots ש-browser-use שומר אוטומטית, ולהבין בדיוק איפה הסוכן טעה אם טעה.

השוואה קצרה: extension מול DIY

אחרי שהרצתם את אותה משימה בשני הכלים, רשמו את ההבדלים. הנה טבלה שתעזור לכם להחליט איזה מהם מתאים לאיזו משימה.

מאפיין Claude in Chrome / Codex for Chrome Browser Use OSS

עלות $20-200/חודש (plan קיים) ~$0.01-0.10 להרצה (tokens)

זמן-להתקנה 2 דקות 10-15 דקות (Python + Playwright)

ממשק Chat נוח, Live View ויזואלי Terminal + קוד

שקיפות רואים פעולות, לא רואים LLM thinking רואים הכל — prompts, screenshots, actions

סשנים מחוברים כן, בפרופיל ה-Chrome שלכם לא — צריך login manual בכל הרצה

אזור גיאוגרפי תלוי בספק (Codex for Chrome לא ב-EU/UK) אין הגבלה — רץ אצלכם

מתאים ל משימות מהירות, חד-פעמיות, עם session פעיל משימות חוזרות, volume, למידה

הקח מההשוואה: אין "מנצח". יש כלי שמתאים למשימה. למשימה מהירה על סשן קיים — extension. למשימה חוזרת בלי סשן — DIY. בפרק 4 נרחיב את ההחלטה לקטגוריה שלישית (deterministic).

תרגיל 1: הרצה ראשונה — extension + read-only task
המטרה: להתקין extension, להריץ משימה read-only אחת עד הצלחה, ולתעד את התוצאה. זה הbenchmark של הפרק.

בחרו כלי (Claude in Chrome / Codex for Chrome / Browser Use) לפי Framework 1.

צרו פרופיל Chrome ייעודי (אם extension). התקינו, חברו לחשבון, ודאו שאתם בפרופיל הנכון.

פתחו טאב עם המשימה (Jira, Gmail, או dashboard ציבורי).

הריצו משימת read-only: "תסכם לי את [X] מהטאב הזה" — או דוגמה דומה מהסעיף הקודם.

חכו 2-7 דקות, צפו ב-Live View, תעדו את התוצאה.

אמתו ידנית: פתחו את הטאב בעצמכם, השוו לפלט. רשמו אם הסוכן צדק או טעה.

שמרו screenshot של ה-per-site confirmation prompt (לתיעוד).

תוצאה צפויה: קובץ "first-run-log.md" עם: כלי, משימה, זמן הרצה, תוצאה, אימות, screenshot של ה-confirmation. אם המשימה נכשלה — גם זה הצלחה, כי למדתם איפה הסוכן נשבר.

בינוני 10 דקות עברית RTL ישראל

עברית ו-RTL — האתגר שלא תראו בסרטוני-הדמו

אם אתם עובדים בישראל, חלק משמעותי מהמשימות שלכם ייגעו בממשקים בעברית: פורטל ממשלתי, בנק ישראלי, Priority/חשבשבת, מערכת HR פנימית, חנות מקוונת בעברית. הסוכנים של 2026 לא אומנו בעיקר על ממשקים בעברית. ה-training data שלהם מוטה לכיוון LTR (אנגלית, סינית, יפנית), וה-RTL — Right-to-Left, כיוון הכתיבה מימין לשמאל — הוא edge case.

המשמעות המעשית: צפו לאמינות נמוכה יותר על ממשקים בעברית. מה שעובד ב-90% על Salesforce לא יעבוד ב-90% על מערכת פנימית ישראלית. ייתכן שהסוכן יתבלבל בין "הבא" ל"הקודם" כי החצים הפוכים, ייתכן שהוא לא יזהה נכון תווים עבריים במקום צפוף, ייתכן שהוא ילחץ על הכפתור הלא-נכון כי ה-layout שונה ממה שהוא מכיר.

המלצה קונקרטית: אם המשימה שלכם נוגעת בעברית, אל תסמכו על הרצה אחת מוצלחת. תריצו 3-5 פעמים, תראו אם ההצלחה יציבה. ובמהלך ההרצות, תכננו pause: ייתכן שתצטרכו לתקן את הסוכן באמצע בגלל RTL confusion.

ההיבט השני הוא אזור גיאוגרפי. Codex for Chrome לא זמין ב-EU/UK בהשקה. ישראל מבחינה גיאוגרפית מחוץ ל-EU, אבל ההרצה לרוב מתחילה ב-US-then-rollout. אם אתם רואים הודעת "not available in your region" — זו לא בעיה בחיבור שלכם, זו בעיה בזמינות. תאמתו לפני שאתם מתחילים, במיוחד אם אתם בונים workflow ללקוח באירופה.

ההיבט השלישי הוא רגולציה. אם אתם עובדים עם לקוחות באירופה, GDPR וה-EU AI Act מחמירים את הדרישות סביב logging, consent, ושקיפות. המסמך הזה רלוונטי ישירות לפרק 6, ובפרק 7 (capstone) תצטרכו לעמוד בו אם ה-workflow שלכם נוגע במידע של אזרחי EU.

Do Now — 5 דקות (RTL Reality Check)
אם אתם עובדים עם ממשקים בעברית, ענו: (1) כמה מהמשימות שלי נוגעות ב-RTL? (2) האם הציון של OSWorld/WebVoyager רלוונטי אליי? (3) מה המשמעות לפיקוח? תוצאה צפויה: 3 תשובות בכתב. התשובה ל-(3) צריכה להיות: "פיקוח הדוק יותר, 3-5 הרצות לפני הכרזה על הצלחה, ו-pause מוכן".

מתחיל 8 דקות anti-patterns קווים אדומים

מה לא לעשות בהרצה הראשונה — 3 קווים אדומים

לפני שאתם סוגרים את הפרק, רוצים שתזכרו 3 דברים שלא לעשות. אלה לא המלצות — אלה קווים אדומים. עבירה עליהם לא "מסכנת" — היא כמעט תמיד מובילה לכשל, ולפעמים לתוצאות בלתי-הפיכות.

קו אדום 1: אל תתנו לסוכן לבצע פעולה כותבת בהרצה הראשונה. זה אומר: לא לשלוח מייל, לא לעדכן רשומה ב-CRM, לא למלא טופס וללחוץ Submit, לא למחוק כלום. רק קריאה, רק סיכום, רק חיפוש. אם הסוכן מציע "לעזור לכם לעדכן", תאמרו "לא הפעם". הסיבה: בהרצה הראשונה אתם לא מכירים את ההתנהגות שלו. גם אם הוא נראה חכם, הוא עלול לפרש לא נכון. הסיכון לכתיבה לא נכונה = 100% בלתי-הפיכה.

קו אדום 2: אל תתקינו את ה-extension בפרופיל הראשי שלכם. גם אם זה מרגיש "יותר נוח", גם אם "אני רק אריץ את זה פעם אחת". הסיכון: ברגע שהסוכן פעיל, הוא רואה כל טאב פתוח, כל סשן מחובר, כל היסטוריית גלישה. אם משהו ישתבש — ויש סיכוי — ה-blast radius הוא כל החיים הדיגיטליים שלכם. פרופיל נפרד = גבול ברור. זה עולה לכם 2 דקות של יצירת פרופיל, וחוסך לכם שבועות של debug.

קו אדום 3: אל תלחצו "Always allow host" על אתרים לא-מוכרים. גם אם "נמאס לי ללחוץ Allow כל פעם", גם אם "זה רק אתר שאני משתמש בו כל יום". "Always allow host" מסיר שכבת הגנה. אם תלחצו, אתם מבטלים את האזעקה הראשונה שמתריעה כשמשהו לא בסדר. בפרק 6 נרחיב את ההיבט הזה, אבל הכלל פשוט: Always allow host רק אחרי 20-50 הרצות מוצלחות, רק על אתרים שאתם מכירים לעומק, ורק אם אתם מבינים את המשמעות.

העיקרון מאחורי שלושת הקווים: בהרצה הראשונה, אתם לומדים — לא מייצרים ערך. תפקיד ההרצה הראשונה הוא להבין את הכלי, לא לחסוך זמן. הזמן שאתם חוסכים ב-"Always allow host" הוא פחות מהזמן שתבזבזו אם משהו ישתבש. הconservative bias זה לא פחדנות — זה אסטרטגיה.

Do Now — 3 דקות (חתום על 3 הקווים)
פתחו את ה-first-run-log.md שיצרתם, ובראש הקובץ הוסיפו 3 שורות: "אני מתחייב: 1) לא פעולה כותבת בהרצה הראשונה. 2) לא פרופיל ראשי. 3) לא Always allow host על אתר לא-מוכר." תוצאה צפויה: הצהרה בכתב. זה לא חוזה — זה תזכורת אישית.

מתחיל 8 דקות תיעוד מדידה

תיעוד ההרצה — המסמך שיחזיק אתכם עד פרק 7

הטעות הנפוצה של מתחילים היא להריץ, לראות שעובד, ולסגור את ה-tab. אחר כך, כשרוצים להריץ שוב, הם לא זוכרים: איזה prompt עבד? כמה זמן לקח? איזה אתר נדרש אישור? בלי תיעוד, כל הרצה היא ניסיון ראשון מחדש.

הfirst-run-log הוא הקובץ שילווה אתכם עד הקפסטון בפרק 7. הוא לא צריך להיות ארוך — 15 שורות זה מספיק. הנה התבנית:

## First Run Log — [תאריך] **כלי:** Claude in Chrome / Codex for Chrome / Browser Use **גרסה:** [plan וגרסה] **פרופיל Chrome:** [שם הפרופיל הייעודי] **משימה:** [טקסט ה-prompt המלא] **הרשאות שנדרשו:** [רשימת hosts שאושרו] **זמן הרצה:** [דקות] **תוצאה:** [מה הסוכן החזיר] **אימות ידני:** [האם התוצאה תואמת למציאות] **הערות:** [איפה הסס, איפה טעה, מה לשפר] **Screenshots:** [קישורים]

השדות הקריטיים הם אימות ידני ו-הערות. בלי אימות ידני, אתם סומכים על הסוכן — וזה בדיוק מה שאתם לומדים לא לעשות. ההערות הן מה שיהפוך את ההרצה הבאה ליותר טובה: "הסוכן התבלבל בין שני כפתורים, צריך לפרט יותר ב-prompt".

בפרק 7 (הקפסטון) תריצו את המשימה 10 פעם, ותיצרו טבלה של success rate. ה-first-run-log שלכם הוא הבסיס לאותה טבלה. אם אתם לא מתעדים עכשיו, תצטרכו לשחזר מהזיכרון בפרק 7 — וזה כמעט בלתי-אפשרי.

תרגיל 2: טבלת החלטה per-site confirmation
המטרה: לבנות את המסמך האישי שילווה אתכם בכל הרצה עתידית. זה לא תיעוד של הרצה — זו מדיניות לכל אתר שאתם עובדים איתו.

פתחו Google Sheet עם 4 עמודות: אתר, סוג פעולה, החלטה, נימוק.

מלאו 6 שורות לפחות, אחת לכל אתר שאתם מתכננים להריץ עליו: Gmail, Jira, CRM, בנק, portal ספק, LinkedIn.

לכל אתר, בחרו Allow / Always / Decline לפי טבלת ההחלטה מסעיף 6.

כתבו נימוק בעמודה הרביעית — "למה החלטתי כך".

בסוף, תייגו את האתרים שבחרתם בהם "Always" — ורשמו: "תאריך ההחלטה, מספר הרצות מוצלחות לפני כן".

תוצאה צפויה: טבלה של 6+ שורות. אם יש לכם יותר מ-2 אתרים ב-"Always" — חזרו לטבלה ובדקו אם אתם באמת צריכים, או שזו הרגל.

תרגיל 3: הרצה מקבילה ב-Browser Use
המטרה: להוכיח שהנתיב החינמי קיים, ולראות את ההבדל בחוויה. אם אין לכם Python 3.13 — דלגו לתרגיל הבא.

בחרו את אותה משימה שהרצתם בתרגיל 1 (למשל, "סכם 3 כרטיסי Jira").

כתבו קוד ב-Python עם browser-use (לפי הדוגמה בסעיף 9), התאימו את ה-task prompt.

הריצו. צפו בטרמינל: תראו את כל הצעדים, את ה-screenshots שנשמרים, את הפלט הסופי.

השוו לתוצאה מה-extension: מי היה מהיר? מי היה מדויק? מי היה זול? רשמו את ההבדלים.

תעדו ב-first-run-log תחת "הרצה מקבילה": תוצאה, זמן, עלות מוערכת, חוויה.

תוצאה צפויה: קובץ ההשוואה ב-first-run-log. אם ה-DIY הצליח — מזל טוב, יש לכם גיבוי חינמי. אם הוא נכשל — גם טוב, למדתם איפה הוא נשבר.

תרגיל 4: Take-over + Pause + Interrupt — תרגול שליטה
המטרה: ללמוד את שלוש הפעולות הקריטיות של פיקוח חי, לפני שתצטרכו אותן באמת. זה לא תרגיל תיאורטי — זה skill muscle.

הריצו משימה מהרגיל (אפשר להשתמש באותה משימה מהתרגילים הקודמים).

אחרי 30 שניות, לחצו pause. חכו לראות שהסוכן עוצר. אז לחצו resume. ודאו שהוא ממשיך מאותה נקודה.

אחרי עוד 30 שניות, לחצו interrupt. ודאו שהסוכן עוצר מיד, בלי להשלים פעולה. ראו איזה prompt מופיע עכשיו.

התחילו משימה חדשה. אחרי 20 שניות, לחצו ידנית על משהו ב-Chrome (לא דרך הסוכן). ראו אם הסוכן מזהה את ה-take-over ומפסיק. אם לא — בדקו בהגדרות.

תעדו: כמה זמן לקח כל פעולה? האם הסוכן התאושש? האם הייתם צריכים להתחיל מחדש?

תוצאה צפויה: 3 תרחישי שליטה שאתם יודעים לבצע בלי לחשוב. בפרק 7, כשה-workflow שלכם ירוץ על 10 הרצות, אתם תודו לעצמכם שתרגלתם את זה.

Framework 2 — "טריאת העצירה" (The Stop-Triangle)
לפני כל פעולה של סוכן, שאלו 3 שאלות בראש. אם התשובה לכל אחת היא "כן" — תנו לו לפעול. אם "לא" או "לא יודע" — עצור.

"האם זו פעולה קריאה-בלבד?" אם לא — עצור, אל תמשיך.

"האם האתר הזה ב-Blocklist שלי?" אם כן — Decline, הסוכן לא יכול.

"האם הסוכן מראה לי בדיוק מה הוא עומד לעשות?" אם לא — pause, ראו את ה-Live View, אז תחליטו.

הרעיון: ה-confirmation prompt הוא הגנה חיצונית. הטריאת העצירה היא הגנה פנימית. שתיהן יחד = supervision אמיתי. אחת בלי השנייה = הגנה חצי-עיוורת.

Work Routine — שגרת ה-First-Run Phase
יומי (15 דקות, 5 ימים ראשונים):

5 דקות — Extension Review. פתחו את ה-Chrome profile הייעודי. בדקו שה-extension פעיל. ראו את ה-confirmation history (אם יש). זה הזמן לזהות patterns — אתרים שחוזרים, פעולות שאתם חוזרים עליהן.

5 דקות — Read-Only Task. הריצו משימת read-only קצרה אחת. אל תנסו לחסוך זמן — תרגלו. כל יום, משימה אחת, תיעוד בלוג.

5 דקות — Blocklist Audit. הוסיפו אתרים חדשים ל-Blocklist לפי מה שלמדתם. הסירו אתרים שאתם סומכים עליהם (אחרי 20+ הרצות) ל-confirmation בלבד.

שבועי (30 דקות, יום שישי):

15 דקות — DIY Parallel Run. הריצו את אותה משימה ב-Browser Use, אם הוא זמין. השוו תוצאות. עדכנו את ההערכה שלכם: extension מספיק, או DIY עדיף.

15 דקות — Log Review. קראו את ה-first-run-log של השבוע. חפשו patterns: איפה הסוכן הצליח? איפה נתקע? האם יש אתרים שדורשים טיפול מיוחד?

חודשי (60 דקות, סוף חודש):

30 דקות — Capability Recalibration. האם ה-extension עדיין מתאים? האם המוצר השתנה? האם הוסיפו תכונות שמשנות את ההחלטה? בדקו את ההכרזות האחרונות של הספקים.

30 דקות — First Workflow Planning. התחילו לחשוב על ה-workflow הראשון שלכם (לקראת פרק 7). מה המשימה החוזרת שאתם רוצים לאוטמט? מה ה-blast radius? מה ה-success rate הצפוי?

מילון מונחי הפרק — Glossary

Chrome extension — תוסף לדפדפן Chrome שמריץ agent בתוך הפרופיל המחובר שלכם. דוגמאות: Claude in Chrome, Codex for Chrome. ההרשאות נדרשות כי ה-agent צריך לקרוא ולשנות את האתרים שלכם.

Per-site confirmation — חלון קופץ שמופיע בכל פעם שהסוכן רוצה לפעול באתר חדש, עם שלוש אופציות: Allow this chat (חד-פעמי), Always allow host (קבוע), Decline (דחייה). הגבול האבטחתי הראשון.

Allow this chat — אישור חד-פעמי לאתר, רק בשיחה הנוכחית. ברירת המחדל הבטוחה ביותר.

Always allow host — אישור קבוע ל-host. הסוכן יכול לפעול באתר בלי prompt נוסף, בכל שיחה עתידית. דורש אמון שנבנה לאורך זמן.

Decline — דחייה. הסוכן לא יפעל באתר. האופציה הנכונה לכל אתר לא-מוכר.

Allowlist / Blocklist — שני רשימות גלובליות בהגדרות ה-extension. Allowlist = אתרים שמותר תמיד. Blocklist = אתרים שאסור תמיד. רץ לפני ה-confirmation prompt.

Live View / Streaming — תצוגה בזמן אמת של מה הסוכן רואה ועושה. רוב ה-extensions מציגים גם את "מחשבות" הסוכן בטקסט. תנאי חובה לפיקוח.

Pause — עוצרים את הסוכן אחרי שהוא משלים את הפעולה הנוכחית. אפשר להמשיך (resume) מאותה נקודה.

Interrupt — עוצרים את הסוכן מיד, בלי להשלים את הפעולה. שימושי כשהוא עומד לעשות פעולה בלתי-רצויה.

Take-over — המשתמש לוחץ ידנית על ה-Chrome, הסוכן מזהה תנועת עכבר אנושית ונסוג. שימושי למצבי חירום או כשצריך לאשר 2FA.

Read-only task — משימה שלא כוללת שום פעולה כותבת: סיכום, חיפוש, איסוף מידע. הסיכון שלה אפסי.

Write task — משימה שכוללת פעולה כותבת: שליחת מייל, עדכון רשומה, מילוי טופס עם Submit, מחיקה. דורשת human-approval gate (פרק 6).

Browser Use — framework open source ב-Python שמאפשר להריץ agent שמפעיל דפדפן (Chromium דרך Playwright) עם vision LLM. חינמי, רץ על המכונה שלכם, מתאים למשימות חוזרות ב-volume.

Vision LLM — מודל שפה גדול שמקבל תמונה (צילום-מסך) כקלט ומחזיר פעולה (קליק/הקלדה/גלילה). דוגמאות: GLM-4.5V (Z.AI), Claude (vision API), GPT-4V, Gemini Vision.

Latency of the act loop — הזמן שלוקח לסוכן להשלים סיבוב אחד: צילום-מסך + ניתוח + פעולה. בדרך כלל 2-5 שניות, מצטבר לדקות במשימה ארוכה.

Latency budget — הזמן הכולל שאתם מוכנים לחכות לסוכן. משימה של 30 שניות ידנית יכולה לקחת 3-7 דקות לסוכן.

First-run log — קובץ תיעוד אישי של כל הרצה: כלי, prompt, זמן, תוצאה, אימות, הערות. הבסיס למדידה בפרק 7.

Stop-Triangle (טריאת העצירה) — 3 שאלות פנימיות לפני כל פעולת סוכן: קריאה-בלבד? ב-Blocklist? הסוכן מראה בדיוק מה הוא עומד לעשות? אם לא — עצור.

Profile (Chrome) — סביבה נפרדת ב-Chrome עם סשנים משלה. אפשר ליצור מספר פרופילים. פרופיל ייעודי לסוכן = גבול ברור לפעילות.

RTL (Right-to-Left) — כיוון כתיבה מימין לשמאל, כמו עברית וערבית. הסוכנים של 2026 אומנו בעיקר על LTR, ולכן אמינות נמוכה יותר על ממשקים בעברית.

מה תפיקו בסוף הפרק

First-Run Log (Markdown) — קובץ תיעוד של ההרצה הראשונה: כלי, prompt, זמן, תוצאה, אימות ידני, screenshot של ה-per-site confirmation. זה הקלט לפרק 7.

טבלת Per-Site Confirmation (Google Sheet) — 6+ שורות, אחת לכל אתר שאתם עובדים איתו, עם ההחלטה (Allow / Always / Decline) והנימוק.

הרצה מקבילה ב-Browser Use (אופציונלי, אם יש Python 3.13) — אותה משימה, אותו prompt, בכלי החינמי. השוואה ב-first-run-log.

Blocklist אישי — 5+ אתרים רגישים שהסוכן לא יכול לגעת בהם. רשומים בהגדרות ה-extension.

פרופיל Chrome ייעודי — נוצר, מוגדר, עם המינימום הרשאות. הסוכן רץ רק בו.

Check Yourself — מבחן עצמי בסוף הפרק

שאלה: למה ההרצה הראשונה חייבת להיות read-only, גם אם זה מרגיש "בזבוז זמן"?
תשובה: כי בהרצה הראשונה אתם לא יודעים איך הסוכן מתנהג. קריאה-בלבד מאפשרת ללמוד בלי סיכון בלתי-הפיך. אם הסוכן טועה בקריאה — אתם רואים את הטעות, מתקנים prompt, ומריצים שוב. אם הוא טועה בכתיבה — הנזק כבר קרה (מייל נשלח, רשומה עודכנה).

שאלה: מה ההבדל בין "Allow this chat" ל-"Always allow host"?
תשובה: Allow this chat = חד-פעמי, רק בשיחה הנוכחית. Always allow host = קבוע, הסוכן יכול לפעול באתר בלי prompt בכל שיחה עתידית. "Always" מסיר שכבת הגנה, ויש להחיל אותה רק אחרי 20-50 הרצות מוצלחות, רק על אתרים מוכרים.

שאלה: מתי כדאי להשתמש ב-Browser Use OSS במקום ב-extension?
תשובה: כשאתם רוצים גיבוי חינמי, כשאתם רוצים שליטה מלאה, כשאתם רוצים ללמוד את הלולאה מבפנים, או כשאתם רוצים להריץ משימות חוזרות ב-volume בלי תלות בספק. ה-DIY דורש Python 3.13 + Playwright + vision LLM, והוא לא נוח כמו extension, אבל הוא חינמי, פועל בכל אזור, ושקוף לחלוטין.

שאלה: מה עושים אם הסוכן נכנס ללולאה או תקוע?
תשובה: לוחצים interrupt (עוצר מיד), או pause (עוצר אחרי הפעולה הנוכחית). אם הוא באמת תקוע — take-over (לוקחים שליטה ידנית), מבטלים את המשימה, ומתחילים שיחה חדשה עם prompt ממוקד יותר. אל תחכו שיתאושש לבד.

שאלה: למה ממשקים בעברית דורשים פיקוח הדוק יותר?
תשובה: כי ה-training data של הסוכנים מוטה ל-LTR (אנגלית, סינית, יפנית), ו-RTL (עברית, ערבית) הוא edge case. ייתכן שהסוכן יתבלבל בכיוון החצים, לא יזהה נכון תווים, או ילחץ על הכפתור הלא-נכון. אמינות יכולה לרדת מ-85% ל-50% על ממשקים בעברית. תכננו 3-5 הרצות לפני הכרזה על הצלחה, ו-pause מוכן.

תוצאה צפויה: אם עניתם נכון על 4 מתוך 5 — אתם מוכנים לפרק 4 (לבחור את הכלי הנכון). אם פחות — חזרו על הסעיף הרלוונטי והריצו את המשימה הראשונה שוב, הפעם עם פיקוח הדוק יותר.

סיכום הפרק — 7 לקחים שייקחו אתכם הלאה

בחרו את הכלי להרצה הראשונה לפי מה שזמין לכם, לא לפי hype. Claude in Chrome אם יש לכם Claude Pro/Max. Codex for Chrome אם יש לכם ChatGPT Plus/Pro ואתם רואים את ה-extension בחשבון. Browser Use OSS אם אתם רוצים ללמוד בלי לשלם. אל תירשמו לחשבון חדש רק בשביל ההרצה הראשונה.

התקינו בפרופיל ייעודי, לא בראשי. פרופיל Chrome נפרד = גבול ברור ל-blast radius. גם אם הסוכן נחטף ב-prompt injection, הוא לא רואה את הבנק, ה-Gmail הראשי, או ה-CRM של העבודה.

חוק הזהב — Read-Only First. ההרצה הראשונה לא כוללת שום פעולה כותבת. רק סיכום, חיפוש, איסוף מידע. קריאה-בלבד גם אם הסוכן נראה חכם. הסיכון לכתיבה לא נכונה = 100% בלתי-הפיכה.

Per-Site Confirmation = הגבול האבטחתי הראשון. "Allow this chat" כברירת מחדל, "Decline" לכל אתר לא-מוכר, "Always allow host" רק אחרי 20-50 הרצות מוצלחות על אתרים שאתם מכירים. בנוסף, הגדירו Blocklist גלובלי לאתרים רגישים (בנק, מס, CRM).

פיקוח חי הוא לא אופציה. Live View, pause, interrupt, take-over — ארבע כלים שחייבים להכיר. תרגלו אותם בהרצה הראשונה, לפני שאתם צריכים אותם באמת. תכננו 3-7 דקות למשימה, לא 30 שניות — ה-latency של הלולאה מצטבר.

Browser Use OSS = הנתיב החינמי. Python 3.13 + Playwright + vision LLM (GLM-4.5V דרך Z.AI, או Claude/GPT/Gemini). עולה כמה סנטים להרצה, רץ בכל אזור, שקוף לחלוטין. הריצו במקביל ל-extension — להוכחת הנתיב, ללימוד הלולאה, ולגיבוי אם הספק יחסום.

תעדו, גם אם זה מרגיש מיותר. first-run-log עם prompt, זמן, תוצאה, אימות ידני, והערות — זה הקלט לפרק 7 (הקפסטון). בלי תיעוד, כל הרצה היא ניסיון ראשון מחדש.

Just One Thing — אם תזכרו רק דבר אחד מהפרק הזה
אם תוציאו רק פעולה אחת מהפרק הזה השבוע — שתהיה זאת: הריצו משימת read-only אחת, בפרופיל ייעודי, ותעדו אותה. לא משנה איזה כלי, לא משנה איזו משימה — רק שתהיה קריאה-בלבד, בפרופיל נפרד, עם תיעוד. זה הbenchmark של הפרק. אחרי שהרצתם אותה, אתם יודעים איך הסוכן מתנהג, אתם יודעים איך Live View נראה, אתם יודעים איך pause מרגיש, ויש לכם first-run-log. מכאן, הכל בנוי. בלי זה, אתם עדיין בתיאוריה. עם זה, אתם בעשייה.

מה הלאה — פרק 4
בפרק 4 (לבחור את הכלי הנכון — hosted agent מול extension מול DIY framework) נרחיב את ההחלטה לשלוש קטגוריות. ה-extension וה-DIY שהרצתם בפרק הזה הם שתיים מתוך שלוש — השלישית היא deterministic (Playwright, Stagehand replay), שמתאימה למשימות יציבות ו-volume גבוה. תלמדו לדרג כל משימה לפי שישה צירים: יציבות-משימה, נפח, רגישות-נתונים, אזור, תקציב, vendor lock-in — ולבחור את הקטגוריה המתאימה. הקלט = ההרצה שלכם מפרק 3. הפלט = החלטת כלי מנומקת בכתב, לכל משימה.

Checklist — האם סיימתם את הפרק

בחרתם כלי להרצה הראשונה לפי Framework 1 (Claude in Chrome / Codex for Chrome / Browser Use), ורשמתם את ההחלטה ב-Notepad

יצרתם פרופיל Chrome ייעודי, התקנתם בו את ה-extension, ואתם מודעים ל-5 ההרשאות הרחבות שהענקתם

הגדרתם Blocklist גלובלי עם 5+ אתרים רגישים (בנק, מס, CRM, Gmail, מערכת פנימית)

הרצתם משימת read-only אחת לפחות, והיא הושלמה תוך 2-7 דקות

אתם יודעים להשתמש ב-pause, interrupt, ו-take-over (תרגלתם אותם בתרגיל 4)

אתם מבינים את ההבדל בין "Allow this chat" (חד-פעמי), "Always allow host" (קבוע), ו-"Decline" (דחייה) — ובחרתם את הנכון לכל אתר

בניתם first-run-log עם prompt, זמן, תוצאה, אימות ידני, screenshot של ה-per-site confirmation

בניתם טבלת Per-Site Confirmation עם 6+ שורות, כל אחת עם נימוק

אם יש לכם Python 3.13 — הרצתם את אותה משימה ב-Browser Use ויש לכם השוואה בלוג

אתם יודעים ש-Claude in Chrome הוריד את attack-success-rate של prompt injection מ-23.6% ל-11.2% — אבל עדיין 1-מ-9

אתם יודעים שה-latency של הלולאה הוא 2-5 שניות לסיבוב, ושמשימה של 30 שניות ידנית לוקחת לסוכן 3-7 דקות

אתם מודעים לאתגר של RTL/עברית — תכננתם פיקוח הדוק יותר ו-3-5 הרצות לפני הכרזה על הצלחה

חתמתם על 3 הקווים האדומים בראש ה-first-run-log (ללא כתיבה, ללא פרופיל ראשי, ללא Always allow host לא-מוכר)

אתם מוכנים לפרק 4 — להרחיב את ההחלטה לשלוש קטגוריות (extension / DIY / deterministic)

← חזרה לתוכן העניינים תוכן העניינים פרק הבא: לבחור את הכלי הנכון →

סוג האתר	סוג הפעולה	הבחירה הנכונה	הסיבה
אתר שאתם מכירים וסומכים עליו (Gmail, Jira, פורטל פנימי)	קריאה-בלבד (סיכום, חיפוש)	Allow this chat	הסיכון אפסי, גם אם הסוכן טועה. השיחה הבאה תדרוש אישור מחדש.
אתר שאתם מכירים (Gmail, CRM)	כתיבה (שליחה, עדכון)	Allow this chat + pause + human-approval	קריאה חופשית, אבל לפני כל כתיבה — pause, קראו מה הסוכן עומד לעשות, אשרו ידנית.
אתר שאתם מכירים היטב, אחרי 20+ הרצות מוצלחות	קריאה-בלבד, חוזרת	Always allow host (לאתר הספציפי)	אחרי שאתם סומכים על הסוכן, חיסכון הזמן שווה את הסיכון המופחת.
אתר לא מוכר (חדש, נישתי, לא-מוכר)	כל פעולה	Decline	הסוכן לא יפעל. אתם יכולים לחקור את האתר ידנית או לבחור משימה חלופית.
אתר פיננסי או רגיש (בנק, מס, ביטוח לאומי)	כל פעולה, גם קריאה	Decline (בהרצה הראשונה)	גם קריאה יכולה לדלוף מידע. אחרי 50+ הרצות מוצלחות, אפשר לשקול Allow.
אתר עם הרבה JavaScript דינמי (SPA, dashboards)	קריאה-בלבד	Allow this chat + צפייה צמודה	הסוכן עלול להתבלבל בין אלמנטים. pause מוכן.

מאפיין	Claude in Chrome / Codex for Chrome	Browser Use OSS
עלות	$20-200/חודש (plan קיים)	~$0.01-0.10 להרצה (tokens)
זמן-להתקנה	2 דקות	10-15 דקות (Python + Playwright)
ממשק	Chat נוח, Live View ויזואלי	Terminal + קוד
שקיפות	רואים פעולות, לא רואים LLM thinking	רואים הכל — prompts, screenshots, actions
סשנים מחוברים	כן, בפרופיל ה-Chrome שלכם	לא — צריך login manual בכל הרצה
אזור גיאוגרפי	תלוי בספק (Codex for Chrome לא ב-EU/UK)	אין הגבלה — רץ אצלכם
מתאים ל	משימות מהירות, חד-פעמיות, עם session פעיל	משימות חוזרות, volume, למידה