נוף 2026 — מי עושה מה (Codex, Claude, Atlas, Gemini, Antigravity, Copilot)

מה תוכלו לעשות אחרי הפרק הזה

למפות כל מוצר דגל של הקטגוריה — Codex for Chrome, Claude in Chrome, Atlas, Operator, Gemini 2.5 Computer Use, Antigravity 2.0, Copilot Studio — לאחת מ-חמש קטגוריות יציבות (Chrome extension, agentic browser, hosted agent, desktop agent app, computer-use API), ולבחור את הכלי הנכון לפי סוג המשימה
להבחין בין שלושת מוצרי OpenAI — Codex for Chrome (extension), ChatGPT Atlas (agentic browser), Operator/CUA (hosted agent) — ולנמק איזה מהם מתאים למשימה נתונה, ולמה הם לא תחליפים זה לזה
לבדוק זמינות אזורית, browser, וגרסה לפני בחירת כלי — לדעת ש-Codex for Chrome לא זמין ב-EU/UK בהשקה ופועל רק ב-Chrome הרשמי (לא Edge/Brave/Arc/Opera למרות ה-Chromium), ולאמת גישה מ-IP/חשבון מקומי
לקרוא טענת-אמינות של ספק בספקנות — להבדיל OSWorld (דסקטופ מלא, קשה) מ-WebVoyager (web בלבד, קל), לבדוק גרסה וסוג-משימה, ולהסביר מדוע "best in class" עדיין נכשל 1-מ-4

לפני שמתחילים

פרקים קודמים: פרק 1 — "מה זה בעצם 'סוכן שמפעיל את המחשב' (ומה זה לא)" — חובה. בלי ההבחנה בין computer-use / browser-use / API-first, המפה של הפרק הזה תרגיש כמו רשימת מוצרים ולא כמו מסגרת החלטה.
מה תצטרכו: גישה ל-Chrome (גרסה אחרונה) וחשבון בתשלום לפחות אצל ספק אחד (Claude Pro/Max, ChatGPT Plus/Pro, או Google AI Studio) — או נכונות להריץ את ה-DIY OSS המקומי (Browser Use + vision LLM) שיוצג בפרק 3.
זמן משוער: 70-90 דקות קריאה + 60-90 דקות תרגול על המוצרים האמיתיים (התקנה, הרצת משימת read-only אחת, תיעוד).

הפרויקט שלך — איפה אנחנו במסלול

בפרק 1 בניתם את המודל המנטלי — ההבחנה בין computer-use, browser-use, API-first, הלולאה screenshot→reason→act, מודל ה-signed-in session, וה-blast radius. בפרק 2 (זה) אנחנו לוקחים את המודל הזה ומחברים אותו למוצרים אמיתיים שיש בשוק עכשיו — לא דרך hype, אלא דרך חמש קטגוריות יציבות שמחזיקות גם כשמוצר נסגר או מתמזג. בפרק 3 ("הסוכן הראשון שלך") נריץ משימה אמיתית read-only על אחד מהמוצרים שתבחרו כאן, ונראה את מודל ה-per-site confirmation, ה-pause/interrupt, וה-Live View בפעולה. בפרק 4 ("לבחור את הכלי הנכון") נרחיב להחלטה המלאה: vendor extension מול DIY OSS מול deterministic — בהתבסס על יציבות-משימה, נפח, רגישות-נתונים, אזור, תקציב ו-vendor lock-in.

מתחיל 11 דקות מפה החלטה

הספקטרום היציב — 5 קטגוריות שמחזיקות גם כשהמוצרים מתחלפים

אם תפתחו את האתר של כל ספק ב-2026, תקבלו רשימת מוצרים שמשתנה כל חודש. Project Mariner של גוגל נסגר ב-4 במאי 2026, Atlas ו-ChatGPT desktop הוכרזו כמתמזגים ל"desktop superapp" אחד, Codex for Chrome הושק ב-7 במאי 2026 ולא זמין באירופה בהשקה. אם תלמדו שמות מוצרים — תהיו מיושנים תוך 6 חודשים. אם תלמדו קטגוריות — תוכלו להחליט בכל רגע נתון, גם כשהמוצר הבא יושק.

חמש הקטגוריות מבוססות על שלוש שאלות פשוטות: איפה הסוכן רץ (ב-Chrome שלי, בדפדפן נפרד, בענן של הספק, על הדסקטופ שלי, או בקוד שלי), מי מחזיק את ה-credentials (אני, הספק, או אף אחד), ומה ה-blast radius כשמשהו נשבר. הסדר בספקטרום הוא מ-blast radius גדול ל-blast radius קטן, ומקל להגדרה לגמיש:

Chrome extension — סוכן שרץ בתוך ה-Chrome שלכם, עם הפרופיל המחובר שלכם. ה-credentials שלכם, הסשנים שלכם, ההרשאות שלכם. דוגמאות: Codex for Chrome, Claude in Chrome.
Agentic browser — דפדפן שלם שמגיע עם agent mode מובנה. אתם נכנסים אליו במקום ל-Chrome, ויש לו הרשאות משלו. דוגמה: ChatGPT Atlas.
Hosted agent — סוכן שרץ בענן של הספק על מכונה וירטואלית מרוחקת. אתם רק נותנים הוראה ורואים תוצאה. דוגמה: OpenAI Operator.
Desktop agent app — אפליקציה עצמאית על המחשב שלכם שמסוגלת להפעיל תוכנות מקומיות, לא רק דפדפן. דוגמה: Google Antigravity 2.0.
Computer-use API — לא מוצר אלא רכיב. אתם מפעילים מודל בקוד שלכם, ומספקים לו תשתית דפדפן (Playwright, Browserbase) או דסקטופ (VM). דוגמאות: Gemini 2.5 Computer Use (API), Anthropic Computer Use (API), OpenAI CUA (דרך Responses API).

למה החלוקה הזו מעשית

ההבחנה לא תיאורטית. כל קטגוריה נותנת לכם שליטה אחרת על ארבעה דברים: לאן הסוכן רשאי ללכת, מה הוא רשאי לגעת בו, איפה הנתונים שלכם נמצאים פיזית, ומה קורה כשהוא נשבר. ב-Chrome extension השליטה היא הכי ישירה — אתם רואים כל קליק בזמן אמת, והמשמעת של ה-per-site confirmation prompt נמצאת ממש מתחת לאצבע שלכם. ב-Hosted agent ההפך — הסוכן רץ ב-VM בענן, אתם רק רואים צילום-מסך שלו, ואם משהו נשבר הנזק כבר קרה הרחק מכם.

זה גם ההסבר לכך שאין "מוצר שמנצח". כל קטגוריה מתאימה לסוג אחר של משימה. Chrome extension מצטיין כשאתם צריכים לפעול בתוך סשנים מחוברים קיימים (Gmail, CRM, פורטל ספק) — הוא לא דורש לבנות תשתית חדשה, רק גישה. API מצטיין כשאתם רוצים שליטה מלאה, אינטגרציה לתוך pipeline קיים, או volume גבוה עם עלות נמוכה. Desktop app מצטיין כשהמשימה נוגעת בתוכנה מקומית שאין לה גישת web (Photoshop, Excel עם macros, IDE).

המלכודת הראשונה — להתייחס לקטגוריות כאילו הן תחליפיות

אחת הטעויות הנפוצות ביותר היא לחשוב ש-Codex for Chrome "מתחרה ב-Atlas". הם לא. Codex for Chrome רץ ב-Chrome שלכם ומשתמש בסשנים שלכם. Atlas הוא דפדפן אחר לגמרי. Operator רץ בענן של OpenAI. Gemini 2.5 Computer Use הוא API שדורש מכם להביא דפדפן. אלה לא חלופות זה לזה — אלה חלופות למשימות שונות. הבחירה צריכה להיות "איזו קטגוריה מתאימה לעבודה שלי", לא "איזה מוצר הכי טוב".

מתחיל 13 דקות OpenAI 3 מוצרים

OpenAI — שלושה מוצרים, שלוש הבטחות שונות

OpenAI היא החברה היחידה שיש לה ב-2026 שלוש הצעות נפרדות בקטגוריה הזו — ולכן גם המקום שבו הבלבול הכי גדול. זה לא שלוש גרסאות של אותו דבר; זה שלוש קטגוריות שונות לחלוטין, כל אחת עם מודל הרשאות, סשן, ותמחור משלה. בואו נפרק אחת-אחת.

Codex for Chrome — extension ב-Chrome שלכם

Codex for Chrome הוא extension שמותקן ב-Chrome שלכם (גרסת macOS או Windows, לא Edge/Brave/Arc/Opera למרות שהם מבוססי Chromium) ומאפשר ל-Codex להפעיל את ה-Chrome שלכם בפועל. הוא הושק ב-7 במאי 2026, מותקן מתוך תפריט Codex Plugins, ופועל עם הפרופיל המחובר שלכם — מה שאומר שאם אתם מחוברים ל-Gmail, ל-Salesforce, ל-LinkedIn, הסוכן נכנס לאותם סשנים בלי צורך למסור credentials.

המודל של ההרשאות הוא per-site confirmation by default — בכל פעם שהסוכן רוצה לפעול באתר חדש, אתם מקבלים prompt עם שלוש אופציות: "Allow this chat" (אישור חד-פעמי לאתר), "Always allow host" (אישור קבוע לאותו host), או "Decline" (דחייה). בנוסף, בהגדרות Computer Use יש allowlist ו-blocklist גלובליים. זה הגבול האבטחתי האמיתי, לא הגדרה נסתרת — ולכן הוא זכה לתשומת-לב רבה בפרק 6.

Codex עצמו עבר לדווח על 4M משתמשים פעילים שבועית (8x growth ב-2026), אבל זה לא אומר שה-extension זמין לכם. Codex for Chrome לא זמין ב-EU או UK בהשקה, ולא ידוע מתי יגיע לאזורים האלה. משתמש ישראלי ב-IP מקומי נכנס לקטגוריית "אמתו מול החשבון שלכם" — לרוב זמין, אבל לא מובטח, וזה ישתנה. זמן הריצה האמיתי של משימה גבוה משמעותית ממה שאתם רגילים — כל 8-15 סיבובים של הלולאה לוקחים דקות, לא שניות.

ChatGPT Atlas — agentic browser שלם

Atlas שונה מ-Codex for Chrome באופן מהותי: הוא לא extension, הוא דפדפן שלם שמבוסס על Chromium ויש לו ChatGPT מובנה כ-sidebar. הושק ב-אוקטובר 2025 והיה זמין תחילה רק ל-macOS; הגרסאות ל-Windows, iOS ו-Android היו "coming soon" בהשקה, ובמרץ 2026 OpenAI הכריזה ש-Atlas יתמזג עם ChatGPT desktop ועם Codex לאפליקציית-על אחת — מהלך שעדיין מתבצע. הדפדפן עצמו חינמי; ה-agent mode (שמשלים משימות מקצה-לקצה, כמו "תכין לי תוכנית ארוחות ותוסיף לעגלת קניות") זמין רק ל-Plus, Pro, Business.

היתרון של Atlas הוא ה-sidebar המובנה — אתם רואים את ChatGPT לאורך כל הגלישה, יכולים לשאול שאלות על מה שאתם רואים, ויכולים להפעיל agent mode לפי דרישה. החיסרון: זה דפדפן אחר, לא ה-Chrome הרגיל שלכם. אם אתם משתמשים בכל הסשנים שלכם (Gmail, CRM, בנק) ב-Chrome, מעבר ל-Atlas פירושו להיכנס שוב לכל החשבונות, ואז להחליט איזה פרופיל שייך לאיזה סוכן. ה-agent mode הוא preview — זה אומר ש-OpenAI מודה בעצמה שהוא עדיין טועה ב-workflows מורכבים. לא production-grade.

מה שמעניין ב-Atlas הוא הhardening המכוון נגד prompt injection. OpenAI פרסמה engineering blog ייעודי שמתאר את ההגנות שלהם מפני הזרקת הוראות זדוניות דרך תוכן שהסוכן קורא. זה לא מבטיח בטיחות — זה מבטיח שהם מודעים ועובדים על זה. נחזור לזה בפרק 6.

Operator (CUA) — hosted agent בענן

Operator הוא המוצר ההראשון של OpenAI בקטגוריה, הושק בינואר 2025, ועד היום הוא היחיד שרץ ב-VM מרוחק של OpenAI. אתם נותנים הוראה, Operator פותח חלון דפדפן משלו, רואה צילום-מסך שלו, מחליט פעולה, ומבצע. אתם יכולים לראות streaming של מה שהוא עושה, ויש לכם pause ו-take-over.

המודל המקורי (Computer-Using Agent, CUA) קלע 38.1% על OSWorld ו-87% על WebVoyager. ב-2026, היכולת הזו זרמה גם ל-GPT-5.4, שמגיע ל-75% על OSWorld (מעל ה-baseline האנושי שעומד על 72.4%). זה שיפור אדיר תוך שנה, וזה מה שמאפשר ל-Operator להתמודד עם משימות שדרשו אנושי לפני שנה. אבל 75% לא אומר "אמין" — 1-מ-4 נכשל, ובמשימה ארוכה הכשלים מצטברים (פרק 7).

התמחור הוא החלק הכי תובעני: Operator נעול מאחורי ChatGPT Pro ב-$200 לחודש. ב-9 באפריל 2026 OpenAI הוסיפה tier חדש של $100, שמיועד לפרילנסרים ולעצמאיים, ועדיין לא כולל את Operator במלואו. ה-meaning: אם אתם לא משלמים $200, אתם לא מקבלים גישה מלאה ל-Operator ב-2026. עדיין אין מסלול חינמי.

הטבלה המסכמת — שלושת מוצרי OpenAI

Codex for Chrome: קטגוריה = Chrome extension. סשן = שלכם. תמחור = כלול ב-ChatGPT Plus/Pro/Business. זמינות = לא EU/UK. חוזק = סשנים קיימים, חולשה = תלוי Chrome הרשמי.
ChatGPT Atlas: קטגוריה = agentic browser. סשן = של הדפדפן החדש. תמחור = דפדפן חינם, agent mode = Plus/Pro. זמינות = macOS בהשקה, שאר ה-platforms בהדרגה. חוזק = sidebar מובנה, חולשה = לא ה-Chrome שלכם.
Operator: קטגוריה = hosted agent. סשן = VM מרוחק של OpenAI. תמחור = $200/חודש (Pro), $100 tier חדש. זמינות = גלובלית ל-Pro. חוזק = אפס צורך בתשתית שלכם, חולשה = הכי יקר + preview.

מתחיל 9 דקות Anthropic extension + API

Anthropic — Claude in Chrome וה-Computer Use API

Anthropic ניגשת לקטגוריה הזו משני כיוונים במקביל — extension למשתמש הקצה (Claude in Chrome), ורכיב API למפתחים (Computer Use tool). המודל הבסיסי זהה (Claude Opus 4.6 / 4.8), אבל אריזת המוצר שונה לחלוטין. בניגוד ל-OpenAI, אין ל-Anthropic דפדפן משלהם — הם משתפים פעולה עם Chrome.

Claude in Chrome — extension עם ידע מובנה על אפליקציות

Claude in Chrome הוא extension של Anthropic שפועל ב-Chrome שלכם ומאפשר ל-Claude לנווט, לקרוא, ללחוץ, למלא טפסים, ולנהל טאבים מרובים. ההבדל המעשי מ-Codex for Chrome הוא הידע המובנה: ל-Claude in Chrome יש אינטגרציות מובנות עם Slack, Google Calendar, Gmail, Google Docs ו-GitHub — מה שאומר שהוא יודע לבצע פעולות ספציפיות באפליקציות האלה בצורה יציבה יותר מאשר agent גנרי שרואה צילום-מסך וצריך להבין הכל מאפס.

ה-extension עבר שלבים: research preview באוגוסט 2025, ובדצמבר 2025 נפתח לכל ה-plans בתשלום (Pro, Max, Team, Enterprise). אין גישה חינמית, ואין גרסת Safari רשמית נכון ל-2026. היכולת המעניינת ביותר היא build-test-verify loop בשילוב Claude Code: אתם כותבים קוד ב-terminal, מריצים בדיקות, ואז Claude in Chrome פותח את הדף שרץ בדפדפן, רואה את ה-console וה-network, ומאמת שהכל עובד. זה loop שלא קיים ב-OpenAI באותה צורה.

המידע האבטחתי ש-Anthropic פרסמה הוא קריטי: הם מדדו attack-success-rate של prompt injection ב-autonomous mode. בלי מיטיגציות, 23.6% מהתקיפות הצליחו. אחרי הוספת הגנות, זה ירד ל-11.2%. זה עדיין 1-מ-9 הצלחה — לא הצלחה של 0%, לא "הוגן". זה מספר שאתם חייבים לדעת, ולא להתעלם ממנו. ה-extension שימושי מאוד — אבל הוא לא "בטוח by default", והוא דורש פיקוח אנושי (פרק 6).

Computer Use API — הרכיב שמאחורי הקלעים

ב-API של Anthropic יש כלי בשם "computer use" שמקבל צילום-מסך של כל שולחן העבודה, מחזיר פעולה (קליק/הקלדה/גלילה), ומחכה לצילום הבא. זה הרכיב ש-Claude in Chrome משתמש בו מתחת לפני השטח. אבל הוא גם זמין לכם ישירות — וזה אומר שאתם יכולים לבנות harness משלכם, להריץ על מכונה שלכם, ולהחליט איפה הסוכן פועל.

זה ההבדל בין "extension" ל"API": ה-extension אורז את ה-API בממשק נוח ומוגבל. ה-API נותן לכם גישה גולמית — אתם בונים את ה-loop, אתם בוחרים את ה-VM, אתם מחליטים אילו הגבלות להטיל. ה-API הוא גם הדרך הזולה ביותר להריץ משימות חוזרות ב-volume, כי אתם לא משלמים על ממשק נוח — רק על tokens. ה-API לא מתאים למי שלא כותב קוד. למי שכן — זה הכלי הכי גמיש בקטגוריה.

מתחיל 12 דקות Google API + Desktop + Mariner

Google — Gemini, Antigravity 2.0, וסגירת Project Mariner

גוגל ב-2026 היא דוגמה לפיבוט אסטרטגי: הם סגרו את Project Mariner (ה-extension הדפדפני שלהם) ב-4 במאי 2026, וקיפלו את היכולת לתוך Gemini API/Agent/Chrome. במקביל, ב-I/O 2026 ב-19 במאי, הם השיקו את Antigravity 2.0 — אפליקציית desktop agent עצמאית. ו-Gemini 2.5 Computer Use יושב ב-API כ-preview.

Gemini 2.5 Computer Use — API preview במחיר תחרותי

Gemini 2.5 Computer Use הוא מודל ב-API, לא מוצר consumer. זה אומר שאתם צריכים לכתוב קוד שמשתמש בו, להריץ אותו על תשתית שלכם (Playwright לדפדפן, או VM לדסקטופ), ולשלם רק על tokens. התמחור הוא $1.25 ל-1M tokens על input ו-$10 ל-1M tokens על output, עם 131K context — זה משמעותית זול יותר מ-Anthropic ו-OpenAI על אותו שימוש. החיסרון הוא שהוא ב-preview, מה שאומר שהוא צפוי להשתנות, ושאין התחייבות ל-backward compatibility.

למי שכן כותב קוד, זה ההזדמנות לבנות agent ב-volume בלי להיות תלוי ב-extension של אף אחד. המודל מקבל צילום-מסך + רשימת פעולות, מחזיר פעולה הבאה, ואתם מבצעים אותה בתשתית שלכם. הגמישות היא מקסימלית, וזה גם המקום שבו הכי קל לפתח harness מתקדם עם supervision מובנה.

Antigravity 2.0 — אפליקציית desktop agent

Antigravity 2.0 הוא קונספט חדש בקטגוריה: אפליקציית desktop עצמאית שיכולה להפעיל תוכנות מקומיות, לא רק דפדפן. היא הושקה ב-I/O 2026 (19 במאי), והיא מאופיינת בכמה יכולות ייחודיות:

Multi-agent orchestration — היא יכולה לתאם כמה סוכנים שעובדים במקביל על תת-משימות שונות. לדוגמה: סוכן אחד מושך נתונים מ-Salesforce, סוכן שני מעבד אותם ב-Excel, סוכן שלישי מכין מייל מסכם.
Scheduled background tasks — אתם יכולים להגדיר משימה שרצה כל בוקר ב-9:00, או כל יום שישי בסוף היום. זה מאפשר workflow אמיתי-חוזר בלי להריץ ידנית.
Voice interface — אפשר לדבר אליה, לא רק להקליד. שימושי כשאתם רוצים לבקש משהו בלי לעצור את העבודה הזרה.
Default model: Gemini 3.5 Flash — המודל המובנה הוא הגרסה הקלה של Gemini, שמהירה וזולה יותר מ-Pro, אבל פחות מדויקת במשימות מורכבות.

זה לא Chrome extension, וזה לא agentic browser. זה מוצר שעומד בפני עצמו ויכול להפעיל את כל המחשב, לא רק חלון אחד. המשמעות: אתם נותנים ל-Antigravity גישה למחשב שלכם, והוא יכול לפתוח אפליקציות, לעבוד עם קבצים מקומיים, ולבצע פעולות שאינן web-based. ה-blast radius גדול משמעותית — זה לא "בתוך Chrome", זה "בתוך המחשב".

סגירת Project Mariner — הסיפור שמאחורי הפיבוט

Project Mariner היה ה-extension של גוגל שנועד להיות התשובה שלהם ל-Codex for Chrome. הוא הושק ב-2024, היה זמין למשתמשי Gemini Advanced, ועבר כמה איטרציות. ב-4 במאי 2026 גוגל סגרה אותו וקיפלה את היכולת לתוך Gemini API (למפתחים), Gemini Agent (למשתמשי Gemini), ו-Chrome (ב-Google I/O 2026 הוכרז שיכולות מסוימות ישולבו ב-Chrome עצמו).

הsignal האסטרטגי של הסגירה הזו חשוב: גוגל הגיעה למסקנה שה-API-first approach (אתם בונים, אתם משלמים על tokens, אתם שולטים) עדיף על extension נפרד. זה גם מה שמסביר למה Antigravity 2.0 הוא desktop app ולא extension. המסר לכם: אל תבנו את כל ה-workflow שלכם על מוצר אחד. בנו אותו על capability (יכולת), ותוכלו לעבור כלי כשמוצר נסגר.

Google ADK — רכיב למפתחים

Agent Development Kit (ADK) של גוגל הוא framework לבניית agents. הוא לא מוצר consumer, הוא כלי למי שכותב קוד ורוצה לבנות agent מותאם. זה לא חלק מהקורס ברמת הבסיס, אבל כדאי לדעת שהוא קיים — ולמי שרוצה להתקדם, זה הכלי של גוגל לבניית agents מתקדמים.

בינוני 8 דקות Microsoft Enterprise

Microsoft — Copilot Studio ו-Agent 365 לעסקים

מיקרוסופט נכנסה לקטגוריה הזו מהצד הenterprise — לא מהצד הצרכני. שני המוצרים שלהם, Copilot Studio Computer-Using Agents ו-Agent 365, מיועדים לארגונים שצריכים לאוטמט תהליכים עסקיים על מערכות ללא API. אם אתם עצמאיים או פרילנסרים, ייתכן שהמוצרים האלה לא בשבילכם — אבל אם אתם בארגון, זה הכיוון.

Copilot Studio Computer-Using Agents (GA, מאי 2026)

Copilot Studio הוא low-code platform של מיקרוסופט לבניית agents. הוא קיים מ-2024, אבל הוספת היכולת Computer-Using Agents (CUA) במאי 2026 היא החידוש: ה-agent יכול עכשיו להפעיל אתרים ו-desktop apps למערכות שאין להן API ציבורי. זה אומר שתהליך עסקי שדורש אינטראקציה עם מערכת legacy (למשל: תוכנת ERP ישנה, ממשק פנימי שלא נחשף דרך API) יכול להיות אוטומטי בלי לכתוב אינטגרציה.

היכולת הadaptive interface recovery היא הפיצ'ר המעניין: אם הממשק משתנה (redesign, עדכון UI), ה-agent מנסה להתאים את עצמו אוטומטית. זה לא מושלם — אבל זה מפחית תלות בקביעות מול הממשק. ה-GA (General Availability) מסימן שהמוצר אמור לעבוד ב-production, אבל זה לא אומר שהוא מתאים לכל תהליך עסקי — צריך לבדוק פר-מקרה.

Agent 365 (GA, 1 במאי 2026) — שכבת governance

Agent 365 הוא לא agent — הוא control plane לניהול agents בארגון. תחשבו על זה כמו Active Directory, אבל לסוכנים: registry של כל ה-agents שרצים, identity לכל אחד, monitoring ו-audit logs, והרשאות גלובליות. אם יש לכם 50 agents שרצים בארגון על מערכות שונות, אתם צריכים דרך לדעת מי עושה מה, ולהגביל מי רשאי לפעול איפה.

המשמעות לקורס שלנו: גם אם אתם לא ארגון enterprise, העקרונות של Agent 365 רלוונטיים. רישום של כל ה-agents שאתם מריצים, הרשאות מינימליות לכל אחד, ו-audit log של כל פעולה — זה לא רק "לעסקים גדולים", זה הסטנדרט של פיקוח שעליו נדבר בפרק 6. אם אתם מריצים סוכן על המחשב האישי שלכם, תנהגו כאילו יש לכם Agent 365 — רישום, הרשאות, audit.

מתחיל 10 דקות benchmarks ספקנות

איך לקרוא טענת-אמינות: OSWorld מול WebVoyager

אחת המיומנויות הכי חשובות ב-2026 היא לקרוא טענות-שיווק של ספקים בספקנות. כש-OpenAI אומרת "Operator עכשיו 75% על OSWorld" או כש-Google אומרת "Gemini 2.5 Computer Use מוביל ב-WebVoyager", זה אומר משהו — אבל לא בהכרח מה שאתם חושבים. ההבנה של איזה benchmark נמדד, איזה גרסה, ועל איזה סוג משימות, היא ההבדל בין קבלת החלטה טובה לבין קבלת החלטה יקרה.

OSWorld — המבחן הקשה

OSWorld הוא benchmark של משימות דסקטופ מלא. ה-agent צריך לפתוח קבצים ב-File Explorer, לערוך מסמכים ב-Word, לנהל גיליונות ב-Excel, להגדיר הגדרות מערכת, לעבוד עם אפליקציות native. הוא נחשב המבחן הקשה ביותר כי הוא דורש מהמודל להבין ממשקים מורכבים, dropdowns, modals, וזרימות עבודה של desktop. ה-baseline האנושי ב-OSWorld עומד על 72.4% — כלומר אנושי ממוצע פותר 72.4% מהמשימות.

הציונים העדכניים ב-OSWorld (יוני 2026): GPT-5.4 מגיע ל-~75% (מעל ה-baseline האנושי), Claude Opus 4.6 עומד על ~60.7%, ו-Operator המקורי (CUA) קלע 38.1% בעת ההשקה. זה אומר שהמודל המוביל כיום טוב יותר מהממוצע האנושי במשימות דסקטופ — אבל זה עדיין 25% כשל. והמשימות שהוא נכשל בהן הן בדיוק המשימות הלא-סטנדרטיות: עיצובים חדשים, modals מורכבים, multi-step workflows.

WebVoyager — המבחן הקל

WebVoyager הוא benchmark של משימות web בלבד: קניות באמזון, חיפוש טיסות, מילוי טפסים באתרים ידועים, אינטראקציה עם SaaS נפוץ. הוא נחשב המבחן הקל יחסית כי הממשקים יציבים יותר, הזרימות סטנדרטיות יותר, וה-training data של המודלים מכיר אותם טוב יותר. הציונים שם גבוהים משמעותית: Gemini 2.5 Computer Use מגיע ל-~88.9%, ו-Claude Opus 4.6 ל-~87-89%.

המשמעות: אם ספק אומר "אנחנו 88% ב-WebVoyager", זה לא אומר שהוא אמין ב-88% בחיים האמיתיים. הוא אמין ב-88% במשימות web סטנדרטיות, בממשקים מוכרים, בזרימות שהוא ראה ב-training. הוא יכול להיות 40-50% במשימות דסקטופ, או בממשקים ישראליים בעברית/RTL, או ב-portal פנימי של חברה שהמודל מעולם לא ראה.

הכלל: תמיד לבדוק גרסה, סוג משימה, וגודל מדגם

לפני שאתם מסיקים מסקנות מטענת-אמינות, ענו על 3 שאלות:

איזה גרסה של המודל? הציון של Claude Sonnet 4.5 לא רלוונטי ל-Claude Opus 4.8. תאריך הציון חשוב — אם הוא מלפני 6 חודשים, זה עולם אחר.
איזה benchmark? OSWorld (קשה) או WebVoyager (קל)? או benchmark אחר שלא שמעתם עליו? כל benchmark מודד משהו אחר.
איזה סוג משימות ספציפית? האם הציון הוא על "משימות קצרות" או "multi-step workflows"? האם זה על אתרים ידועים או על long-tail?

והכי חשוב: הציון לא אומר "ייכשל ב-X% מהמקרים". הוא אומר "במדגם הזה של משימות, הצליח ב-Y%". ההפצה של ההצלחה לא אחידה — יש משימות שהוא פותר תמיד, יש משימות שהוא נכשל בהן תמיד, ויש משימות שתלויות בעיצוב הספציפי של היום. תמיד תבדקו בעצמכם על המשימה שלכם, לא תסמכו על ציון ספק.

בינוני 7 דקות מתמטיקה failure rates

המתמטיקה מאחורי ה-headline — למה 75% הוא לא מספיק טוב

עכשיו, אחרי שאנחנו יודעים לקרוא ציוני benchmark, הגיע הזמן להבין למה אמינות גבוהה לא שווה workflow יציב. הסיבה היא מתמטית פשוטה: כשלים מצטברים לאורך סיבובי הלולאה.

המתמטיקה — דוגמה מספרית

נניח שהסוכן שלכם מצליח בכל סיבוב של הלולאה (screenshot→reason→act) ב-95%. זה נשמע מצוין. עכשיו, משימה של "הורד חשבונית" דורשת 10 סיבובים. ההסתברות שכל 10 הצליחו: 0.95^10 ≈ 0.598, כלומר 60%. זה על 95% per-step, שזה גבוה מאוד ביחס לעולם האמיתי. בואו נראה מה קורה עם 75% per-step, שזה הציון של GPT-5.4 על OSWorld: 0.75^10 ≈ 0.056, כלומר 5.6%. המשימה נכשלת ב-94% מהמקרים.

זו הסיבה ש"best in class" עדיין נכשל. ה-75% של GPT-5.4 על OSWorld הופך לכשל 1-מ-4 בכל סיבוב, ועל משימה של 10 סיבובים, הופך לכשל 94%. המספר הזה לא תיאורטי — הוא מה שאתם תראו אם תריצו את הסוכן 20 פעמים על אותה משימה. רק 1-2 מתוך 20 יצליחו, והשאר ייכשלו באיזשהו סיבוב.

המשמעות לבחירת workflow

המתמטיקה הזו אומרת שככל שהמשימה ארוכה יותר, כך הסיכוי להצלחה קצר יותר. משימה של 5 סיבובים ב-90% per-step = 59% הצלחה. משימה של 20 סיבובים ב-90% per-step = 12% הצלחה. זו הסיבה שהקורס מלמד אתכם לקצר צעדים — לפרק משימה ארוכה לכמה קצרות, או להשתמש ב-deterministic steps (פרק 4) עבור הצעדים הצפויים.

זה גם המקום שבו מתמטיקת העלות נכנסת: כל סיבוב = צילום-מסך + reasoning. עלות per-step משתנה בין ספקים, אבל הסדר גודל הוא $0.01-$0.10 לסיבוב. משימה של 10 סיבובים = $0.10-$1.00. 10 הרצות = $1-$10. 100 משימות = $10-$100. אם אתם בונים workflow על 1,000 משימות בחודש, אתם כבר ב-$100-$1,000 — וזה לפני שדיברנו על צעדים שנכשלים וצריך לחזור עליהם.

מתחיל 6 דקות אזור browser

זמינות אזורית ו-browser blockers — למה לאמת לפני שבונים

לפני שאתם בונים workflow שלם על מוצר, תאמתו שיש לכם גישה אליו. זה נשמע טריוויאלי, אבל זו הטעות שעולה הכי הרבה זמן. Codex for Chrome לא זמין ב-EU וב-UK בהשקה; הוא Chrome-only (לא Edge, לא Brave, לא Arc, לא Opera, למרות שהם מבוססי Chromium); ויש הבדל בין "ראיתי demo" ל"יש לי גישה אמיתית".

מה צריך לאמת

זמינות אזורית: האם המוצר זמין בארץ שלכם? Codex for Chrome הוא דוגמה קלאסית — לא ב-EU/UK בהשקה. משתמש ישראלי לרוב בסדר, אבל לא תמיד — תלוי בגרסה ובחשבון. בדקו עם החשבון שלכם ומה-IP שלכם לפני שאתם מתכננים.
Browser compatibility: האם הוא עובד ב-Chrome הרשמי בלבד, או גם ב-Edge/Brave/Arc/Opera/Chromium forks אחרים? Codex for Chrome הוא Chrome-only בהשקה. אם אתם משתמשים ב-Brave כי הוא חוסם מודעות בצורה טובה יותר — אתם לא יכולים להריץ את ה-extension הזה.
Platform: macOS, Windows, Linux? חלק מהמוצרים זמינים רק במק (Atlas בהשקה, חלק מיכולות Antigravity).
Plan tier: האם המוצר כלול ב-Plus שלכם, או דורש Pro/$200? Operator הוא דוגמה — הוא ב-Pro בלבד, לא ב-Plus.
Preview vs GA: האם המוצר הוא research preview, agent mode ב-preview, או production-grade? זה משפיע על הציפיות שלכם מהמוצר — preview = טועה יותר, GA = צפוי לעבוד.

הבדיקה עצמה היא 5 דקות: פתחו את החשבון שלכם, חפשו את המוצר, נסו להתקין או להפעיל. אם יש הודעה "not available in your region" — עצרו. אל תבנו workflow על מוצר שלא בדקתם. העלות של בדיקה מוקדמת היא אפס; העלות של גילוי מאוחר היא ימי עבודה.

בינוני 10 דקות החלטה מסגרת

מסגרת ההחלטה — איזה כלי לאיזו משימה

עכשיו, אחרי שמיפינו את הנוף, הגיע הזמן להפוך את המידע להחלטה מעשית. המסגרת שלמטה מבוססת על שילוב של קטגוריית המוצר, סוג המשימה, וה-blast radius. זו המסגרת שנחזור אליה בפרק 4 ובפרק 7, אבל כבר עכשיו היא נותנת לכם כלי לבחור.

Framework 1 — Decision Matrix לפי סוג משימה

לפני שאתם בוחרים כלי, הגדירו את המשימה במונחים של שלוש שאלות: (א) איפה היא רצה? (ב) כמה סשנים מחוברים היא דורשת? (ג) מה ה-blast radius? התשובות מובילות ישירות לקטגוריה.

אם המשימה רצה ב-Chrome שלכם ודורשת סשנים קיימים (Gmail, CRM, פורטל ספק): → Chrome extension. Codex for Chrome או Claude in Chrome. קל להתקנה, רץ בסשנים שלכם, פיקוח ישיר.
אם המשימה לא דורשת סשנים שלכם, ואתם רוצים להפריד אותה לחלוטין: → Hosted agent. Operator. הסוכן רץ ב-VM מרוחק, אתם רק צופים. יקר ($200), preview.
אם המשימה דורשת תוכנה מקומית (לא רק web): → Desktop agent app. Antigravity 2.0. multi-agent, scheduled tasks. blast radius גדול יותר.
אם המשימה חוזרת ב-volume גבוה, ואתם רוצים שליטה מלאה בעלות: → API-first. Gemini 2.5 Computer Use או Anthropic Computer Use. דורש קוד, גמישות מקסימלית, תשלום רק על tokens.
אם המשימה מצריכה גלישה ארוכה עם ChatGPT זמין לכל צעד: → Agentic browser. Atlas. sidebar מובנה, אבל זה דפדפן אחר.

המבחן הסופי: אם אתם לא בטוחים בקטגוריה, התחילו ב-Chrome extension. זו הקטגוריה הכי נגישה, הכי זולה לבדיקה, והכי בטוחה לפיקוח. רק אחרי שהוכחתם שהמשימה אפשרית — תעברו לקטגוריה אחרת.

Framework 2 — "ה-3 דקות שלפני בחירת כלי"

לפני שאתם מתחילים להתקין ולבדוק, ענו על 4 שאלות ב-3 דקות. התשובות יחסכו לכם שעות של ניסוי וטעייה.

איפה המשימה רצה? Chrome? תוכנה מקומית? ענן של ספק? → קובע קטגוריה.
האם היא דורשת סשנים שלי? Gmail/CRM/בנק מחוברים? → Chrome extension. אחרת? → hosted agent או API.
מה ה-blast radius? גבוה (בנק, מייל) = רק קריאה-בלבד + supervision. נמוך (dashboard ציבורי) = אפשר להריץ אוטונומי.
מה התקציב? $0 = רק API (עם vision LLM שאתם משלמים עליו tokens). $20-50 = ChatGPT Plus. $200 = Operator / Pro.

המבחן הסופי: ענו על 4 השאלות. עכשיו יש לכם טבלה בראש עם 2-3 מועמדים. תתקינו אחד מהם, תריצו משימת read-only, תעקבו. אם זה עובד — יש לכם כלי. אם לא — תעברו למועמד הבא.

טעות נפוצה: להניח ש-WebVoyager ~88% = אמין בחיים האמיתיים

הציון הזה מודד משימות web סטנדרטיות בממשקים ידועים. הוא לא אומר "ייכשל ב-12% מהמקרים" — הוא אומר "במדגם הזה של משימות, הצליח ב-88%". הצלחה בממשקים לא-מוכרים, ב-RTL עברית, או ב-portal פנימי של חברה, יכולה לרדת ל-50% ואף פחות. תמיד תבדקו על המשימה שלכם, לא תסמכו על ציון ספק.

טעות נפוצה: לבנות workflow על Codex for Chrome מ-EU/UK

Codex for Chrome לא זמין ב-EU וב-UK בהשקה. אם אתם מתכננים workflow שמסתמך עליו עבור לקוח באירופה, תתפלאו באמצע הדרך. תאמתו זמינות אזורית לפני שאתם מתחילים — 5 דקות של בדיקה יחסכו לכם ימי עבודה.

טעות נפוצה: להתייחס ל-preview/agent mode כ-production-grade

Operator, Atlas agent mode, Codex agent — כולם מסומנים preview, וכולם מזהירים שהם טועים ב-workflows מורכבים. זה לא אומר "אל תשתמשו" — זה אומר "תפקחו, אל תסמכו עליהם בעיניים עצומות". Preview = supervised, לא autonomous. תאמתו על 10 הרצות לפני שאתם מכריזים production-ready.

תרגיל: Vendor Landscape Audit — מפו 5 מוצרים ב-5 קטגוריות

המטרה: לתרגל את ההבחנה בין 5 הקטגוריות על מוצרים אמיתיים, ולבנות את הטבלה האישית שלכם לפני שאתם בוחרים כלי לפרויקט.

פתחו Google Sheet חדש עם 8 עמודות: מוצר, קטגוריה, סשן, תמחור, זמינות אזורית, Browser/Platform, חוזק מרכזי, חולשה מרכזית.
מלאו 5 שורות עם המוצרים שלמדנו: Codex for Chrome, Claude in Chrome, ChatGPT Atlas, OpenAI Operator, Gemini 2.5 Computer Use. אם יש לכם גישה למוצר נוסף (Antigravity 2.0, Copilot Studio), הוסיפו.
לכל שורה, בדקו את הזמינות האזורית מהחשבון שלכם. אם המוצר זמין, סמנו ✓. אם לא, סמנו ✗ עם הסיבה (אזור, plan tier, browser).
צבעו את הטבלה: ירוק למוצרים זמינים עכשיו, צהוב למוצרים ב-preview, אדום למוצרים לא זמינים. זה יהפוך לכלי עבודה לכל בחירת כלי בעתיד.
הוסיפו שורת "Winner" בתחתית: לכל קטגוריה, איזה מוצר הוא הבחירה שלכם עכשיו, ולמה.

תוצאה צפויה: 5 שורות מלאות, טבלה צבעונית, ושורת winner אחת שמסבירה את הבחירה שלכם. זה ה-baseline שלכם לקראת פרק 4. זמן: 20-25 דקות. איפה לשמור: Google Sheet, תחזרו אליו בכל פעם שיוצא מוצר חדש.

תרגיל: Benchmark Skepticism Drill — קראו 3 טענות-אמינות בספקנות

המטרה: לפתח את המיומנות של לקרוא טענות-שיווק בספקנות, ולחלץ מהן את המידע הרלוונטי לכם.

מצאו 3 טענות-אמינות של ספקים. דוגמאות: "Operator 75% on OSWorld", "Gemini 2.5 88.9% on WebVoyager", "Claude Opus 4.6 60.7% on OSWorld". אפשר מהמקורות ב-course.research.json או מבלוגים רשמיים.
לכל טענה, ענו על 4 שאלות: (א) איזה גרסה של המודל? (ב) איזה benchmark? (ג) איזה סוג משימות? (ד) מתי פורסם?
החליטו אם הטענה רלוונטית למשימה שלכם. לדוגמה: אם המשימה שלכם היא ב-RTL עברית ב-portal ישראלי, ציון OSWorld או WebVoyager לא רלוונטי. תחפשו הערכות אחרות.
כתבו סיכום בן 3 שורות לכל טענה: מה נטען, מה המגבלות, והאם זה רלוונטי אליכם.

תוצאה צפויה: 3 סיכומים בני 3 שורות, שמראים לכם שטענת-אמינות היא לא עובדה — היא טענה שצריך לפרק. זמן: 15-20 דקות.

תרגיל: Install + Verify — תתקינו 2 מוצרים ותאמתו גישה

המטרה: לעבור מ-paper analysis ל-verified reality. אחרי התרגיל הזה, תדעו אילו מוצרים באמת זמינים לכם, ולא רק מה שכתוב ב-marketing.

בחרו 2 מוצרים מהטבלה שבניתם בתרגיל הקודם, שאתם רוצים לנסות. המלצה: Chrome extension אחד (Codex for Chrome או Claude in Chrome) + מוצר נוסף (Atlas או Operator, אם יש לכם Pro).
התקינו את ה-Chrome extension: פתחו את Chrome Web Store (או Codex Plugins עבור Codex), חפשו את השם, לחצו "Add to Chrome". אשרו את ההרשאות.
ודאו שיש לכם גישה: האם ה-extension מופיע ברשימת ה-extensions? האם הוא מבקש login? האם יש הודעת region block?
אם בחרתם Atlas או Operator: התקינו את הדפדפן (עבור Atlas) או היכנסו ל-ChatGPT (עבור Operator). ודאו שיש לכם plan שתומך.
רשמו ב-Google Doc מה הצליח, מה נחסם, ואיזה plan tier נדרש. זה ה-baseline שלכם לקראת פרק 3.

תוצאה צפויה: 2 מוצרים מותקנים ופעילים, או 1-2 חסימות מתועדות (region, plan, browser). בשני המקרים, אתם יודעים עכשיו מה עומד לרשותכם, ולא תגלו את זה באמצע משימה. זמן: 20-30 דקות.

Do Now — 5 דקות (3 מוצרים של OpenAI — סיכום בעל-פה)

בלי להסתכל בטקסט, נסו להסביר לעצמכם (או למישהו אחר) מה ההבדל בין שלושת מוצרי OpenAI: Codex for Chrome, ChatGPT Atlas, Operator. אם אתם מתבלבלים, חזרו לסעיף 2. תוצאה צפויה: אתם יכולים להסביר את ההבדל במשפט אחד לכל מוצר — בלי "זה דומה ל...".

Do Now — 7 דקות (5 קטגוריות — דוגמה אחת לכל אחת)

לכל אחת מ-5 הקטגוריות (Chrome extension, agentic browser, hosted agent, desktop app, API), רשמו דוגמה אחת של מוצר אמיתי שמופיע בפרק. אם אתם לא מצליחים להתאים מוצר לקטגוריה — חזרו לסעיף 1. תוצאה צפויה: 5 שורות ב-Google Doc, כל אחת בפורמט "קטגוריה: X, מוצר: Y".

Do Now — 6 דקות (OSWorld vs WebVoyager — חישוב צפוי)

קחו את המתמטיקה מסעיף 7. נניח success-per-step של 80%, ומשימה של 12 סיבובים. חשבו את success-from-start-to-end. ואז חזרו על החישוב עם 90% per-step, ועם 95% per-step. תוצאה צפויה: 3 מספרים שמראים לכם עד כמה הצלחה גבוהה לא מבטיחה workflow אמין. 80% × 12 ≈ 9%. 90% × 12 ≈ 28%. 95% × 12 ≈ 54%.

Do Now — 4 דקות (זמינות — רשימת בדיקות)

לפני שאתם בונים כל workflow, רשמו 4 בדיקות זמינות: (1) האם זמין בארץ שלי? (2) האם זה Chrome-only? (3) איזה plan נדרש? (4) Preview או GA? תוצאה צפויה: checklist של 4 שאלות שתעברו עליו לפני כל בחירת כלי.

Do Now — 8 דקות (3-Product Decision — מה הייתי בוחר היום)

בהינתן 3 משימות קונקרטיות (הורד חשבונית מפורטל ספק ישראלי, חיפוש טיסה זולה לנובמבר, מילוי טופס ביטוח לאומי), רשמו לכל אחת איזה מוצר הייתם בוחרים מתוך הרשימה, ולמה. תוצאה צפויה: 3 החלטות מנומקות, אחת לכל משימה, עם הסבר של משפט אחד.

Do Now — 5 דקות (ChatGPT Pro — האם $200 שווה את זה?)

אם אתם לא משלמים על ChatGPT Pro ($200), רשמו לעצמכם: האם הייתי משדרג אם Operator היה זמין ב-Plus ($20)? ולהיפך — האם הייתי מוריד את Pro אם לא הייתי צריך את Operator? תוצאה צפויה: החלטת תקציב מבוססת על צרכים, לא על hype.

Do Now — 10 דקות (AI Risk News Scan — Project Mariner)

חפשו ב-Google את הביטוי "Project Mariner shutdown" או קראו את ההכרזה הרשמית של גוגל. רשמו: (א) למה הם סגרו אותו, (ב) לאן היכולת עברה, (ג) מה המסר לכם כ-builder. תוצאה צפויה: 3 שורות. המסר המרכזי: "לבנות על capability, לא על brand".

Do Now — 5 דקות (Hebrew/RTL Reality)

אם אתם עובדים עם ממשקים בעברית (פורטל ממשלתי, בנק ישראלי, Priority/חשבשבת), ענו: כמה מהמשימות שלי נוגעות ב-RTL? האם הציון של OSWorld/WebVoyager רלוונטי אליי? מה המשמעות לפיקוח? תוצאה צפויה: הבנה שעברית/RTL הוא edge case שדורש פיקוח הדוק יותר, ושאמינות יכולה להיות נמוכה יותר.

Work Routine — שגרת ה-Landscape Phase

יומי (8 דקות, 7 ימים ראשונים):

3 דקות — Mental Map Reinforcement. חזרו על 5 הקטגוריות בראש. אם אתם לא זוכרים את כולן — חזרו לסעיף 1.
3 דקות — Vendor News Scan. חפשו ב-Google או X (טוויטר) את הביטויים "computer use agent" או "browser agent" או "agentic browser". ראיתם מוצר חדש? נסו לשייך אותו לאחת מ-5 הקטגוריות.
2 דקות — Per-Step Math. חשבו את success-from-start-to-end למשימה שלכם (success-per-step בחזקת מספר הסיבובים). רשמו ב-Google Doc.

שבועי (30 דקות): הוסיפו שורה ל-Google Sheet שבניתם בתרגיל 1 עם כל מוצר חדש שאתם שומעים עליו. אם הוא לא נכנס לאחת מ-5 הקטגוריות — חשבו מחדש.

לפני פרק 3 (45-60 דקות): התקינו לפחות אחד מה-Chrome extensions שלמדנו עליהם, או ודאו שהגישה שלכם ל-Atlas/Operator תקפה. הכניסו לחשבון, התרשמו מהממשק, אל תריצו משימה עדיין.

המטרה של השגרה הזו: להפוך את המפה של 5 הקטגוריות לreflex, לא רק לזיכרון. אחרי 7 ימים, כל מוצר חדש שישמע לכם עליו — תוכלו לשייך אותו לקטגוריה תוך 10 שניות.

מה תפיקו בסוף הפרק

טבלת Vendor Landscape Audit (Google Sheet) — 5 מוצרים ב-5 קטגוריות, עם זמינות אזורית, תמחור, וחוזקות/חולשות. עם שורת "Winner" לכל קטגוריה.
3 סיכומי Benchmark Skepticism (Google Doc) — 3 טענות-אמינות של ספקים, מפורקות ל-4 שאלות, עם החלטה אם רלוונטיות למשימה שלכם.
Verified Install List (Google Doc) — 2 מוצרים שהתקנתם או אימתם גישה אליהם, עם תיעוד של מה עבד ומה נחסם.
3-Product Decision Write-Up (Google Doc) — 3 משימות, 3 החלטות כלי מנומקות.
Per-Step Math Notebook (Google Doc) — חישובי success-per-step בחזקת מספר סיבובים ל-3 תרחישים (80%, 90%, 95%).
Availability Checklist (4 שאלות) — בדיקה שתעברו עליה לפני כל בחירת כלי בעתיד.
ChatGPT Pro TCO Decision (Google Doc) — האם $200/חודש שווה את זה, ולמי.

מילון מונחי הפרק — Glossary

Chrome extension — סוכן שרץ בתוך ה-Chrome שלכם, עם הסשנים המחוברים שלכם. דוגמאות: Codex for Chrome, Claude in Chrome. הקטגוריה הכי נגישה והכי בטוחה לפיקוח.
Agentic browser — דפדפן שלם שמגיע עם agent mode מובנה ו-sidebar של ChatGPT. דוגמה: ChatGPT Atlas. לא ה-Chrome שלכם, אלא תחליף.
Hosted agent — סוכן שרץ ב-VM מרוחק של הספק, אתם רק צופים ב-streaming. דוגמה: OpenAI Operator. הקטגוריה הכי יקרה, preview.
Desktop agent app — אפליקציה עצמאית על המחשב שיכולה להפעיל תוכנות מקומיות. דוגמה: Google Antigravity 2.0. multi-agent, scheduled tasks.
Computer-use API — רכיב, לא מוצר. אתם מפעילים מודל בקוד שלכם, עם תשתית שלכם. דוגמאות: Gemini 2.5 Computer Use, Anthropic Computer Use.
OSWorld — benchmark של משימות דסקטופ מלא (קובץ, Excel, מערכת). ה-baseline האנושי 72.4%. המבחן הקשה ביותר.
WebVoyager — benchmark של משימות web בלבד. ציונים גבוהים (~88%), המבחן הקל.
Per-site confirmation — prompt שמופיע בכל פעם שהסוכן רוצה לפעול באתר חדש, עם "Allow this chat" / "Always allow host" / "Decline". הגבול האבטחתי הראשון.
Adaptive interface recovery — יכולת של הסוכן להתאים את עצמו אוטומטית לשינויי UI. קיים ב-Copilot Studio. לא מושלם.
Agent 365 — control plane של מיקרוסופט לניהול agents בארגון. Registry, identity, monitoring, audit. הסטנדרט של governance.
Project Mariner — extension הדפדפני של גוגל שנסגר ב-4 במאי 2026. היכולת קופלה לתוך Gemini API/Agent/Chrome.
GA (General Availability) — מוצר שיצא מ-preview ואמור לעבוד ב-production. לא מובטח, אבל הציפיות גבוהות יותר.
Preview — גרסה מוקדמת של מוצר, עם אזהרות שהוא טועה. לא production-grade. Operator, Atlas agent mode, Codex agent — כולם preview.
Success-per-step — ההסתברות שהסוכן יבצע סיבוב בודד נכון. 75% ב-OSWorld, ~95% ב-WebVoyager למשימות סטנדרטיות.
Success-from-start-to-end — ההסתברות שכל הסיבובים יצליחו = (success-per-step) ^ מספר סיבובים. 0.95^10 = 0.60, 0.75^10 = 0.056.

Check Yourself — מבחן עצמי בסוף הפרק

שאלה: מה ההבדל המרכזי בין Codex for Chrome ל-ChatGPT Atlas?
תשובה: Codex for Chrome הוא extension שרץ בתוך ה-Chrome שלכם עם הסשנים שלכם. Atlas הוא agentic browser — דפדפן שלם, לא תוסף ל-Chrome. הם בקטגוריות שונות, לא תחליפים זה לזה.
שאלה: למה הציון "Gemini 2.5 88.9% on WebVoyager" לא אומר שהמודל אמין ב-88.9% בחיים האמיתיים?
תשובה: כי WebVoyager מודד רק משימות web סטנדרטיות בממשקים מוכרים. על ממשקים לא-מוכרים, RTL עברית, או portal פנימי של חברה, ההצלחה יכולה לרדת ל-50% ומטה. הציון לא רלוונטי לכל משימה.
שאלה: למה 75% success-per-step לא מספיק טוב ל-workflow ארוך?
תשובה: כי הכשלים מצטברים. 0.75^10 ≈ 0.056 — רק 5.6% מהמשימות יצליחו מקצה-לקצה. על משימה של 20 סיבובים, זה 0.75^20 ≈ 0.003 — פחות מאחוז.
שאלה: מה ההבדל בין hosted agent ל-desktop agent app?
תשובה: Hosted agent (Operator) רץ ב-VM מרוחק בענן של הספק — אתם רק צופים. Desktop agent app (Antigravity 2.0) רץ על המחשב שלכם ויכול להפעיל תוכנות מקומיות. ל-Antigravity blast radius גדול יותר, אבל גם יכולת רחבה יותר.
שאלה: אם המשימה שלי דורשת סשנים מחוברים של Gmail ו-Salesforce, איזה קטגוריה הכי מתאימה?
תשובה: Chrome extension. רק קטגוריה זו פועלת בתוך ה-Chrome שלכם עם הסשנים הקיימים שלכם, בלי צורך להתחבר מחדש או למסור credentials. Codex for Chrome או Claude in Chrome.

תוצאה צפויה: אם עניתם נכון על 4 מתוך 5 — אתם מוכנים לפרק 3 (הסוכן הראשון שלכם). אם פחות — חזרו על הסעיף הרלוונטי ונסו שוב.

סיכום הפרק — 7 לקחים שייקחו אתכם הלאה

חמש קטגוריות, לא עשרות שמות. Chrome extension, agentic browser, hosted agent, desktop agent app, computer-use API. אם אתם לא מצליחים לשייך מוצר לאחת מהן — זה signal שאתם לא מבינים אותו עדיין.
ל-OpenAI יש שלושה מוצרים שונים. Codex for Chrome (extension), Atlas (agentic browser), Operator (hosted agent ב-$200/חודש). הם לא תחליפים, הם קטגוריות שונות.
Anthropic מציעה extension + API. Claude in Chrome עם ידע מובנה על Slack/Calendar/GitHub, ו-Computer Use API למי שכותב קוד. Prompt injection attack-success-rate ירד מ-23.6% ל-11.2%, אבל עדיין 1-מ-9.
Google פיבטה ל-API-first. Project Mariner נסגר ב-4 במאי 2026, Antigravity 2.0 הושק כ-desktop agent, Gemini 2.5 Computer Use ב-API preview. בנו על capability, לא על brand.
Microsoft מיועדת לארגונים. Copilot Studio Computer-Using Agents (GA) + Agent 365 (governance plane). אם אתם בארגון, זה הכיוון. אם לא, קחו את העקרונות (registry, audit, identity) והחילו בעצמכם.
OSWorld ≠ WebVoyager. הראשון קשה (~60-75%), השני קל (~88%). אם ספק מציג ציון, תמיד שאלו: איזה גרסה, איזה benchmark, איזה סוג משימות, ומתי פורסם.
תאמתו זמינות לפני שאתם בונים. Codex for Chrome לא ב-EU/UK, Chrome-only. Operator ב-$200. preview ≠ production. 5 דקות של בדיקה יחסכו לכם ימי עבודה.

Just One Thing — אם תזכרו רק דבר אחד מהפרק הזה

אם תוציאו רק רעיון אחד מהפרק הזה השבוע — שיהיה זה: "5 קטגוריות, לא 50 שמות". כל מוצר שתשמעו עליו ב-2026 — Code X, Claude Y, Atlas Z, Operator, Antigravity, Mariner, Comet, Dia, Strawberry, או כל שם אחר — תשייכו אותו תוך 10 שניות לאחת מחמש: Chrome extension, agentic browser, hosted agent, desktop agent app, או computer-use API. אם אתם לא מצליחים — זה signal שאתם לא מבינים את המוצר מספיק, ולא שאתם לא חכמים מספיק. חזרו לתיעוד, תשאלו 3 שאלות (איפה רץ, מי מחזיק credentials, מה blast radius), ותסווגו. ההחלטה נובעת מהקטגוריה, לא מהשם. והקטגוריה יציבה גם כשהשם הבא יושק מחר.

מה הלאה — פרק 3

בפרק 3 (הסוכן הראשון שלך — להריץ משימה אמיתית מקצה-לקצה, מפוקח) נריץ את המשימה הראשונה שלכם ב-Claude in Chrome או Codex for Chrome. תלמדו את מודל ה-per-site confirmation בפעולה (Allow this chat / Always allow host / Decline), תראו pause / interrupt / take-over, ותכירו את ה-DIY OSS המקומי (Browser Use + vision LLM) כחלופה חינמית. המוצרים שבחרתם בפרק הזה הם הקלט; הפלט הוא workflow ראשון אמיתי שרץ מקצה-לקצה — תחת פיקוח, בלי הפתעות.

Checklist — האם סיימתם את הפרק

אתם יכולים להגדיר את 5 הקטגוריות (Chrome extension, agentic browser, hosted agent, desktop agent app, computer-use API) ולהסביר מה מבדיל בין כל שתיים
אתם יכולים להסביר את ההבדל בין Codex for Chrome, ChatGPT Atlas, ו-Operator — בלי לבלבל ביניהם
אתם יודעים ש-Claude in Chrome כולל אינטגרציות מובנות עם Slack, Calendar, Gmail, Docs, GitHub, ושה-prompt injection attack-success-rate הוא 11.2%
אתם מבינים את הפיבוט של גוגל: Project Mariner נסגר, Antigravity 2.0 הושק כ-desktop agent, Gemini 2.5 Computer Use ב-API preview
אתם יודעים ש-Microsoft מציעה Copilot Studio Computer-Using Agents (GA) + Agent 365 (governance plane), ושהם מיועדים לארגונים
אתם יכולים להסביר את ההבדל בין OSWorld (קשה, ~60-75%) ל-WebVoyager (קל, ~88%), ולמה הציון השני לא רלוונטי לכל משימה
אתם יכולים לחשב success-from-start-to-end בהינתן success-per-step ומספר סיבובים (ולהסביר למה 75%^10 = 5.6%)
אתם יודעים לבדוק 4 דברים לפני בחירת כלי: זמינות אזורית, browser compatibility, plan tier, preview vs GA
אתם יודעים ש-Codex for Chrome לא ב-EU/UK בהשקה, Chrome-only, ועליכם לאמת גישה מהחשבון שלכם
אתם יכולים לקרוא טענת-אמינות של ספק בספקנות: 4 שאלות (גרסה, benchmark, סוג משימה, תאריך פרסום)
בניתם Vendor Landscape Audit ב-Google Sheet עם 5 מוצרים, זמינות, תמחור, ושורת winner
התקנתם או אימתם גישה ל-2 מוצרים מהרשימה, ויש לכם Verified Install List מתועד
החלטתם איזה כלי הייתם בוחרים ל-3 משימות קונקרטיות, עם נימוק
אתם מוכנים לפרק 3 — להריץ את המשימה הראשונה שלכם, תחת פיקוח