חזרה לאתר
מיני קורס · 5 שיעורים

פחות טוקנים,
אותו Claude.

שלוש שכבות שמורידות את צריכת הטוקנים בסשן של Claude Code. שלושתן חינמיות ומותקנות בפקודה אחת.

שיעור 01 · 4 דק׳

למה הסשן שלכם נגמר באמצע

לפני שמתקינים כלי, כדאי להבין למה בכלל יש פה בעיה. ושלוש המקומות שאפשר לטפל בה.

הסיפור שכולם מספרים החודש

משתמש ב-IndieHackers פרסם פוסט שעבר ויראלי: בחודש אחד החשבון שלו ב-Claude Code הגיע ל-$30,983, במנוי של $200 לחודש. שבועיים אחר כך הופיע דיון ב-r/theprimeagen על כך ש-Microsoft ביטלה רישיונות Claude Code פנימיים כי החשבון הפך לבלתי-נסבל. שני הפוסטים האלה הציפו את אותה תחושה אצל אלפי אנשים שמשתמשים בכלי כל יום.

זה לא בגלל ש-Claude יקר. זה בגלל שהסשן הממוצע מבזבז המון טוקנים על דברים שהמודל לא באמת צריך לראות, ועל תשובות שיכלו להיות חצי באורך.

מה זה טוקן, ולמה הם נגמרים

טוקן הוא יחידת קריאה של המודל. כל מילה, סימן, או חתיכת קוד נספרים. ל-Claude Code יש חלון קונטקסט של 200,000 טוקנים בסשן. כשהחלון מתמלא, הסשן מתכווץ אוטומטית (compaction) ומאבד פרטים, או פשוט נחתך.

היוצר של Context Mode (אחד הכלים שתפגשו פה) ניסח את זה ככה: עם MCP פופולריים כמו Playwright, Context7 ו-GitHub פעילים, 72% מהחלון מתמלא לפני שהתחלתם לעבוד. נשארים לכם 56K טוקנים לעבודה אמיתית. אחר כך הסשן נסגר ואתם פותחים חדש, וכל מה שצברתם נעלם.

איפה הטוקנים נשרפים

אם תפתחו את הסשן הממוצע ותסתכלו מה אכל את החלון, יש שלושה אשמים קבועים. השכבות בקורס הזה תואמות אותם בדיוק:

שלושה אשמים, שלוש שכבות
  • מה נכנס: פלטים של פקודות טרמינל ש-Claude קורא. git status אחד יכול להיות 200 שורות של שמות קבצים שאף אחד לא צריך לקרוא.
  • מה יוצא: התשובות של Claude עצמו. הקדמות מנומסות, הסברים מסביב לקוד, סיכומים שחוזרים על מה שכבר אמרתם. כל זה טוקנים.
  • מה זורם דרך: פלטים של כלי MCP. snapshot של Playwright הוא 56KB. שאיבת 20 issues מ-GitHub היא 59KB. הכל נכנס לחלון.

הכלי לכל שכבה

הקהילה ב-30 הימים האחרונים התכנסה על אותה תשובה. שלושה פרויקטים ב-GitHub מטפלים בדיוק בשלוש הבעיות האלה, וכל אחד עובד על שכבה אחרת:

שלושת הכלים והאחריות שלהם
  • RTK · אחראי על מה שנכנס. proxy שמתיישב בין Claude לטרמינל, מסנן ומכווץ פלטים של פקודות לפני שהמודל רואה אותם. ה-README מבטיח "60-90%" חיסכון על פקודות פיתוח נפוצות.
  • Caveman · אחראי על מה שיוצא. skill ל-Claude Code שגורם למודל לכתוב קצר ולעניין, בלי הקדמות והסברים מיותרים. הבנצ׳מארק הפנימי שלהם מודד 65% חיסכון בממוצע על טוקני פלט.
  • Context Mode · אחראי על מה שזורם דרך. MCP server שתופס פלטים גדולים של כלים, שומר אותם בצד באינדקס מקומי, ומגיש ל-Claude רק תקציר. המספר המוצג ב-README הוא 98% על פלטים גולמיים של כלים.

למה שלושתם, ולא רק אחד?

אם תחפשו ב-r/ClaudeCode "Which token optimizer would you recommend", תמצאו שרשור שבו המשתמשים שואלים בדיוק את זה: "אני לא בטוח אם הם משלימים אחד את השני או שאפשר להפעיל במקביל." התשובה שהשרשור מתכנס אליה היא ששלושתם משלימים, וכן, מפעילים את שלושתם.

הסיבה פשוטה. RTK לא יודע לקצר את התשובה של Claude. Caveman לא יודע לסנן פלט של git. Context Mode לא יודע מה Claude כתב. כל אחד תופס בעיה שאחרים לא נוגעים בה.

בשיעור הבא תפגשו את RTK, השכבה הראשונה. תתקינו אותו בפקודה אחת, תפעילו עם פקודה שנייה, ותראו ב-rtk gain כמה טוקנים חסכתם תוך 5 דקות שימוש.
שיעור 02 · 5 דק׳

RTK · השכבה של מה שנכנס

proxy שיושב בין Claude לטרמינל ומכווץ את הפלטים של פקודות לפני שהמודל קורא אותן.

מה זה RTK

ה-README מתאר את RTK ככה: "CLI proxy that reduces LLM token consumption by 60-90% on common dev commands. Single Rust binary, zero dependencies." בעברית: כלי קטן שיושב באמצע, מקבל את הפלט של פקודות שאתם או Claude מריצים בטרמינל, ושולח ל-Claude רק את החלק שמעניין אותו.

בפועל זה עובד דרך hook ב-Bash. אחרי ההתקנה, כל פעם ש-Claude מריץ git status, ה-hook משכתב את הפקודה ל-rtk git status, וזו מסננת את הפלט לפני שהמודל רואה אותו. אין צורך לזכור להוסיף שום דבר.

התקנה

שתי דרכים, שתיהן פקודה אחת. במק או לינוקס, הדרך הקלה היא Homebrew:

install · homebrew
brew install rtk

אם אין לכם Homebrew, אותו דבר עם curl:

install · curl
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/refs/heads/master/install.sh | sh

הפעלה

אחרי ההתקנה, פקודה אחת מחברת את RTK ל-Claude Code. ה-README מציג אותה ככה:

activation
rtk init -g                  # Claude Code / Copilot (default)

הפקודה רושמת hook גלובלי שמופעל בכל פעם ש-Claude Code מריץ פקודת Bash. מאותו רגע, אתם לא צריכים לשנות שום דבר בהרגלי העבודה שלכם, RTK פועל ברקע.

איך רואים שזה עובד

אחרי שמשתמשים ב-Claude Code חצי שעה, מריצים את זה בטרמינל:

stats
rtk gain

הפקודה מציגה כמה טוקנים RTK שלף מהזרם, על איזה פקודות, ואיזה אחוז זה היה מתוך הסך. זאת הוכחה קונקרטית שהכלי עובד. אם הסך אפס, כנראה ה-hook לא הותקן כראוי וצריך להריץ שוב את rtk init -g.

הסתייגות אחת לפני שתתקינו

על מק ולינוקס ה-hook עובד מצוין. על Windows, ה-README מתאר שהכלי נופל ל-fallback של הזרקת הוראות ל-CLAUDE.md במקום hook אמיתי, כלומר התוצאה פחות עקבית.

השכבה הראשונה מותקנת. בשיעור הבא תיגעו ב-Caveman, השכבה השנייה. אם RTK חתך את מה שנכנס, Caveman חותך את מה שיוצא, כלומר את התשובות של Claude עצמו.
שיעור 03 · 5 דק׳

Caveman · השכבה של מה שיוצא

skill ל-Claude Code שגורם למודל לכתוב קצר, בלי הקדמות, בלי הסברים מסביב לקוד.

מה זה Caveman

הסלוגן של הפרויקט הוא "why use many token when few token do trick" (למה להשתמש בהרבה טוקנים כשמספיק מעט). זה skill שמותקן בתוך Claude Code, ונותן למודל הנחיה שיטתית לכתוב קצר ולעניין. בלי הקדמות מנומסות, בלי סיכומים שחוזרים על מה שהמשתמש הרגע אמר, בלי הסברים מסביב לתשובה.

בקצרה, אותה תשובה על באג טיפוסי ב-React שבמצב רגיל תהיה פסקה שלמה של "התופעה שאתם רואים נובעת מ...", במצב Caveman תקבל שתי שורות עם הבעיה והפיתרון. הפלט מקצר משמעותית בלי לאבד את האבחנה הטכנית.

התקנה

על מק או לינוקס, פקודה אחת ב-Terminal:

install · macOS / Linux
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

על Windows, PowerShell:

install · Windows
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex

הדרישה היחידה לפי ה-README היא Node מגרסה 18 ומעלה. אם יש לכם Claude Code, סביר ש-Node מותקן.

הפעלה ושליטה

אחרי ההתקנה, בתוך סשן של Claude Code, מקלידים את הפקודה ובוחרים רמת דחיסה:

activation
/caveman full

ה-README של הפרויקט מתאר ארבע רמות: lite, full, ultra, ו-wenyan. הקהילה ב-30 הימים האחרונים מזכירה בעיקר את שלוש הראשונות, אז כדאי להתחיל מ-full ולעבור ל-ultra אם עדיין יש לכם תשובות ארוכות מדי.

כמה זה באמת חוסך

ה-README של Caveman מציג חיסכון של כ-65% בממוצע על טוקני הפלט, בלי להשפיע על דיוק התשובה. זו ההסתכלות הקצרה והמעשית: אותה תשובה, שני שליש פחות טקסט.

שתי תוצאות נוספות שכדאי להכיר
  • קצר זה לפעמים מדויק יותר. ה-README מצטט מאמר שמצא שאילוץ של מודלים גדולים לתשובות תמציתיות שיפר דיוק ב-26 נקודות באחת מסדרות הבנצ׳מארק.
  • פקודה שנייה לזיכרון. /caveman-compress <file> מקצרת קבצים כמו CLAUDE.md, מה שלפי ה-README חוסך כ-46% טוקני input בכל סשן שמתחיל.

טעות שכולם עושים בהתחלה

אל תשאירו את Caveman דלוק כשאתם לומדים משהו חדש. Nathan Onn כתב על זה פוסט שמהדהד בקהילה: Caveman מצוין לעריכות מכניות, refactor של קבצים, ותיקוני באגים שאתם מכירים. כשאתם מנסים להבין רעיון חדש או מתלבטים על אדריכלות, ההסברים המפורטים של Claude שווים את הטוקנים. הכלל הפשוט: ON לעבודה ידועה, OFF ללמידה.

איך רואים שזה עובד

אותו דפוס כמו ב-RTK. פקודה אחת בצ׳אט מציגה דוח חיסכון:

stats
/caveman-stats

מקבלים את צריכת הטוקנים בסשן הנוכחי ואת החיסכון המצטבר מאז שהתקנתם.

שתי שכבות מותקנות. בשיעור הבא תפגשו את Context Mode, השכבה השלישית, שמטפלת בבעיה שלא RTK ולא Caveman נוגעים בה: פלטים ענקיים של MCP tools.
שיעור 04 · 5 דק׳

Context Mode · השכבה של מה שזורם דרך

MCP server שתופס פלטים גדולים של כלים, שומר אותם באינדקס מקומי, ומגיש ל-Claude רק תקציר חכם.

הבעיה: כלי MCP מציפים את הקונטקסט

חלון הקונטקסט של Claude Code הוא 200,000 טוקנים. ברגע שמפעילים כמה כלי MCP פופולריים, 72% מהחלון כבר תפוסים לפני שהתחלתם לעבוד.

ה-README של Context Mode מציג טבלת בנצ׳מארק שלמה: snapshots של דפדפן, שאיבות מ-GitHub, קבצי log, log של git. כל אחד מהם תופס עשרות KB בחלון. במספר טוקנים זה אלפים, וזה רק על קריאה אחת. אם Claude צריך מהפלט הזה רק 2-3 שורות, השאר היה בזבוז שעבר ישירות לחלון.

מה Context Mode עושה

Context Mode הוא MCP server שמתיישב בין הכלים ל-Claude. ה-README מתאר את המנגנון: פלטים גדולים נכנסים לאינדקס מקומי של SQLite FTS5 עם דירוג BM25. במקום לתת ל-Claude את כל ה-56KB, הוא מקבל תקציר קצר ויכול לחפש בתוך התוכן המאוחסן ולקבל רק את מה שרלוונטי לשאלה הנוכחית.

בנוסף הוא שומר היסטוריה של מה Claude עשה בסשן: קבצים שערך, פקודות שהריץ, החלטות. כשהסשן מתכווץ (compaction), Context Mode מחזיר תקציר עדיפויות קצר במקום שהפרטים האלה ילכו לאיבוד.

התקנה ב-Claude Code

שתי פקודות, ישירות בתוך סשן של Claude Code:

install · claude code plugin
/plugin marketplace add mksglu/context-mode
/plugin install context-mode@context-mode

אם אתם מעדיפים npm, יש גם דרך גלובלית בטרמינל:

install · npm global
npm install -g context-mode

הדרישה לפי ה-README היא Node.js בגרסה 22.5 ומעלה, או Bun במקום. ה-FTS5 לאינדקס מובנה.

המספרים שמופיעים ב-README

שורת הסיכום של הבנצ׳מארק
  • סשן שלם, מצטבר: 315KB פלטים גולמיים מתכווצים ל-5.4KB בקונטקסט. חיסכון של 98%.
  • זמן סשן ממוצע מתארך מ-30 דקות לעבודה פעילה, ל-3 שעות.

איך רואים שזה עובד

שתי פקודות שכדאי לזכור:

stats & doctor
ctx stats
ctx doctor

ctx stats מציגה כמה נחסך, כמה קריאות עברו דרך ה-sandbox, ודוח סשן. ctx doctor בודקת שה-hooks הותקנו, ש-FTS5 פעיל, ושהגרסאות תואמות. אם הסטטיסטיקה נראית לכם נמוכה, doctor יראה אם משהו לא חובר נכון.

נקודה אחת על פרטיות

ה-README מציין במפורש: "No telemetry, no cloud sync, no account required. All data local." כל האינדקס יושב על המחשב שלכם בלבד. אם אתם עובדים עם קוד רגיש או מסמכי לקוחות, זה משמעותי.

שלוש השכבות מותקנות. בשיעור האחרון נסכם בקצרה מה התקנתם ואיך לראות את החיסכון.
שיעור 05 · 2 דק׳

סיכום: מה התקנתם

שלוש שכבות שמטפלות בשלוש בעיות שונות, כל אחת עם פקודת stats משלה.

שלוש השכבות שלכם

מה כל כלי עושה
  • RTK · מסנן את הפלטים של פקודות טרמינל לפני שהמודל קורא אותם.
  • Caveman · גורם ל-Claude לכתוב תשובות קצרות וענייניות.
  • Context Mode · תופס פלטים גדולים של כלי MCP ומגיש למודל רק תקציר.

איך לראות כמה חסכתם

לכל אחת מהשכבות יש פקודה אחת שמציגה את החיסכון בפועל:

stats
rtk gain          # מה RTK שלף מהקלט
/caveman-stats    # מה Caveman חסך בפלט
ctx stats         # מה Context Mode סינן מהכלים

אחרי שבוע של עבודה, תריצו את שלושתן ותראו מאיפה החיסכון העיקרי שלכם מגיע.

סיימתם את הקורס. שלוש שכבות מותקנות, אחת לכל סוג בזבוז של טוקנים. עכשיו לכו לעבוד, ובסוף השבוע תפתחו את ה-stats ותראו את המספרים.