שלוש שכבות שמורידות את צריכת הטוקנים בסשן של Claude Code. שלושתן חינמיות ומותקנות בפקודה אחת.
לפני שמתקינים כלי, כדאי להבין למה בכלל יש פה בעיה. ושלוש המקומות שאפשר לטפל בה.
משתמש ב-IndieHackers פרסם פוסט שעבר ויראלי: בחודש אחד החשבון שלו ב-Claude Code הגיע ל-$30,983, במנוי של $200 לחודש. שבועיים אחר כך הופיע דיון ב-r/theprimeagen על כך ש-Microsoft ביטלה רישיונות Claude Code פנימיים כי החשבון הפך לבלתי-נסבל. שני הפוסטים האלה הציפו את אותה תחושה אצל אלפי אנשים שמשתמשים בכלי כל יום.
זה לא בגלל ש-Claude יקר. זה בגלל שהסשן הממוצע מבזבז המון טוקנים על דברים שהמודל לא באמת צריך לראות, ועל תשובות שיכלו להיות חצי באורך.
טוקן הוא יחידת קריאה של המודל. כל מילה, סימן, או חתיכת קוד נספרים. ל-Claude Code יש חלון קונטקסט של 200,000 טוקנים בסשן. כשהחלון מתמלא, הסשן מתכווץ אוטומטית (compaction) ומאבד פרטים, או פשוט נחתך.
היוצר של Context Mode (אחד הכלים שתפגשו פה) ניסח את זה ככה: עם MCP פופולריים כמו Playwright, Context7 ו-GitHub פעילים, 72% מהחלון מתמלא לפני שהתחלתם לעבוד. נשארים לכם 56K טוקנים לעבודה אמיתית. אחר כך הסשן נסגר ואתם פותחים חדש, וכל מה שצברתם נעלם.
אם תפתחו את הסשן הממוצע ותסתכלו מה אכל את החלון, יש שלושה אשמים קבועים. השכבות בקורס הזה תואמות אותם בדיוק:
הקהילה ב-30 הימים האחרונים התכנסה על אותה תשובה. שלושה פרויקטים ב-GitHub מטפלים בדיוק בשלוש הבעיות האלה, וכל אחד עובד על שכבה אחרת:
אם תחפשו ב-r/ClaudeCode "Which token optimizer would you recommend", תמצאו שרשור שבו המשתמשים שואלים בדיוק את זה: "אני לא בטוח אם הם משלימים אחד את השני או שאפשר להפעיל במקביל." התשובה שהשרשור מתכנס אליה היא ששלושתם משלימים, וכן, מפעילים את שלושתם.
הסיבה פשוטה. RTK לא יודע לקצר את התשובה של Claude. Caveman לא יודע לסנן פלט של git. Context Mode לא יודע מה Claude כתב. כל אחד תופס בעיה שאחרים לא נוגעים בה.
proxy שיושב בין Claude לטרמינל ומכווץ את הפלטים של פקודות לפני שהמודל קורא אותן.
ה-README מתאר את RTK ככה: "CLI proxy that reduces LLM token consumption by 60-90% on common dev commands. Single Rust binary, zero dependencies." בעברית: כלי קטן שיושב באמצע, מקבל את הפלט של פקודות שאתם או Claude מריצים בטרמינל, ושולח ל-Claude רק את החלק שמעניין אותו.
בפועל זה עובד דרך hook ב-Bash. אחרי ההתקנה, כל פעם ש-Claude מריץ git status, ה-hook משכתב את הפקודה ל-rtk git status, וזו מסננת את הפלט לפני שהמודל רואה אותו. אין צורך לזכור להוסיף שום דבר.
שתי דרכים, שתיהן פקודה אחת. במק או לינוקס, הדרך הקלה היא Homebrew:
brew install rtk
אם אין לכם Homebrew, אותו דבר עם curl:
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/refs/heads/master/install.sh | sh
אחרי ההתקנה, פקודה אחת מחברת את RTK ל-Claude Code. ה-README מציג אותה ככה:
rtk init -g # Claude Code / Copilot (default)
הפקודה רושמת hook גלובלי שמופעל בכל פעם ש-Claude Code מריץ פקודת Bash. מאותו רגע, אתם לא צריכים לשנות שום דבר בהרגלי העבודה שלכם, RTK פועל ברקע.
אחרי שמשתמשים ב-Claude Code חצי שעה, מריצים את זה בטרמינל:
rtk gain
הפקודה מציגה כמה טוקנים RTK שלף מהזרם, על איזה פקודות, ואיזה אחוז זה היה מתוך הסך. זאת הוכחה קונקרטית שהכלי עובד. אם הסך אפס, כנראה ה-hook לא הותקן כראוי וצריך להריץ שוב את rtk init -g.
על מק ולינוקס ה-hook עובד מצוין. על Windows, ה-README מתאר שהכלי נופל ל-fallback של הזרקת הוראות ל-CLAUDE.md במקום hook אמיתי, כלומר התוצאה פחות עקבית.
skill ל-Claude Code שגורם למודל לכתוב קצר, בלי הקדמות, בלי הסברים מסביב לקוד.
הסלוגן של הפרויקט הוא "why use many token when few token do trick" (למה להשתמש בהרבה טוקנים כשמספיק מעט). זה skill שמותקן בתוך Claude Code, ונותן למודל הנחיה שיטתית לכתוב קצר ולעניין. בלי הקדמות מנומסות, בלי סיכומים שחוזרים על מה שהמשתמש הרגע אמר, בלי הסברים מסביב לתשובה.
בקצרה, אותה תשובה על באג טיפוסי ב-React שבמצב רגיל תהיה פסקה שלמה של "התופעה שאתם רואים נובעת מ...", במצב Caveman תקבל שתי שורות עם הבעיה והפיתרון. הפלט מקצר משמעותית בלי לאבד את האבחנה הטכנית.
על מק או לינוקס, פקודה אחת ב-Terminal:
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash
על Windows, PowerShell:
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex
הדרישה היחידה לפי ה-README היא Node מגרסה 18 ומעלה. אם יש לכם Claude Code, סביר ש-Node מותקן.
אחרי ההתקנה, בתוך סשן של Claude Code, מקלידים את הפקודה ובוחרים רמת דחיסה:
/caveman full
ה-README של הפרויקט מתאר ארבע רמות: lite, full, ultra, ו-wenyan. הקהילה ב-30 הימים האחרונים מזכירה בעיקר את שלוש הראשונות, אז כדאי להתחיל מ-full ולעבור ל-ultra אם עדיין יש לכם תשובות ארוכות מדי.
ה-README של Caveman מציג חיסכון של כ-65% בממוצע על טוקני הפלט, בלי להשפיע על דיוק התשובה. זו ההסתכלות הקצרה והמעשית: אותה תשובה, שני שליש פחות טקסט.
אותו דפוס כמו ב-RTK. פקודה אחת בצ׳אט מציגה דוח חיסכון:
/caveman-stats
מקבלים את צריכת הטוקנים בסשן הנוכחי ואת החיסכון המצטבר מאז שהתקנתם.
MCP server שתופס פלטים גדולים של כלים, שומר אותם באינדקס מקומי, ומגיש ל-Claude רק תקציר חכם.
חלון הקונטקסט של Claude Code הוא 200,000 טוקנים. ברגע שמפעילים כמה כלי MCP פופולריים, 72% מהחלון כבר תפוסים לפני שהתחלתם לעבוד.
ה-README של Context Mode מציג טבלת בנצ׳מארק שלמה: snapshots של דפדפן, שאיבות מ-GitHub, קבצי log, log של git. כל אחד מהם תופס עשרות KB בחלון. במספר טוקנים זה אלפים, וזה רק על קריאה אחת. אם Claude צריך מהפלט הזה רק 2-3 שורות, השאר היה בזבוז שעבר ישירות לחלון.
Context Mode הוא MCP server שמתיישב בין הכלים ל-Claude. ה-README מתאר את המנגנון: פלטים גדולים נכנסים לאינדקס מקומי של SQLite FTS5 עם דירוג BM25. במקום לתת ל-Claude את כל ה-56KB, הוא מקבל תקציר קצר ויכול לחפש בתוך התוכן המאוחסן ולקבל רק את מה שרלוונטי לשאלה הנוכחית.
בנוסף הוא שומר היסטוריה של מה Claude עשה בסשן: קבצים שערך, פקודות שהריץ, החלטות. כשהסשן מתכווץ (compaction), Context Mode מחזיר תקציר עדיפויות קצר במקום שהפרטים האלה ילכו לאיבוד.
שתי פקודות, ישירות בתוך סשן של Claude Code:
/plugin marketplace add mksglu/context-mode /plugin install context-mode@context-mode
אם אתם מעדיפים npm, יש גם דרך גלובלית בטרמינל:
npm install -g context-mode
הדרישה לפי ה-README היא Node.js בגרסה 22.5 ומעלה, או Bun במקום. ה-FTS5 לאינדקס מובנה.
שתי פקודות שכדאי לזכור:
ctx stats ctx doctor
ctx stats מציגה כמה נחסך, כמה קריאות עברו דרך ה-sandbox, ודוח סשן. ctx doctor בודקת שה-hooks הותקנו, ש-FTS5 פעיל, ושהגרסאות תואמות. אם הסטטיסטיקה נראית לכם נמוכה, doctor יראה אם משהו לא חובר נכון.
ה-README מציין במפורש: "No telemetry, no cloud sync, no account required. All data local." כל האינדקס יושב על המחשב שלכם בלבד. אם אתם עובדים עם קוד רגיש או מסמכי לקוחות, זה משמעותי.
שלוש שכבות שמטפלות בשלוש בעיות שונות, כל אחת עם פקודת stats משלה.
לכל אחת מהשכבות יש פקודה אחת שמציגה את החיסכון בפועל:
rtk gain # מה RTK שלף מהקלט /caveman-stats # מה Caveman חסך בפלט ctx stats # מה Context Mode סינן מהכלים
אחרי שבוע של עבודה, תריצו את שלושתן ותראו מאיפה החיסכון העיקרי שלכם מגיע.