Token-Effizienz
trifft Agentic AI.
ScaleWise engagiert sich aktiv in der KI-Grundlagenforschung — mit akademischen Partnern und Open-Source-Beiträgen zur Effizienz von KI-Coding-Agenten.
Beteiligte
Forschung & Team
Wissenschaftliche Kooperation und Plugin-Entwicklung — offen dokumentiert unter MIT-Lizenz.
Forschungspartner

Furkan Sakizli
Independent ResearcherAutor von TSCG · SKZL-AI · Wissenschaftspartner
Furkan forscht als Independent Researcher im Bereich LLM-Optimierung und Tool-Schema-Effizienz. Mit TSCG hat er einen GPU-freien und API-freien deterministischen Tool-Schema-Compiler veröffentlicht: 8 kausal begründete Operatoren, ~20.000-API-Call Benchmark über 13+ Sprachmodelle (inkl. Claude Opus 4.7, GPT-5.5), sub-millisecond auf jedem Knoten (LLMLingua-2 benötigt eine GPU und ~42 s), 1.200 LOC TypeScript, null Dependencies. v1.4.3 erweitert um OpenClaw-Adapter und Vercel-AI-SDK-Schnittstelle. Paper-Titel: „Token-Context Semantic Grammar for Causal Prompt Optimization in Large Language Models"
ScaleWise · Plugin-Entwicklung

Nick Wolf
Gründer & CEO · ScaleWise UGEntwickler von BCU / pi-tscg · DEKRA-zertifizierter KI-Beauftragter
Mit pi-tscg hat Dominic Wolf die Bord-Compression-Unit (BCU) entwickelt — eine Plugin-Integration der TSCG-Engine mit zwei zusätzlichen Kompressionsebenen: Output-Filter (Hebel 2, 4-Filter-Pipeline) und Provider-Cache-Layer (Hebel 3). Beide Hebel sind eigenständige Beiträge, die über Furkans Schema-Compiler hinausgehen.
Forschungspublikation · v1.4.3
TSCG – Token-Context Semantic Grammar
„Token-Context Semantic Grammar for Causal Prompt Optimization in Large Language Models" — Furkan Sakizli, Independent Researcher
Deterministischer Tool-Schema-Compiler: 8 kausal begründete Operatoren transformieren JSON-Schemas in token-effiziente Textdarstellungen — ohne Modellzugriff, ohne GPU, unter 1 ms. Reduziert die Schema-Overhead-Komplexität von O(n·k) auf O(n·k/c) mit c ≈ 3,5.
v1.4.3-Benchmark · 20.000+ API-Calls · 13+ Sprachmodelle (4B–32B + Frontier inkl. Claude Opus 4.7, GPT-5.5)
- 1GPU-frei und API-frei — keine Inferenz-Hardware, keine zusätzlichen API-Calls. Atlassians MCP-Compiler braucht GPU, LLMLingua-2 braucht eine GPU und ~42 s. TSCG läuft deterministisch auf jedem Knoten in sub-millisecond.
- 2GPT-4o BFCL: 31,7 % → 57,4 % (+25,7 pp Accuracy, ARR 181 %) — größter empirischer Sprung der v1.4.3-Auswertung
- 3Claude Opus 4.7: bis zu +7,5 pp Accuracy bei 56–63 % Token-Einsparung (50-Tools-Szenario) · GPT-5.2: ARR 144 % · Sonnet 4: ARR 108 % — durchgängige Retention über Frontier-Modelle
- 4Kleine Modelle (4B–14B) profitieren stärker als Frontier-Modelle — TSCG hebt sie auf Frontier-Niveau, ohne dass zusätzliche Inferenz-Kosten anfallen
- 5v1.4.3-Erweiterungen: OpenClaw-Adapter (Coding-Agent-Integration) und Vercel-AI-SDK-Schnittstelle — letztere für B2B-Stacks auf Next.js/Vercel direkt einbindbar
Open-Source-Plugin
BCU – Bord-Compression-Unit
Das NPM-Plugin pi-tscg bringt TSCG direkt in den Lifecycle des Pi Coding-Agents — nicht als externe Middleware, sondern tief integriert über Pi's Hook-System. Es ergänzt Furkans Engine um zwei eigene Kompressionsebenen.
Hebel 1 · Schema
TSCGTool-Beschreibungen werden durch Furkans Engine komprimiert. 8–15 % bei Pi Built-ins, bis 50 % bei externen Tools.
Hebel 2 · Tool-Results
BCU4-Filter-Pipeline für Werkzeug-Antworten: Leerzeilen, Wiederholungen, Füllwörter, Head/Tail-Querlesen. Spart 12–15× mehr als Hebel 1.
Hebel 3 · Provider-Cache
BCUErkennt automatisch den KI-Anbieter und aktiviert das jeweilige Caching. Bei Anthropic: cache_control-Marker. Bei OpenAI: automatisch. Bei Ollama: deaktiviert.
↑ Pi-Footer mit pi-tscg — alle sechs Werte live auf einen Blick. Mit /tscg öffnet sich ein interaktives Settings-Menü.
Gemessene Live-Sessions
Session A · 28. April 2026
qwen3.5:9b · Ollama · HTML-Bau + find-Inventar
14.600
Tokens gespart
≈ 10.500 Wörter
−62 %
Hebel 2 (res)
Werkzeug-Antworten
−8.3 %
Hebel 1 (Schemas)
strukturell konstant
~2.8 %
Gesamt
14.6k von 517.6k
Session B · 29. April 2026
gemma4:26b · Ollama · medium thinking
10.600
Tokens gespart
≈ 7.600 Wörter
−74 %
Hebel 2 (res)
+12 pp gegenüber A
−8.3 %
Hebel 1 (Schemas)
identisch zu A
~49 %
Gesamt
10.6k von 21.6k
Gerechnet (Claude Opus, 20 Schritte): Eine typische Pi-Session kostet ohne Plugin rund 1 €. Mit pi-tscg: ca. 15 Cent — 85 % Ersparnis. Bei einem Team von 10 Entwicklern mit je 100 Sessions/Monat: 850 € monatliche Einsparung. Hebel 2 dominiert dabei: er spart 12–15× mehr als Hebel 1 — die Tool-Antworten sind das eigentliche Token-Problem.
npm install -g @mariozechner/pi-coding-agent
# Plugin hinzufügenpi install npm:pi-tscg
Systemarchitektur
Das Zusammenspiel erklärt
Wie ein Fahrzeug aus Motor, Einspritzer und Kabelbaum — jede Komponente hat eine klare Rolle.
Die Karosserie
Coding-Agent
z.B. Pi-Coding-Agent
Open-Source-Coding-Plattform mit Plugin-Hook-System. Aktuell in Pi integriert — das Konzept funktioniert in jedem Agent mit Provider-Hooks.
Der Motor
LLM
Ollama (lokal) · Anthropic · OpenAI
Das Sprachmodell. Bei Ollama / lokalen LLMs zählt jeder gesparte Token doppelt — kein Provider-Cache, kein Fallback.
Die Einspritzanlage
TSCG
Furkan Sakizli (extern)
Deterministische Compression-Engine mit 8 Operatoren. Wissenschaftlicher Forschungspartner — nicht Teil von ScaleWise.
Der Kabelbaum
BCU
Nick Wolf · ScaleWise
pi-tscg Plugin. Verbindet alles, orchestriert die Hebel, ergänzt Output-Filter (Hebel 2) und Provider-Cache-Layer (Hebel 3).
Coding-Agenten setzen bei jedem Loop-Schritt denselben Payload zusammen: System-Prompt, Tools-Array und kumulativer Messages-Verlauf. Bei 20 Tool-Calls geht dieselbe Werkzeug-Liste 20-mal raus, und jede Tool-Antwort wird bei jeder Folgefrage mitgeschleppt. TSCG und BCU greifen genau hier an: Der Kabelbaum (BCU) stellt sicher, dass der Einspritzer (TSCG) im richtigen Moment feuert — und sorgt zusätzlich dafür, dass große Tool-Antworten durch vier Filter laufen, bevor sie in den Verlauf wandern.
Warum lokale LLMs der primäre Use-Case sind
Bei Cloud-Anbietern wie Anthropic oder OpenAI federt der Provider-Cache hohe Token-Kosten ab dem zweiten Request ab. Bei Ollama und anderen lokalen Modellen gibt es keinen Cache — jeder Token wird voll prozessiert, jeder Token kostet Rechenzeit auf deiner eigenen Hardware. Genau dort wirkt pi-tscg am stärksten: weniger Tokens = direkt weniger GPU-Last, kürzere Inferenzzeit, längere Sessions im selben Kontextfenster. Für KMU, die KI-Coding-Agenten lokal und DSGVO-konform betreiben wollen, ist das der entscheidende Hebel.
§ 8 · Erkenntnisse
Drei Aussagen zum Mitnehmen
1. Die Wahl der Plattform war wichtiger als die Technik.
Pi gibt einer Erweiterung vollen Zugriff auf alle Datenflüsse. Bei Claude Code wären Hebel 2 und 3 nicht umsetzbar — dort gibt es nur Pre/Post-Tool-Hooks, aber keinen Zugriff auf das Provider-Payload. Bei Cursor geht gar nichts — geschlossenes Backend. Die wichtigste Frage war nicht „wie komprimiere ich?", sondern „in welchen Agent baue ich das ein?"
2. Die Werkzeug-Antworten sind der größte Hebel.
Forschungspapiere schauen meist auf Werkzeug-Beschreibungen. Im wirklichen Einsatz steckt der Großteil des Token-Verbrauchs aber in den Antworten — bei find-Aufrufen, langen Logs, großen Dateien. Hebel 2 spart 12–15× mehr als Hebel 1. Und doch wird darüber kaum geredet.
3. Verbreitung ist wichtiger als Technik.
Eine gute Compression-Engine bringt nichts, wenn sie nicht in der Hand des Nutzers landet. Das Plugin schließt die Lücke zwischen „theoretisch verfügbar" und „praktisch installierbar". Mit einem einzigen Befehl bekommt jeder Pi-Nutzer den vollen Compression-Stack — ohne Setup, ohne Konfiguration, ohne Cloud-Account.
FAQ
Häufige Fragen
Forschung trifft Praxis
Interessiert an TSCG-Integration in Ihre KI-Infrastruktur, wissenschaftlichem Austausch oder einer Kooperation? Wir freuen uns über den Kontakt.