KI-Forschung & Open Science

Token-Effizienz
trifft Agentic AI.

ScaleWise engagiert sich aktiv in der KI-Grundlagenforschung — mit akademischen Partnern und Open-Source-Beiträgen zur Effizienz von KI-Coding-Agenten.

20.000+ API-Calls · 13+ LLMs (v1.4.3)45–62 % Token-EinsparungGPT-4o: BFCL +25,7 pp · ARR 181 %Open Source · MIT · GPU-frei · API-frei

Beteiligte

Forschung & Team

Wissenschaftliche Kooperation und Plugin-Entwicklung — offen dokumentiert unter MIT-Lizenz.

Forschungspartner

Furkan Sakizli

Furkan Sakizli

Independent Researcher

Autor von TSCG · SKZL-AI · Wissenschaftspartner

Furkan forscht als Independent Researcher im Bereich LLM-Optimierung und Tool-Schema-Effizienz. Mit TSCG hat er einen GPU-freien und API-freien deterministischen Tool-Schema-Compiler veröffentlicht: 8 kausal begründete Operatoren, ~20.000-API-Call Benchmark über 13+ Sprachmodelle (inkl. Claude Opus 4.7, GPT-5.5), sub-millisecond auf jedem Knoten (LLMLingua-2 benötigt eine GPU und ~42 s), 1.200 LOC TypeScript, null Dependencies. v1.4.3 erweitert um OpenClaw-Adapter und Vercel-AI-SDK-Schnittstelle. Paper-Titel: „Token-Context Semantic Grammar for Causal Prompt Optimization in Large Language Models"

sakizli.ai ORCID Zenodo (DOI) GitHub TSCGarxiv · erscheint demnächst

ScaleWise · Plugin-Entwicklung

Nick Wolf

Nick Wolf

Gründer & CEO · ScaleWise UG

Entwickler von BCU / pi-tscg · DEKRA-zertifizierter KI-Beauftragter

Mit pi-tscg hat Dominic Wolf die Bord-Compression-Unit (BCU) entwickelt — eine Plugin-Integration der TSCG-Engine mit zwei zusätzlichen Kompressionsebenen: Output-Filter (Hebel 2, 4-Filter-Pipeline) und Provider-Cache-Layer (Hebel 3). Beide Hebel sind eigenständige Beiträge, die über Furkans Schema-Compiler hinausgehen.

Forschungspublikation · v1.4.3

TSCG – Token-Context Semantic Grammar

„Token-Context Semantic Grammar for Causal Prompt Optimization in Large Language Models" — Furkan Sakizli, Independent Researcher

Deterministischer Tool-Schema-Compiler: 8 kausal begründete Operatoren transformieren JSON-Schemas in token-effiziente Textdarstellungen — ohne Modellzugriff, ohne GPU, unter 1 ms. Reduziert die Schema-Overhead-Komplexität von O(n·k) auf O(n·k/c) mit c ≈ 3,5.

DOI: 10.5281/zenodo.19795759v1.4.3 · April 20261.200 LOC · 0 Dependencies · 23 KB ESMGPU-frei · API-freiMIT · Open Source

v1.4.3-Benchmark · 20.000+ API-Calls · 13+ Sprachmodelle (4B–32B + Frontier inkl. Claude Opus 4.7, GPT-5.5)

  • 1GPU-frei und API-frei — keine Inferenz-Hardware, keine zusätzlichen API-Calls. Atlassians MCP-Compiler braucht GPU, LLMLingua-2 braucht eine GPU und ~42 s. TSCG läuft deterministisch auf jedem Knoten in sub-millisecond.
  • 2GPT-4o BFCL: 31,7 % → 57,4 % (+25,7 pp Accuracy, ARR 181 %) — größter empirischer Sprung der v1.4.3-Auswertung
  • 3Claude Opus 4.7: bis zu +7,5 pp Accuracy bei 56–63 % Token-Einsparung (50-Tools-Szenario) · GPT-5.2: ARR 144 % · Sonnet 4: ARR 108 % — durchgängige Retention über Frontier-Modelle
  • 4Kleine Modelle (4B–14B) profitieren stärker als Frontier-Modelle — TSCG hebt sie auf Frontier-Niveau, ohne dass zusätzliche Inferenz-Kosten anfallen
  • 5v1.4.3-Erweiterungen: OpenClaw-Adapter (Coding-Agent-Integration) und Vercel-AI-SDK-Schnittstelle — letztere für B2B-Stacks auf Next.js/Vercel direkt einbindbar

Open-Source-Plugin

BCU – Bord-Compression-Unit

Das NPM-Plugin pi-tscg bringt TSCG direkt in den Lifecycle des Pi Coding-Agents — nicht als externe Middleware, sondern tief integriert über Pi's Hook-System. Es ergänzt Furkans Engine um zwei eigene Kompressionsebenen.

Hebel 1 · Schema

TSCG

Tool-Beschreibungen werden durch Furkans Engine komprimiert. 8–15 % bei Pi Built-ins, bis 50 % bei externen Tools.

Hebel 2 · Tool-Results

BCU

4-Filter-Pipeline für Werkzeug-Antworten: Leerzeilen, Wiederholungen, Füllwörter, Head/Tail-Querlesen. Spart 12–15× mehr als Hebel 1.

Hebel 3 · Provider-Cache

BCU

Erkennt automatisch den KI-Anbieter und aktiviert das jeweilige Caching. Bei Anthropic: cache_control-Marker. Bei OpenAI: automatisch. Bei Ollama: deaktiviert.

pi-tscg v0.2.1last −8.3 %session −8.3 %res −74 %saved 10.6ktotal −49 %(aggressive)

↑ Pi-Footer mit pi-tscg — alle sechs Werte live auf einen Blick. Mit /tscg öffnet sich ein interaktives Settings-Menü.

Gemessene Live-Sessions

Session A · 28. April 2026

qwen3.5:9b · Ollama · HTML-Bau + find-Inventar

14.600

Tokens gespart

≈ 10.500 Wörter

−62 %

Hebel 2 (res)

Werkzeug-Antworten

−8.3 %

Hebel 1 (Schemas)

strukturell konstant

~2.8 %

Gesamt

14.6k von 517.6k

↑503k ↓15k · TSCG: last −8.3% · session −8.3% · res −62% · saved 14.6k (aggressive)

Session B · 29. April 2026

gemma4:26b · Ollama · medium thinking

10.600

Tokens gespart

≈ 7.600 Wörter

−74 %

Hebel 2 (res)

+12 pp gegenüber A

−8.3 %

Hebel 1 (Schemas)

identisch zu A

~49 %

Gesamt

10.6k von 21.6k

↑11k ↓956 · pi-tscg v0.2.0 · last −8.3% · session −8.3% · res −74% · saved 10.6k (aggressive)

Gerechnet (Claude Opus, 20 Schritte): Eine typische Pi-Session kostet ohne Plugin rund 1 €. Mit pi-tscg: ca. 15 Cent — 85 % Ersparnis. Bei einem Team von 10 Entwicklern mit je 100 Sessions/Monat: 850 € monatliche Einsparung. Hebel 2 dominiert dabei: er spart 12–15× mehr als Hebel 1 — die Tool-Antworten sind das eigentliche Token-Problem.

# Pi zuerst (falls noch nicht installiert)
npm install -g @mariozechner/pi-coding-agent
# Plugin hinzufügenpi install npm:pi-tscg
GitHub pi-tscg

Systemarchitektur

Das Zusammenspiel erklärt

Wie ein Fahrzeug aus Motor, Einspritzer und Kabelbaum — jede Komponente hat eine klare Rolle.

🏎️

Die Karosserie

Coding-Agent

z.B. Pi-Coding-Agent

Open-Source-Coding-Plattform mit Plugin-Hook-System. Aktuell in Pi integriert — das Konzept funktioniert in jedem Agent mit Provider-Hooks.

⚙️

Der Motor

LLM

Ollama (lokal) · Anthropic · OpenAI

Das Sprachmodell. Bei Ollama / lokalen LLMs zählt jeder gesparte Token doppelt — kein Provider-Cache, kein Fallback.

Die Einspritzanlage

TSCG

Furkan Sakizli (extern)

Deterministische Compression-Engine mit 8 Operatoren. Wissenschaftlicher Forschungspartner — nicht Teil von ScaleWise.

🔌

Der Kabelbaum

BCU

Nick Wolf · ScaleWise

pi-tscg Plugin. Verbindet alles, orchestriert die Hebel, ergänzt Output-Filter (Hebel 2) und Provider-Cache-Layer (Hebel 3).

Coding-Agenten setzen bei jedem Loop-Schritt denselben Payload zusammen: System-Prompt, Tools-Array und kumulativer Messages-Verlauf. Bei 20 Tool-Calls geht dieselbe Werkzeug-Liste 20-mal raus, und jede Tool-Antwort wird bei jeder Folgefrage mitgeschleppt. TSCG und BCU greifen genau hier an: Der Kabelbaum (BCU) stellt sicher, dass der Einspritzer (TSCG) im richtigen Moment feuert — und sorgt zusätzlich dafür, dass große Tool-Antworten durch vier Filter laufen, bevor sie in den Verlauf wandern.

Warum lokale LLMs der primäre Use-Case sind

Bei Cloud-Anbietern wie Anthropic oder OpenAI federt der Provider-Cache hohe Token-Kosten ab dem zweiten Request ab. Bei Ollama und anderen lokalen Modellen gibt es keinen Cache — jeder Token wird voll prozessiert, jeder Token kostet Rechenzeit auf deiner eigenen Hardware. Genau dort wirkt pi-tscg am stärksten: weniger Tokens = direkt weniger GPU-Last, kürzere Inferenzzeit, längere Sessions im selben Kontextfenster. Für KMU, die KI-Coding-Agenten lokal und DSGVO-konform betreiben wollen, ist das der entscheidende Hebel.

§ 8 · Erkenntnisse

Drei Aussagen zum Mitnehmen

1. Die Wahl der Plattform war wichtiger als die Technik.

Pi gibt einer Erweiterung vollen Zugriff auf alle Datenflüsse. Bei Claude Code wären Hebel 2 und 3 nicht umsetzbar — dort gibt es nur Pre/Post-Tool-Hooks, aber keinen Zugriff auf das Provider-Payload. Bei Cursor geht gar nichts — geschlossenes Backend. Die wichtigste Frage war nicht „wie komprimiere ich?", sondern „in welchen Agent baue ich das ein?"

2. Die Werkzeug-Antworten sind der größte Hebel.

Forschungspapiere schauen meist auf Werkzeug-Beschreibungen. Im wirklichen Einsatz steckt der Großteil des Token-Verbrauchs aber in den Antworten — bei find-Aufrufen, langen Logs, großen Dateien. Hebel 2 spart 12–15× mehr als Hebel 1. Und doch wird darüber kaum geredet.

3. Verbreitung ist wichtiger als Technik.

Eine gute Compression-Engine bringt nichts, wenn sie nicht in der Hand des Nutzers landet. Das Plugin schließt die Lücke zwischen „theoretisch verfügbar" und „praktisch installierbar". Mit einem einzigen Befehl bekommt jeder Pi-Nutzer den vollen Compression-Stack — ohne Setup, ohne Konfiguration, ohne Cloud-Account.

FAQ

Häufige Fragen

Zusammenarbeit

Forschung trifft Praxis

Interessiert an TSCG-Integration in Ihre KI-Infrastruktur, wissenschaftlichem Austausch oder einer Kooperation? Wir freuen uns über den Kontakt.

GitHub pi-tscg