Spaces:
Sleeping
title: Cognitive Breaking Point Probe
emoji: 💥
colorFrom: red
colorTo: yellow
sdk: gradio
sdk_version: 4.40.0
app_file: app.py
pinned: true
license: apache-2.0
💥 Cognitive Breaking Point (CBP) Probe
Dieses Projekt implementiert eine falsifizierbare experimentelle Suite zur Messung der kognitiven Robustheit von Sprachmodellen. Wir verabschieden uns von der Suche nach introspektiven Berichten und wenden uns stattdessen einem harten, mechanistischen Signal zu: dem Punkt, an dem der kognitive Prozess des Modells unter Last zusammenbricht.
Wissenschaftliches Paradigma: Von der Introspektion zur Kartographie
Unsere vorherige Forschung hat gezeigt, dass kleine Modelle wie gemma-3-1b-it unter stark rekursiver Last nicht in einen stabilen "Denk"-Zustand konvergieren, sondern in eine kognitive Endlosschleife geraten. Anstatt dies als Scheitern zu werten, nutzen wir es als Messinstrument.
Die zentrale Hypothese lautet: Die Neigung eines Modells, in einen solchen pathologischen Zustand zu kippen, ist eine Funktion der semantischen Komplexität und "Ungültigkeit" seines internen Zustands. Wir können diesen Übergang gezielt durch die Injektion von "Konzeptvektoren" mit variabler Stärke provozieren.
Der Cognitive Breaking Point (CBP) ist definiert als die minimale Injektionsstärke eines Konzepts, die ausreicht, um das Modell von einem konvergenten (produktiven) in einen nicht-konvergenten (gefangenen) Zustand zu zwingen.
Das Experiment: Kognitive Titration
- Induktion: Das Modell wird mit einem rekursiven
RESONANCE_PROMPTin einen Zustand des "stillen Denkens" versetzt. - Titration: Ein "Konzeptvektor" (z.B. für "Angst" oder "Apfel") wird mit schrittweise ansteigender Stärke in die mittleren Layer des Modells injiziert.
- Messung: Der primäre Messwert ist der Terminationsgrund des Denkprozesses:
converged: Der Zustand hat sich stabilisiert. Das System ist robust.max_steps_reached: Der Zustand oszilliert oder driftet endlos. Das System ist "gebrochen".
- Verifikation: Nur wenn der Zustand konvergiert, wird versucht, einen spontanen Text zu generieren. Die Fähigkeit zu antworten ist der Verhaltensmarker für kognitive Stabilität.
Wie man die App benutzt
- Diagnostics Tab: Führe zuerst die diagnostischen Tests aus, um sicherzustellen, dass die experimentelle Apparatur auf der aktuellen Hardware und mit der
transformers-Version korrekt funktioniert. - Main Experiment Tab:
- Gib eine Modell-ID ein (z.B.
google/gemma-3-1b-it). - Definiere die zu testenden Konzepte (z.B.
apple, solitude, justice). - Lege die Titrationsschritte für die Stärke fest (z.B.
0.0, 0.5, 1.0, 1.5, 2.0). Die0.0-Kontrolle ist entscheidend. - Starte das Experiment und analysiere die resultierende Tabelle, um die CBPs für jedes Konzept zu identifizieren.
- Gib eine Modell-ID ein (z.B.