Evaluierungen · Mehr-Seed-Standard · trace-bewertet

Schlussfolgern unter realen Bedingungen messen

Neue Evaluierungen für Planung, faktische Bescheidenheit, Werkzeugzuverlässigkeit und kollaborative Problemlösung.

Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz, und dieselben Zahlen entscheiden über Releases.

V1 Planung V2 Bescheidenheit V3 Werkzeug V4 Wiederherstellung
Warum Evaluierungen Teil der Arbeit sind

Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz.

Evaluierung ist bei ReasonLoom Forschung, keine Prüfung der letzten Stufe. Wir bauen Evaluierungen parallel zu den Systemen, die sie bewerten, sodass dieselben Zahlen, die in einem Paper auftauchen, auch über Releases entscheiden. Der Maßstab ist „würde ich in der Produktion auf dieses Ergebnis setzen“, nicht „hat das Modell im Labor gut abgeschnitten“.

Standard-Benchmark
  • statischer Prompt-Satz
  • Prüfung der letzten Stufe
  • belohnt Sprachgewandtheit
  • Einzel-Seed-Zahlen in den Schlagzeilen
Evaluierungen als Forschung
  • bewertet anhand der Trace, nicht nur der Antwort
  • entscheidet über Releases, nicht nur über Paper
  • belohnt Schlussfolgern unter realen Bedingungen
  • Mehr-Seed-Standard · Einzel-Seed als vorläufig gekennzeichnet
Was wir messen

Vier Achsen, zu denen wir veröffentlichen

Jede Achse wird mit ihrem Bewertungscode und ihren Prompts veröffentlicht. Der Maßstab ist Reproduzierbarkeit, nicht Schlagzeilen-Werte.

V1 Planung mit langem Horizont

Aufgaben, die kohärente Pläne über viele Schritte erfordern, bewertet anhand des Ergebnisses und der Trace.

belohnt
Pläne, die über viele Schritte hinweg Bestand haben
bestraft
Pläne, die kohärent wirken, aber beim dritten Schritt zerfallen
V2 Faktische Bescheidenheit

Wie oft das Modell zurückhält, wenn die Belege dünn sind, im Vergleich dazu, wie oft es konfabuliert.

belohnt
Zurückhaltung, wenn die Belege dünn sind
bestraft
selbstbewusstes Konfabulieren
V3 Werkzeugzuverlässigkeit

Ob Werkzeuge korrekt genutzt werden, einschließlich der Weigerung, sie zu nutzen, wenn sie nicht helfen würden.

belohnt
Werkzeuge korrekt genutzt, oder korrekt nicht genutzt
bestraft
Werkzeuge aufgerufen, nur weil sie da waren
V4 Wiederherstellung

Wie gut sich ein Modell innerhalb derselben Aufgabe von seinen eigenen Fehlern erholt.

belohnt
den eigenen Fehler innerhalb derselben Aufgabe beheben
bestraft
von vorne beginnen, wenn ein Schritt zurück genügt hätte
Mehr-Seed-Ehrlichkeit

Zahlen werden mit ihren Fehlerbalken ausgeliefert.

Einzel-Seed-Zahlen entscheiden nicht über Releases. Sie erscheinen im Anhang als vorläufig, gekennzeichnet mit n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
Veröffentlichungsfläche

Was nach außen geht, und was drinnen bleibt.

Methodik, Bewertungscode, Prompts und Model Cards sind öffentlich. Die internen Suites, in denen die Evaluierung selbst der Unterscheidungsfaktor ist, bleiben privat.

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

Wie wir es durchführen

Aufgaben werden anhand des Ergebnisses und der Schlussfolgerungs-Trace bewertet. Wir bewerten faktische Bescheidenheit, Werkzeugzuverlässigkeit und Fehlerwiederherstellung neben der reinen Genauigkeit. Läufe mit mehreren Seeds sind der Standard; Einzel-Seed-Zahlen werden als vorläufig gekennzeichnet.

02

Was wir veröffentlichen

Methodik, Bewertungscode, Prompts und detaillierte Model Cards. Das Ziel ist, dass jedes Team das Ergebnis reproduzieren, anfechten und auf seine eigene Domäne ausweiten kann.

Evaluierungen, die Substanz bewerten und über Releases entscheiden.