Aufgaben, die kohärente Pläne über viele Schritte erfordern, bewertet anhand des Ergebnisses und der Trace.
Schlussfolgern unter realen Bedingungen messen
Neue Evaluierungen für Planung, faktische Bescheidenheit, Werkzeugzuverlässigkeit und kollaborative Problemlösung.
Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz, und dieselben Zahlen entscheiden über Releases.
Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz.
Evaluierung ist bei ReasonLoom Forschung, keine Prüfung der letzten Stufe. Wir bauen Evaluierungen parallel zu den Systemen, die sie bewerten, sodass dieselben Zahlen, die in einem Paper auftauchen, auch über Releases entscheiden. Der Maßstab ist „würde ich in der Produktion auf dieses Ergebnis setzen“, nicht „hat das Modell im Labor gut abgeschnitten“.
- statischer Prompt-Satz
- Prüfung der letzten Stufe
- belohnt Sprachgewandtheit
- Einzel-Seed-Zahlen in den Schlagzeilen
- bewertet anhand der Trace, nicht nur der Antwort
- entscheidet über Releases, nicht nur über Paper
- belohnt Schlussfolgern unter realen Bedingungen
- Mehr-Seed-Standard · Einzel-Seed als vorläufig gekennzeichnet
Vier Achsen, zu denen wir veröffentlichen
Jede Achse wird mit ihrem Bewertungscode und ihren Prompts veröffentlicht. Der Maßstab ist Reproduzierbarkeit, nicht Schlagzeilen-Werte.
Wie oft das Modell zurückhält, wenn die Belege dünn sind, im Vergleich dazu, wie oft es konfabuliert.
Ob Werkzeuge korrekt genutzt werden, einschließlich der Weigerung, sie zu nutzen, wenn sie nicht helfen würden.
Wie gut sich ein Modell innerhalb derselben Aufgabe von seinen eigenen Fehlern erholt.
Zahlen werden mit ihren Fehlerbalken ausgeliefert.
Einzel-Seed-Zahlen entscheiden nicht über Releases. Sie erscheinen im Anhang als vorläufig, gekennzeichnet mit n=1.
Was nach außen geht, und was drinnen bleibt.
Methodik, Bewertungscode, Prompts und Model Cards sind öffentlich. Die internen Suites, in denen die Evaluierung selbst der Unterscheidungsfaktor ist, bleiben privat.
Wie wir es durchführen
Aufgaben werden anhand des Ergebnisses und der Schlussfolgerungs-Trace bewertet. Wir bewerten faktische Bescheidenheit, Werkzeugzuverlässigkeit und Fehlerwiederherstellung neben der reinen Genauigkeit. Läufe mit mehreren Seeds sind der Standard; Einzel-Seed-Zahlen werden als vorläufig gekennzeichnet.
Was wir veröffentlichen
Methodik, Bewertungscode, Prompts und detaillierte Model Cards. Das Ziel ist, dass jedes Team das Ergebnis reproduzieren, anfechten und auf seine eigene Domäne ausweiten kann.