Evaluierungen · Mehr-Seed-Standard · trace-bewertet

Schlussfolgern unter realen Bedingungen messen

Neue Evaluierungen für Planung, faktische Bescheidenheit, Werkzeugzuverlässigkeit und kollaborative Problemlösung.

Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz, und dieselben Zahlen entscheiden über Releases.

V1 Planung V2 Bescheidenheit V3 Werkzeug V4 Wiederherstellung

Warum Evaluierungen Teil der Arbeit sind

Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz.

Evaluierung ist bei ReasonLoom Forschung, keine Prüfung der letzten Stufe. Wir bauen Evaluierungen parallel zu den Systemen, die sie bewerten, sodass dieselben Zahlen, die in einem Paper auftauchen, auch über Releases entscheiden. Der Maßstab ist „würde ich in der Produktion auf dieses Ergebnis setzen“, nicht „hat das Modell im Labor gut abgeschnitten“.

Standard-Benchmark

statischer Prompt-Satz
Prüfung der letzten Stufe
belohnt Sprachgewandtheit
Einzel-Seed-Zahlen in den Schlagzeilen

Evaluierungen als Forschung

bewertet anhand der Trace, nicht nur der Antwort
entscheidet über Releases, nicht nur über Paper
belohnt Schlussfolgern unter realen Bedingungen
Mehr-Seed-Standard · Einzel-Seed als vorläufig gekennzeichnet

Was wir messen

Vier Achsen, zu denen wir veröffentlichen

Jede Achse wird mit ihrem Bewertungscode und ihren Prompts veröffentlicht. Der Maßstab ist Reproduzierbarkeit, nicht Schlagzeilen-Werte.

V1 Planung mit langem Horizont

Aufgaben, die kohärente Pläne über viele Schritte erfordern, bewertet anhand des Ergebnisses und der Trace.

belohnt: Pläne, die über viele Schritte hinweg Bestand haben
bestraft: Pläne, die kohärent wirken, aber beim dritten Schritt zerfallen

V2 Faktische Bescheidenheit

Wie oft das Modell zurückhält, wenn die Belege dünn sind, im Vergleich dazu, wie oft es konfabuliert.

belohnt: Zurückhaltung, wenn die Belege dünn sind
bestraft: selbstbewusstes Konfabulieren

V3 Werkzeugzuverlässigkeit

Ob Werkzeuge korrekt genutzt werden, einschließlich der Weigerung, sie zu nutzen, wenn sie nicht helfen würden.

belohnt: Werkzeuge korrekt genutzt, oder korrekt nicht genutzt
bestraft: Werkzeuge aufgerufen, nur weil sie da waren

V4 Wiederherstellung

Wie gut sich ein Modell innerhalb derselben Aufgabe von seinen eigenen Fehlern erholt.

belohnt: den eigenen Fehler innerhalb derselben Aufgabe beheben
bestraft: von vorne beginnen, wenn ein Schritt zurück genügt hätte

Mehr-Seed-Ehrlichkeit

Zahlen werden mit ihren Fehlerbalken ausgeliefert.

Einzel-Seed-Zahlen entscheiden nicht über Releases. Sie erscheinen im Anhang als vorläufig, gekennzeichnet mit n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release

V2 humility (correct defer) 0.84 ±0.03 n=5 gates release

V3 tool-use accuracy 0.81 ±0.05 n=5 gates release

V4 recovery within task 0.74 ±0.07 n=5 gates release

single-seed reasoning trace 0.72 n=1 preliminary

Veröffentlichungsfläche

Was nach außen geht, und was drinnen bleibt.

Methodik, Bewertungscode, Prompts und Model Cards sind öffentlich. Die internen Suites, in denen die Evaluierung selbst der Unterscheidungsfaktor ist, bleiben privat.

01 methodology public paper + repo

02 scoring code public apache 2.0

03 prompts public in evaluation suite

04 model cards public with limits + risks

05 private suites internal where the eval itself is differentiating

Wie wir es durchführen

Aufgaben werden anhand des Ergebnisses und der Schlussfolgerungs-Trace bewertet. Wir bewerten faktische Bescheidenheit, Werkzeugzuverlässigkeit und Fehlerwiederherstellung neben der reinen Genauigkeit. Läufe mit mehreren Seeds sind der Standard; Einzel-Seed-Zahlen werden als vorläufig gekennzeichnet.

Was wir veröffentlichen

Methodik, Bewertungscode, Prompts und detaillierte Model Cards. Das Ziel ist, dass jedes Team das Ergebnis reproduzieren, anfechten und auf seine eigene Domäne ausweiten kann.

Evaluierungen, die Substanz bewerten und über Releases entscheiden.

Alle Forschung Das Schlussfolgerungs-Gym

Loominum^™ 1.0

Produktionsreife Systeme

Die Loominum-Familie

Lösungen

Mehr erfahren

Offene Fragen, denen wir nachgehen

Forschungswerkzeuge

Forschungsbereiche

Mehr erfahren

Die zugrunde liegenden Invarianten aufdecken

Wissenschaftswerkzeuge

Felder

Mehr erfahren

Unsere Mission ist es, überprüfbare Intelligenz zu entwickeln, die die Wissenschaft voranbringt und der Menschheit dient.

Unternehmen

Mehr erfahren

Schlussfolgern unter realen Bedingungen messen

Standard-Benchmarks belohnen Sprachgewandtheit. Wir bewerten Substanz.

Vier Achsen, zu denen wir veröffentlichen

Zahlen werden mit ihren Fehlerbalken ausgeliefert.

Was nach außen geht, und was drinnen bleibt.

Wie wir es durchführen

Was wir veröffentlichen

Evaluierungen, die Substanz bewerten und über Releases entscheiden.

Cookie-Einstellungen

Unbedingt erforderlich