Modelli · Anteprima di ricerca

La maggior parte dei modelli sceglie un'architettura.
Questo si muove lungo di essa.

Un'unica architettura su un asse continuo: dal richiamo perfetto all'attenzione selettiva, calibrata per ogni input.

Asse continuo

Coordinate fuse

0.000

Parità agli estremi

Categoria

Dual-axis unificato · generazione 1

Architettura

Una coordinata apprendibile, non un design fisso

Contiene

Marrow e Loom come estremi esatti

Cresciuto con

Ciclo evolutivo Atelier

Cos'è Loominum 1

L'architettura è una coordinata che il modello può spostare

Loominum si fonda su un'idea: la scelta dell'architettura non deve essere fatta una volta sola, prima dell'addestramento, e poi congelata. Il suo readout di governo ha un'unica coordinata di decadimento. A un estremo è esattamente una regola di richiamo a pesi rapidi — Marrow, memoria perfetta. Man mano che la coordinata cresce diventa un campo continuo dissipativo — Loom, che privilegia il segnale recente e lascia sbiadire il vecchio. Una seconda coordinata regola la nitidezza dell'attenzione, da una sfumatura morbida a una selezione netta. Il modello attraversa tutto quello spazio, e il vantaggio sta nel potersi posizionare nel punto giusto per il task invece di indovinarlo in anticipo.

Misurato

Numeri, non aggettivi

Radicato nel mondo, mediato sui seed e riproducibile. L'asse è dimostrato, non asserito.

0 → 94%

Nominazione a vocabolario aperto, da zero

Da circa 300 esempi radicati per concetto. Un modello nuovo e non addestrato segna 0% — quindi sta imparando, non memorizzando.

+0.044

Fusione dual-axis rispetto al miglior asse singolo

La testa fusa raggiunge 0,94 contro 0,90 per la coordinata singola più forte, su cinque seed.

exact

Gli estremi corrispondono ad architetture note

Ai suoi limiti l'asse riproduce le regole di pesi rapidi e di pooling entro lo zero numerico (parità 0.000e+00).

Come funziona

Tre idee strutturali

Loominum non è un transformer più grande e non è un router esterno. Il polimorfismo vive all'interno dell'equazione.

Un asse, molte architetture

Il readout del campo ha un'unica coordinata di decadimento. A un estremo riproduce bit per bit una regola di richiamo a pesi rapidi; all'altro un campo dissipativo a tempo continuo. La stessa equazione, spostata — non due modelli uniti insieme.

Due coordinate, fuse

Una seconda coordinata controlla la nitidezza dell'attenzione, da una media morbida a una selezione quasi-argmax. I due readout si fondono in una sola testa — uno dà stabilità, l'altro dà selezione — e insieme superano ciascuno dei due da solo.

Cresciuto, non solo addestrato

Atelier alleva Loominum su episodi radicati nel mondo reale. Impara a nominare il mondo da poche centinaia di esempi per concetto, e ciò che impara sopravvive alla cancellazione della sua memoria rapida — conoscenza consolidata, non una tabella di lookup.

Prove, non aggettivi

Perché possiamo dire tutto questo senza battere ciglio

L'asse continuo è un'affermazione facile da fare e difficile da sostenere. Ecco ciò che la regge.

P1 0.000e+00

Gli estremi sono esatti

Sposta la coordinata verso un limite e il modello riproduce una regola di richiamo a pesi rapidi bit per bit; spostala verso l'altro e diventa un campo dissipativo in tempo continuo. Gli estremi coincidono con progetti noti fino allo zero numerico — non in modo approssimato, ma esatto.

P2 5 / 5 seed

La fusione batte ciascuna da sola

Le due coordinate si fondono in un'unica testa — una dà stabilità, l'altra selezione. Il modello fuso supera la coordinata singola più forte su ogni seed eseguito, non solo in media.

P3 sopravvive al reset

Appreso, non consultato

Svuota la memoria rapida del modello e continua a nominare istanze trattenute e rumorose mai viste con quell'impostazione. Ciò che ha appreso si è consolidato in una struttura durevole — una tabella di consultazione non può farlo.

P4 radicato

Cresciuto, non distillato

Atelier cresce Loominum su episodi radicati nel mondo — una manciata di esempi per concetto, con consolidamento simile al sonno — invece di copiare il testo di un modello più grande. Si guadagna la sua conoscenza.

Dove si inserisce Loominum

Un modello al posto di uno scaffale di modelli

Ricerca

Un selettore tra architetture

Invece di impegnarsi su un design prima dell'addestramento, ci si sposta lungo l'asse e si misura dove il task vuole realmente stare. L'architettura diventa qualcosa da tarare, non qualcosa da indovinare.

Ricerca

Adattamento per ogni input

Loominum può inferire la propria coordinata di richiamo dalla forma del segnale — affidandosi alla memoria o alla recenza in base a ciò che l'input richiede — catturando quasi tutto il guadagno che darebbe una coordinata impostata a mano.

Edge

Motore condiviso con la linea silicon

Costruito sullo stesso campo dissipativo di RL-L1 e del silicon Obsidian, così il modello e il substrato convergono su un'unica fisica invece di due.

Loominum^™ 1.0

Sistemi di livello produzione

La famiglia Loominum

Soluzioni

Scopri di più

Domande aperte su cui stiamo lavorando

Strumenti di ricerca

Aree di indagine

Scopri di più

Trovare gli invarianti sottostanti

Strumenti scientifici

Discipline

Scopri di più

La nostra missione è costruire un'intelligenza verificabile che faccia progredire la scienza e sia al servizio dell'umanità.

Azienda

Scopri di più

La maggior parte dei modelli sceglie un'architettura.
Questo si muove lungo di essa.

L'architettura è una coordinata che il modello può spostare

Numeri, non aggettivi

Tre idee strutturali

Un asse, molte architetture

Due coordinate, fuse

Cresciuto, non solo addestrato

Perché possiamo dire tutto questo senza battere ciglio

Gli estremi sono esatti

La fusione batte ciascuna da sola

Appreso, non consultato

Cresciuto, non distillato

Un modello al posto di uno scaffale di modelli

Un selettore tra architetture

Adattamento per ogni input

Motore condiviso con la linea silicon

Preferenze sui cookie

Strettamente necessari

La maggior parte dei modelli sceglie un'architettura. Questo si muove lungo di essa.

L'architettura è una coordinata che il modello può spostare

Numeri, non aggettivi

Tre idee strutturali

Un asse, molte architetture

Due coordinate, fuse

Cresciuto, non solo addestrato

Perché possiamo dire tutto questo senza battere ciglio

Gli estremi sono esatti

La fusione batte ciascuna da sola

Appreso, non consultato

Cresciuto, non distillato

Un modello al posto di uno scaffale di modelli

Un selettore tra architetture

Adattamento per ogni input

Motore condiviso con la linea silicon

Il programma alla base di Loominum™ 1.0

Oltre i transformer

Misurare il ragionamento in condizioni reali

La maggior parte dei modelli sceglie un'architettura.
Questo si muove lungo di essa.