Open-R1, il progetto Hugging Face per un DeepSeek-R1 pienamente open

Open-R1

Open-R1 è un progetto nato nella community di Hugging Face con l’intento di riprodurre una versione del modello DeepSeek-R1 completamente open.

DeepSeek-R1 è il modello open source della startup AI cinese che sta facendo tanto parlare di sé. I promotori di Open-R1, nel presentare il progetto, sottolineano che il rilascio di DeepSeek-R1 è una aggiunta straordinaria per la community, ma non è stato rilasciato tutto: sebbene i pesi del modello siano aperti, i dataset e il codice utilizzato per addestrare il modello non lo sono.

L’obiettivo di Open-R1 è quindi costruire questi ultimi pezzi mancanti in modo che l’intera comunità della ricerca e dell’industria possa costruire modelli simili o migliori utilizzando queste ricette e questi set di dati. E facendo tutto ciò in modo aperto, tutti i membri della community possono contribuire.

Il team ha condiviso qual è il piano per raggiungere questo obiettivo; è suddiviso in tre passi:

  • Fase 1: Replicare i modelli R1-Distill distillando un set di dati di ragionamento di alta qualità da DeepSeek-R1.
  • Fase 2: Replicare la pipeline RL (reinforcement learning) pura utilizzata da DeepSeek per creare R1-Zero. Ciò comporterà la raccolta di nuovi dataset su larga scala per la matematica, il ragionamento e il codice.
  • Fase 3: Dimostrare che è possibile passare dal modello di base → SFT → RL attraverso un addestramento a più stadi.

Il team del progetto Open-R1 mette in evidenza che, oltre a ottenere prestazioni pari o superiori a quelle del modello o1 di OpenAI, il rilascio di DeepSeek-R1 è stato accompagnato da una relazione tecnica dettagliata che illustra i passaggi chiave della ricetta di training. Questa ricetta prevede diverse innovazioni, in particolare l’applicazione del puro reinforcement learning per insegnare a un modello linguistico di base a ragionare senza alcuna supervisione umana.

Tuttavia, la versione DeepSeek-R1 lascia aperte diverse questioni:

  • Raccolta dei dati: Come sono stati curati i dataset specifici per il ragionamento?
  • Training del modello: DeepSeek non ha rilasciato alcun codice di addestramento, pertanto non è noto quali iperparametri funzionino meglio e come differiscano tra le diverse famiglie di modelli e le diverse scale.
  • Leggi di scala: Quali sono i compromessi tra calcolo e dati nell’addestramento dei modelli di ragionamento?

Queste domande hanno spinto i promotori a lanciare il progetto Open-R1, un’iniziativa volta a ricostruire sistematicamente i dati e la pipeline di addestramento di DeepSeek-R1, a convalidare le sue affermazioni e a spingere i confini dei modelli di ragionamento aperti. Costruendo Open-R1, il team intende fornire trasparenza sul modo in cui l’apprendimento per rinforzo può migliorare il ragionamento, condividere intuizioni riproducibili con la comunità open-source e creare una base per futuri modelli che sfruttino queste tecniche.

Questa iniziativa – sottolineano i promotori – non si limita a replicare i risultati: si tratta di condividere gli insight con la community. Documentando ciò che funziona, ciò che non funziona e perché, il team spera di evitare ad altri di perdere tempo e calcoli su percorsi improduttivi.

Per saperne di più sull’iniziativa, è possibile visitare il blog post di presentazione, la pagina del progetto su Hugging Face e il repository su GitHub.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome