Open-R1 è un progetto nato nella community di Hugging Face con l’intento di riprodurre una versione del modello DeepSeek-R1 completamente open.
DeepSeek-R1 è il modello open source della startup AI cinese che sta facendo tanto parlare di sé. I promotori di Open-R1, nel presentare il progetto, sottolineano che il rilascio di DeepSeek-R1 è una aggiunta straordinaria per la community, ma non è stato rilasciato tutto: sebbene i pesi del modello siano aperti, i dataset e il codice utilizzato per addestrare il modello non lo sono.
L’obiettivo di Open-R1 è quindi costruire questi ultimi pezzi mancanti in modo che l’intera comunità della ricerca e dell’industria possa costruire modelli simili o migliori utilizzando queste ricette e questi set di dati. E facendo tutto ciò in modo aperto, tutti i membri della community possono contribuire.
Il team ha condiviso qual è il piano per raggiungere questo obiettivo; è suddiviso in tre passi:
- Fase 1: Replicare i modelli R1-Distill distillando un set di dati di ragionamento di alta qualità da DeepSeek-R1.
- Fase 2: Replicare la pipeline RL (reinforcement learning) pura utilizzata da DeepSeek per creare R1-Zero. Ciò comporterà la raccolta di nuovi dataset su larga scala per la matematica, il ragionamento e il codice.
- Fase 3: Dimostrare che è possibile passare dal modello di base → SFT → RL attraverso un addestramento a più stadi.
Il team del progetto Open-R1 mette in evidenza che, oltre a ottenere prestazioni pari o superiori a quelle del modello o1 di OpenAI, il rilascio di DeepSeek-R1 è stato accompagnato da una relazione tecnica dettagliata che illustra i passaggi chiave della ricetta di training. Questa ricetta prevede diverse innovazioni, in particolare l’applicazione del puro reinforcement learning per insegnare a un modello linguistico di base a ragionare senza alcuna supervisione umana.
Tuttavia, la versione DeepSeek-R1 lascia aperte diverse questioni:
- Raccolta dei dati: Come sono stati curati i dataset specifici per il ragionamento?
- Training del modello: DeepSeek non ha rilasciato alcun codice di addestramento, pertanto non è noto quali iperparametri funzionino meglio e come differiscano tra le diverse famiglie di modelli e le diverse scale.
- Leggi di scala: Quali sono i compromessi tra calcolo e dati nell’addestramento dei modelli di ragionamento?
Queste domande hanno spinto i promotori a lanciare il progetto Open-R1, un’iniziativa volta a ricostruire sistematicamente i dati e la pipeline di addestramento di DeepSeek-R1, a convalidare le sue affermazioni e a spingere i confini dei modelli di ragionamento aperti. Costruendo Open-R1, il team intende fornire trasparenza sul modo in cui l’apprendimento per rinforzo può migliorare il ragionamento, condividere intuizioni riproducibili con la comunità open-source e creare una base per futuri modelli che sfruttino queste tecniche.
Questa iniziativa – sottolineano i promotori – non si limita a replicare i risultati: si tratta di condividere gli insight con la community. Documentando ciò che funziona, ciò che non funziona e perché, il team spera di evitare ad altri di perdere tempo e calcoli su percorsi improduttivi.
Per saperne di più sull’iniziativa, è possibile visitare il blog post di presentazione, la pagina del progetto su Hugging Face e il repository su GitHub.