IBM rilascia tre importanti progetti AI open source alla Linux Foundation

IBM open source docling

IBM sta contribuendo alla Linux Foundation con tre progetti open source: Docling, Data Prep Kit e BeeAI. Questa mossa – sottolinea l’azienda – segnala non solo la potenziale crescita di questi progetti, ma anche il continuo impegno di IBM nei confronti dell’AI open source.

Ogni progetto si focalizza su una parte essenziale dello stack di sviluppo dell’IA. Con la maturazione del settore, evidenzia IBM, l’innovazione guidata dalla comunità di sviluppatori in queste aree è fondamentale per rendere l’IA pronta per le aziende.

Docling, lanciato e reso open source un anno fa, affronta un limite che molti modelli di fondazione hanno per l’uso aziendale, sottolinea IBM. Mentre i modelli sono stati addestrati su ogni frammento di informazione disponibile pubblicamente, molti dei dati preziosi per le aziende si trovano in documenti non accessibili online: PDF, relazioni annuali, slide decks.

Docling semplifica il processo di trasformazione dei documenti non strutturati in file JSON e Markdown facili da macinare per i modelli linguistici di grandi dimensioni (LLM) e altri modelli di base.

Da quando è stato rilasciato, Docling ha guadagnato terreno, ottenendo più di 23.000 stelle su GitHub. Combinato con le tecniche di retrieval-augmented generation (RAG), Docling migliora i risultati degli LLM. Oltre ad aver guadagnato terreno nella comunità open source, mette in evidenza IBM, Docling contribuisce a potenziare Red Hat Enterprise Linux AI, dove consente il context aware chunking e supporta la nuova pipeline di data ingestion della piattaforma.

Naturalmente, un altro passo fondamentale per l’implementazione dell’IA è la preparazione dei dati. Anche il Data Prep Kit di IBM, rilasciato nel 2024, ha guadagnato popolarità: aiuta a pulire, trasformare e arricchire i dati non strutturati per i casi d’uso di pre-training, fine-tuning e RAG.

Secondo IDC, i dati non strutturati, come database, pagine web e file audio, più complessi da analizzare e da cui estrarre informazioni, rappresentano il 90% di tutti i dati generati dalle aziende. Gli LLM possono analizzare grandi quantità di dati non strutturati ed estrarre informazioni rilevanti per generare e testare nuove idee di prodotti o servizi, ad esempio, in poche ore anziché in mesi.

Data Prep Kit è stato progettato per semplificare la preparazione dei dati per le applicazioni LLM, attualmente incentrate sui modelli di codice e di linguaggio, supportando i casi d’uso di pre-training, fine-tuning e RAG. Basato su framework di elaborazione distribuita già noti, come Spark e Ray, offre agli sviluppatori la flessibilità necessaria per creare moduli personalizzati facilmente scalabili, sia che vengano eseguiti su un laptop che su un intero data center.

Infine, poiché gli agenti stanno guadagnando terreno, IBM ha rilasciato BeeAI. BeeAI può essere utilizzato dagli sviluppatori per scoprire, eseguire e comporre agenti AI da qualsiasi framework, compresi CrewAI, LangGraph e AutoGen. Il progetto comprende l’Agent Communication Protocol, che consente la scoperta e l’interoperabilità degli agenti, e il BeeAI-framework, il suo framework nativo per la creazione di agenti in Python o TypeScript, ottimizzato per i modelli open source.

Contribuendo con questi progetti open source alla Linux Foundation, IBM mira a espandere la loro portata e ad attrarre nuovi collaboratori e utenti.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome