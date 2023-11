OpenAI annuncia OpenAI Data Partnerships, un’iniziativa di collaborazione con le organizzazioni per produrre dataset pubblici e privati per l’addestramento di modelli di intelligenza artificiale.

A spiegare il contesto è la stessa OpenAI, la società specializzata in intelligenza artificiale che ha sviluppato, tra le altre cose, ChatGPT.

La moderna tecnologia di AI apprende competenze e aspetti del nostro mondo – delle persone, delle motivazioni, delle interazioni e del modo in cui comunichiamo – dando un senso ai dati su cui viene addestrata. Per realizzare un’intelligenza artificiale sicura e vantaggiosa per tutta l’umanità, OpenAI vorrebbe che i modelli di AI comprendessero a fondo tutti gli argomenti, i settori, le culture e le lingue, il che richiede un dataset di training quanto più ampio possibile.

L’inclusione dei propri contenuti può rendere i modelli di intelligenza artificiale più utili per le organizzazioni, aumentando la loro comprensione del dominio di un’organizzazione. OpenAI afferma di stare già lavorando con molti partner che desiderano rappresentare i dati del loro Paese o del loro settore.

Ad esempio, di recente ha collaborato con il governo islandese e Miðeind ehf per migliorare la capacità di GPT-4 di parlare l’islandese integrando i loro set di dati curati. OpenAI ha anche collaborato con l’organizzazione no-profit Free Law Project, che mira a democratizzare l’accesso alla comprensione giuridica, includendo la loro vasta collezione di documenti legali nell’addestramento dell’AI. OpenAI ritiene che ci sono molte altre realtà che vogliono contribuire al futuro della ricerca sull’AI scoprendo il potenziale dei loro dati unici.

Le Data Partnerships hanno pertanto lo scopo di consentire a un maggior numero di organizzazioni di contribuire a orientare il futuro dell’AI e di beneficiare di modelli più utili per loro, includendo i contenuti che interessano a loro.

OpenAI è interessata a dataset su larga scala che riflettono la società umana e che non sono già facilmente accessibili online al pubblico e può lavorare con qualsiasi modalità, compresi testi, immagini, audio o video. L’azienda è alla ricerca in particolare di dati che esprimano l’intenzione umana (ad esempio, scritti o conversazioni di lunga durata, piuttosto che frammenti scollegati), in qualsiasi lingua, argomento e formato.

OpenAI dichiara di essere in grado di lavorare con dati in quasi tutte le forme e di utilizzare la sua tecnologia AI interna di nuova generazione per aiutare le organizzazioni a digitalizzare e strutturare i loro dati. Ad esempio, OpenAI dispone di una tecnologia di optical character recognition (OCR) di livello mondiale per digitalizzare file come i PDF e una di automatic speech recognition (ASR) per trascrivere le parole pronunciate. Se i dati devono essere puliti (ad esempio, presentano molti artefatti generati automaticamente o errori di trascrizione), può collaborare con il team dell’organizzazione partner per elaborarli nella forma più utile. OpenAI non cerca – sottolinea l’azienda – set di dati con informazioni sensibili o personali, né informazioni che appartengono a terzi; e può collaborare con l’organizzazione partner per rimuovere queste informazioni, se l’organizzazione ha bisogno di un aiuto in tal senso.

OpenAI prevede attualmente due modalità di partnership, che potrebbero essere ampliati in futuro.

Il primo è un archivio open-source: OpenAI cerca partner che aiutino a creare un dataset open source per l’addestramento di modelli linguistici. Questo dataset – spiega l’azienda – sarà pubblico e potrà essere utilizzato da chiunque per l’addestramento di modelli di intelligenza artificiale; vuole anche esplorare la possibilità di utilizzarlo per addestrare in modo sicuro altri modelli open-source. OpenAi ritiene infatti che l’open-source abbia un ruolo importante nell’ecosistema.

Il secondo modo è con dataset privati. Lo specialista dell’AI sta anche preparando set di dati privati per l’addestramento di modelli di intelligenza artificiale proprietari, compresi i modelli foundation della stessa OpenAI e i modelli fine-tuned e custom. Se un’organizzazione dispone di dati che desidera mantenere privati, ma vuole che i modelli di intelligenza artificiale di OpenAI comprendano meglio il suo settore (o vuole anche solo valutare il potenziale dei suoi dati in tal senso), questo è il modo migliore per collaborare. OpenAI tratterà i dati con il livello di sensibilità e i controlli di accesso che l’organizzazione preferisce.

In generale, OpenAI è alla ricerca di partner che vogliano aiutare l’azienda a insegnare all’intelligenza artificiale a comprendere il nostro mondo per essere il più possibile utile a tutti. Insieme, con queste partnership, secondo OpenAI si potrà progredire verso un’intelligenza artificiale che sia di beneficio a tutta l’umanità.

È possibile esprimere il proprio interesse per le Data Partnerships tramite l’apposito form online sul sito di OpenAI.