Llama su Mac: come eseguire l’AI di Meta con Ollama per macOS

22 Gennaio 2025

Ollama è un popolare strumento software che consente di eseguire Llama – il potente modello AI open source sviluppato da Meta – in locale su un Mac.

Ollama è disponibile sia in versione per macOS che per Linux e Windows. Inoltre, fornisce l’accesso non solo a Llama di Meta, ma anche ad altri modelli linguistici molto interessanti, tra cui Phi-3 e Phi-4 di Microsoft, Mistral e Google Gemma 2.

Nel nostro esempio, vedremo come sia semplice scaricare ed eseguire in locale sul Mac, quindi senza la necessità di accedere a un server esterno via cloud, Llama e gli altri modelli AI disponibili, utilizzando la piattaforma Ollama.

Per gli esempi pratici, utilizzeremo un Mac mini 2024 con processore Apple M4, 16 GB di memoria e macOS Sequoia 15.2. Il team di sviluppo specifica che Ollama richiede macOS 11 Big Sur o successivo.

Per prima cosa, è necessario dunque scaricare Ollama stesso, dal sito del progetto.

Come dicevamo, il software è disponibile per Mac, Linux e Windows: pertanto, nella pagina di download, nel nostro caso selezioniamo la versione per macOS.

Una volta scaricata la versione per Mac, possiamo spostarla nella cartella Applicazioni di macOS. È infatti Ollama stesso, nel caso venga avviato da altra posizione, a consigliarlo.

Al primo avvio dell’applicazione, Ollama mostra una breve configurazione guidata, che ci accompagna nei primi passi necessari alla preparazione dell’ambiente di esecuzione dei modelli AI.

L’interfaccia utente di Ollama è a riga di comando: vi accederemo dunque mediante il Terminale di macOS e l’applicazione richiede di installare i necessari tool per la command line.

Questo passaggio richiede un’autorizzazione con permessi da amministratore (come anche la prima installazione dell’applicazione), quindi macOS ci mostrerà – se necessario – la consueta richiesta di autenticazione.

Come ultimo passaggio, la configurazione guidata ci propone il comando da utilizzare per eseguire il nostro primo modello AI. Il comando è già preimpostato per eseguire Llama (nello specifico, nel nostro esempio, la versione llama3.2).

Ollama ci semplifica quindi di molto il “primo impatto” con il meccanismo non solo di esecuzione dei modelli AI in locale sul Mac, ma anche di ricerca e installazione dei modelli stessi.

Prima di concludere la configurazione e chiudere la finestra facendo clic su Finish, dunque, facciamo clic sul pulsante presente nel campo di testo per copiare la stringa del comando.

Dopo averlo copiato, apriamo una finestra dell’app Terminale di macOS e incolliamo il comando nella riga di comando, al prompt della shell.

Quando vediamo il comando nella finestra, premiamo il tasto Invio della tastiera per eseguirlo.

Nella finestra del Terminale vediamo l’avanzamento di una serie di attività. Nel nostro caso, siccome è la prima volta che eseguiamo quel modello, Ollama lo deve per prima cosa scaricare dal proprio repository online. Ci vorrà dunque più o meno tempo a seconda della velocità della connessione e, considerando il peso dei modelli AI, c’è un minimo di attesa anche per quelli di dimensioni più contenute.

Nel nostro esempio, la stringa era “ollama run llama3.2” (potrebbe essere diversa nelle prossime versioni di Ollama). Il primo parametro, “ollama”, serve ad avviare l’applicazione; il secondo, “run”, è il comando che viene passato all’applicazione e che in questo caso dà a Ollama l’istruzione di eseguire il modello, il cui nome è indicato dal terzo parametro, “llama3.2”.

Come dicevamo, siccome nel nostro caso il modello llama3.2 ancora non è disponibile in locale, per eseguirlo Ollama deve prima compiere l’operazione di “pull”, al fine di scaricarlo e renderlo accessibile localmente sul Mac.

Al completamento delle attività, possiamo inoltrare il nostro primo prompt a Llama, dalla riga di comando di Ollama che rimane in attesa di un input da parte dell’utente.

Llama 3.2 è multi-lingue (supporta ufficialmente anche l’italiano), compatto (è disponibile da 1B o 3B, nella sua versione solo testo, ma è disponibile anche in versioni multi-modali “vision”) e veloce: è stato progettato da Meta per dispositivi edge e mobili ed è molto capace per le sue dimensioni.

Mettiamo, però, di voler aumentare il numero di parametri per utilizzare un modello più potente. Ad esempio, Llama 3.1 è accessibile in Ollama nelle sue versioni da 8, 70 e 405 miliardi di parametri. Tralasciando il secondo, già molto grande, e il terzo, gigantesco, entrambi fuori portata per l’hardware che stiamo utilizzando, rivolgiamo la nostra attenzione su Llama 3.1 8B.

Prima di questo, però, è opportuno aprire una parentesi. Lo stesso team di Ollama consiglia quanto segue: è necessario disporre di almeno 8 GB di RAM per eseguire i modelli 7B, 16 GB per eseguire i modelli 13B e 32 GB per eseguire i modelli 33B. Modelli da 70B e ancor più da 405B risultano dunque ragionevolmente ostici, se non del tutto impraticabili, per sistemi desktop, anche quelli più robusti.

Se Llama 3.2 3B pesa 2 GB, Llama 3.1 8B occupa già 4.7 GB, mentre Llama 3.1 405B è un colosso da 231 GB, fuori portata dei computer desktop non solo per quel che riguarda l’equipaggiamento di RAM o memoria unificata, ma anche della capacità di storage di molti modelli Mac. Per non parlare poi della potenza di calcolo richiesta dall’inferenza di un tale modello.

Rispetto a quello da 2B, il modello 8B, di dimensioni ancora accessibili, dovrebbe offrire una capacità già di un livello intermedio, con la possibilità di affrontare compiti e problemi più complessi con risposte più accurate, meglio elaborate e meno soggette ad errori.

Come facciamo, quindi, a individuare il modello che fa per noi e la versione giusta, e a scaricarlo sul Mac in modo da poterlo utilizzare con Ollama per macOS?

Sempre sul sito di Ollama, nella pagina Models, il team del progetto pubblica la lista aggiornata e ricercabile dei modelli disponibili.

Facendo clic sul nome del modello nella lista, si accede alla scheda del modello selezionato. Nella scheda troviamo una descrizione più breve e una più dettagliata del modello e delle sue caratteristiche.

Possiamo inoltre vedere varie informazioni, tra cui: quante volte il modello è stato scaricato ed eventualmente quali sono le versioni disponibili, nonché le dimensioni. È importante soprattutto la riga di descrizione del modello in cui vengono indicati il tipo, il numero di parametri e la quantizzazione.

La quantizzazione – semplificando molto – è un metodo di “compressione” dei modelli AI che ne riduce la complessità e che comporta una diminuzione della precisione dei dati, al fine di ridurre l’occupazione di memoria e accelerare i calcoli, e rendere così accessibile l’esecuzione dei modelli stessi a una platea molto più ampia e diversificata di dispositivi. Un po’, concettualmente, come JPEG per le immagini e MP3 per la musica, la quantizzazione determina una perdita di qualità, che però, con le tecniche sofisticate attualmente disponibili, solitamente non dovrebbe compromettere di molto le capacità del modello, se ottimizzata; e, in compenso, comporta notevoli vantaggi di compatibilità più estesa.

Torniamo alla nostra scheda del modello, sul sito di Ollama. Un menu a tendina consente di selezionare la versione del modello a cui siamo interessati e, sulla destra del menu, c’è un campo di testo con un tasto per copiare la stringa che ci serve per eseguire quel modello in Ollama.

Nel nostro esempio, abbiamo selezionato “llama3.1” e abbiamo copiato il comando per eseguirlo, “ollama run llama3.1”: questa è la stringa di testo che dobbiamo incollare nella finestra dell’app Terminale di macOS, al prompt della shell.

Eseguendo il comando nel Terminale di macOS (attenzione: al prompt della shell di macOS, non quello del modello quando siamo già all’interno di Ollama), ancora una volta Ollama eseguirà prima il pull del modello dal repository online (perché ancora non è presente nell’archivio locale) e infine mostrerà il prompt pronto ad accettare richieste per il modello AI in esecuzione, nel nostro esempio Llama 3.1 8B.

Il prompt ci indica anche qual è il comando per accedere all’help, con le istruzioni su come impartire i comandi principali (ad esempio uscire dall’applicazione, caricare un modello e altri). In questo caso si riferisce al sistema di aiuto in linea quando Ollama è già in esecuzione.

Dal prompt della shell nell’app Terminale, prima di avviare Ollama, possiamo richiamare l’applicazione con “ollama -h” oppure semplicemente con “ollama” per vedere la lista di comandi e di flag che Ollama supporta.

Possiamo così vedere, ad esempio, che Ollama prevede un apposito comando “pull”, per effettuare il download e l’installazione in locale dei modelli, operazione che nei nostri esempi precedenti sono state eseguite automaticamente nell’ambito dell’esecuzione del comando “run”, che è quello che avvia l’esecuzione di un modello e che ci consente di porre le nostre domande ad esso.

Inoltre, abbiamo a disposizione comandi per consultare la lista dei modelli disponibili in locale, per ricevere informazioni su ciascuno di essi e altro ancora.

Il titolo della finestra del Terminale ci mostra in qualsiasi momento il comando in esecuzione, con il modello – se il comando lo prevede (ad esempio nel caso di pull e run) – e con eventuali flag.

Al fine di rendere l’applicazione più facilmente e immediatamente disponibile al prompt del Terminale in qualsiasi momento, Ollama si “auto-installa” negli Elementi login di macOS (è possibile modificare tale configurazione in Impostazioni di Sistema > Generali > Elementi login ed estensioni).

Ollama aggiunge anche un’icona alla barra menu del Mac, che consente di uscire dall’applicazione.

Ollama fornisce un modo semplice, rapido e fluido per gestire un flusso di lavoro, quello di installare ed eseguire in locale modelli AI sul Mac, che non è necessariamente banale per tutti. Ne nasconde le complessità e gli aspetti più laboriosi, mettendo a disposizione di un’utenza più ampia la possibilità di chattare con gli LLM disponibili – anche tra quelli più avanzati, hardware permettendo – nell’ambiente riservato del proprio computer locale, senza dover fare affidamento per forza su un servizio cloud.

Pur nella sua semplicità ed “essenzialità”, a Ollama nopn manca un ventaglio di funzioni e opzioni aggiuntive: impossibile coprirle tutte in un tutorial. Nello spazio GitHub di Ollama, tra le altre cose, è disponibile una guida di riferimento alla command line interface.

Tra le funzioni addizionali, sono ad esempio interessanti la disponibilità di un’API REST e le numerose integrazioni esistenti con altri progetti guidati dalla community. Tra queste integrazioni, ci sono ad esempio piattaforme che forniscono una GUI – un’aggiunta preziosa per chi preferisce la modalità d’interazione ancora più intuitiva offerta da un’interfaccia grafica –, librerie di binding per diversi linguaggi di programmazione, estensioni, plug-in e altro.

Ollama è un progetto open source che si basa, come backend per l’inferenza dei modelli, su llama.cpp, un altro progetto open source molto popolare. Soprattutto in caso di utilizzo aziendale (ma anche in altri casi d’uso) è opportuno verificare sia i termini di licenza sia le caratteristiche di sicurezza, del progetto stesso e delle sue dipendenze.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter