Home Big Data Come trasformare gli stream di dati in prodotti: Intelligent Data API

Come trasformare gli stream di dati in prodotti: Intelligent Data API

La Intelligent Data API Platform Redpanda di Vectorized è una piattaforma developer-centric per applicazioni in tempo reale progettata per consentire di trasformare gli stream di dati in prodotti.

È la stessa società sviluppatrice a illustrare il contesto in cui è nata la piattaforma.

Al giorno d’oggi il mondo è molto diverso da quello che era più di diedi anni fa, quando la maggior parte delle tecnologie di streaming dei dati sono state inventate.

Un decennio fa, sottolinea Vectorized, il collo di bottiglia era il drive: i buoni vecchi dischi rigidi rotanti, la cui lentezza determinava il modo in cui i sistemi di storage erano costruiti.

Nell’hardware di oggi ogni parte è migliorata in modo così forte da essere difficilmente riconoscibile in termini di velocità.

In questo stesso decennio abbiamo però visto il crescente bisogno delle imprese di reagire in tempo reale a volume, velocità e varietà dei dati in continuo aumento.

Una volta che si decide di spostare la propria infrastruttura verso un paradigma event-driven, evidenzia ancora Vectorized, ci si può trovare presto ad annegare nella complessità del come rendere effettivamente operativi i componenti open source su scala.

Ed ecco perché è nata l’idea di creare la piattaforma Intelligent Data API, un ambiente incentrato sullo sviluppatore per trasformare i flussi di dati in tempo reale in prodotti, con nuove primitive per unificare i dati storici e in tempo reale, nonché con moderne procedure di archiviazione per il data streaming.

La Intelligent Data API platform è costituita da tre parti, di cui la prima è rappresentata dalla compatibilità con il più grande ecosistema di streaming di dati: Kafka.

Intelligent Data API Platform Redpanda di Vectorized

Gli ingegneri amano la API Kafka, Vectorized lo sa bene. Apprezzano la potenza di avere a disposizione milioni di linee di codice che la community ha creato nel corso degli anni e che permettono loro di costruire interi prodotti in modo veloce.

Non è un segreto, sottolinea tuttavia Vectorized, che eseguire e far funzionare Kafka e Zookeeper su scala richiede un team di ingegneri di sistemi distribuiti che non lavorano sulle caratteristiche del prodotto, ma gestiscono l’infrastruttura.

Il primo passo di Vectorized nella costruzione della Intelligent Data API è stato innanzitutto creare una piattaforma di streaming compatibile con Kafka che fosse affidabile, la più affidabile al mondo, la descrive l’azienda.

Una piattaforma che non richiedesse modifiche al codice delle applicazioni aziendali esistenti e che fosse in grado di sfruttare al massimo le prestazioni dall’hardware moderno.

Inoltre Vectorized voleva costruire tutto questo in modo open, sotto una licenza Free and Source Available License, BSL, prendendo ispirazione dagli sviluppatori di CockroachDB.

Redpanda è il nuovo storage engine, che ha una limitazione di licenza: Vectorized è l’unica azienda autorizzata a offrirlo come SaaS.

A parte questo, l’azienda ha voluto dare la possibilità a ogni singolo utente di Kafka API di costruire una soluzione su un nuovo motore di archiviazione ottimizzato per il nuovo mondo di CPU superscalari, NIC 100Gbps e tempi di accesso NVMe in microsecondi a due cifre.

La seconda parte è l’unificazione dei dati storici e in tempo reale (Shadow Indexing).

Intelligent Data API Platform Redpanda di Vectorized

Amazon S3, mette in evidenza Vectorized, è stato lanciato ufficialmente nel 2006 e, 15 anni dopo, ora abbiamo a disposizione uno storage pressoché infinito, affidabile, economico e scalabile: quello che viene chiamato Data Lake.

Per gli sviluppatori ciò fornisce un modo semplice per ottenere il disaster recovery.

Redpanda, spiega Vectorized, elimina la necessità del disaster recovery integrandosi con questi sistemi di storage infinitamente scalabili. Invece di cancellare i dati localmente, spingerà i vecchi segmenti su S3 e li recupererà quando i clienti ne avranno bisogno.

A prima vista sembra la soluzione più ovvia in un mondo cloud native, ma il vantaggio per le imprese è che unifica il modo in cui si accede e si gestiscono i dati storici e in tempo reale senza cambiare una sola riga di codice nella applicazione aziendale.

Questa funzione viene chiamata Shadow Indexing perché non mantiene i dati storici sui dischi locali, ma mantiene un riferimento alla posizione di come e dove recuperare i dati se un client Kafka lo richiede.

Ciò di cui le imprese sono più entusiaste è poi il fatto che è possibile far girare un nuovo cluster Redpanda e riprodurre petabyte di dati per riaddestrare il modello di apprendimento automatico senza influenzare il cluster di produzione o cambiare alcun codice.

In un certo senso, questo presenta una vera disaggregazione del computing e dello storage per il data streaming.

La terza parte della dell’Intelligent Data API platform consiste nell’inviare il codice ai dati.

Intelligent Data API Platform Redpanda di Vectorized

Man mano che i dati si accumulano, essi costruiscono una sorta di attrazione gravitazionale: attirano le applicazioni ad interagire con essi, generando ancora più dati. Più dati vengono raccolti, più forte è l’attrazione per altre applicazioni che interagiscono con essi, all’infinito.

Il sistema è stato esplicitamente progettato per essere un modo per disaccoppiare più sistemi e API disparati semplicemente utilizzando la API Kafka.

Redpanda, attraverso la API Kafka, è un primitivo virale, che è scalabile, sicuro, veloce, durevole, rieseguibile e che si integra con quasi ogni altro framework di dati esistente oggi.

Invece di combattere la gravità dei dati, Redpanda inverte il paradigma tipico dell’invio dei dati ai framework di calcolo e permette invece agli sviluppatori di spedire il codice al motore di archiviazione.

Al livello più basso Vectorized usa WebAssembly, un linguaggio intermedio che permette agli ingegneri del software di scrivere e modificare il codice nel loro linguaggio di programmazione preferito per eseguire trasformazioni one-shot, come garantire la conformità al GDPR rimuovendo le informazioni personali, o per fornire funzioni di filtraggio e aggregazione semplici. Vectorized definisce queste trasformazioni come delle stored-procedure per il data streaming dei tempi moderni.

La società sviluppatrice sembra non essere l’unica a credere in questo approccio. Vectorized infatti, parallelamente all’annuncio della disponibilità generale di Redpanda, la piattaforma Intelligent Data API, ha anche annunciato la raccolta di 15,5 milioni di dollari in una combinazione di finanziamenti Seed e Serie A guidati da Lightspeed Venture Partners con la partecipazione di GV (in precedenza Google Ventures).

Il finanziamento, ha reso noto la società, sarà utilizzato per accelerare l’innovazione di prodotto, tra cui Vectorized Cloud Services, e le attività di go-to-market.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

css.php