Estrazione dei record. Come renderla facile

L’Etl (estrazione, trasformazione e immissione) è considerata la miglior tecnologia utile per incapsulare i dati all’interno di un data warehouse. Fino a qualche anno fa, questi sofisticatissimi software non erano visti come una soluzione in grado di s …

L’Etl (estrazione, trasformazione e immissione) è considerata la miglior tecnologia utile per incapsulare i dati all’interno di un data warehouse. Fino a qualche anno fa, questi sofisticatissimi software non erano visti come una soluzione in grado di sostenere l’enorme sforzo rielaborativo richiesto per supportare le trasformazioni necessarie ad alimentare un Dw. Generalmente, si sceglieva uno strumento (tipo WebSphere DataStage di Ibm oppure Transform On Demand di Sybase) in grado di orchestrare al meglio la movimentazione dei dati tra la fonte e il Dw. Oggi, però, i progressi compiuti sul fronte data warehouse permettono di selezionare l’Elt (dopo l’estrazione, c’è l’immissione e poi la trasformazione) come una valida alternativa praticabile. Il processo dell’immissione di dati all’interno di un Dw può, infatti, rivelarsi un’operazione decisamente complicata se le informazioni da travasare superano i 5 terabyte. Il più delle volte, il responsabile preventiva lo svolgimento di questi compiti dopo il normale orario di lavoro, per non inficiare le prestazioni della rete locale. Tuttavia, con il crescere dei volumi di dati processati in azienda, il tempo richiesto da queste procedure aumenta a dismisura. Nel caso dell’Etl, i dati sono spostati su una piattaforma intermedia, all’interno della quale sono applicate le regole di trasformazione idonee a omologarli, prima di immagazzinarli nel data warehouse, da dove potranno essere riaggregati e richiamati per gli utilizzi più disparati. L’Elt, per contro, utilizza protocolli standard, come Ftp (File transfer protocol), per il trasferimento diretto dei record al data warehouse e, solo a questo punto, vengono applicate le regole di trasformazione. Per scegliere quale approccio sia il migliore, è utile tenere in conto alcuni principi. È preferibile utilizzare l’Etl se le regole necessarie per uniformare i dati sono particolarmente complesse, come nel caso dell’analisi sintattica (parsing) del testo, per determinarne la struttura grammaticale. L’Etl è anche la scelta più indicata nei macro ambienti, con almeno una decina di sistemi alimentanti oppure oltre un terabyte di dati. L’Elt, invece, è più utile qualora si debbano trasferire al Dw piccoli insiemi di dati, con logiche di trasformazione piuttosto semplici. In ambo i casi, il progetto dovrà prevedere la stesura di un capacity plan veritiero. Il costo per gigabyte di un data warehouse, infatti, si aggira tra i 30 e i 700 dollari. Sfortunatamente, molte aziende nel valutare le necessità future trascurano il fatto che le procedure di immissione dei dati consumano capacità, che deve essere stimata già nella fase di pianificazione iniziale. Se si sceglie l’Etl, la capacità del server Etl dovrà essere computata nel calcolo del capacity plan del data warehouse. Nel caso in cui si opti per l’Elt, capacità su disco e Cpu dovranno essere tarati per supportare sia le query che i processi di trasformazione, specie se avvengono simultaneamente.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome