Come costruire un team di dati efficiente per lavorare con i dati pubblici del web
Building an efficient data team for working with public web data
L’argomento di come assemblare un team di dati efficiente è una questione molto dibattuta e discussa tra gli esperti di dati. Se hai intenzione di costruire un prodotto basato sui dati o migliorare la tua attività esistente con l’aiuto dei dati web pubblici, avrai bisogno di specialisti dei dati.
Questo articolo coprirà i principi chiave che ho osservato durante la mia esperienza nel settore dei dati web pubblici che potrebbero aiutarti a costruire un team di dati efficiente.
Perché non c’è una ricetta universale per l’assistenza ai dati web pubblici?
Anche se non abbiamo ancora trovato una ricetta universale per l’assistenza ai dati web pubblici, la buona notizia è che ci sono vari modi per affrontare questo argomento e ottenere comunque i risultati desiderati. Qui esploreremo il processo di costruzione di un team di dati dal punto di vista dei leader aziendali che stanno iniziando a lavorare con i dati web pubblici.
Cosa è un team di dati?
Un team di dati è responsabile della raccolta, elaborazione e fornitura dei dati agli stakeholder nel formato necessario per i processi aziendali. Questo team può essere incorporato in un dipartimento diverso, come il reparto marketing, o essere un’entità separata all’interno dell’azienda.
Il termine team di dati può descrivere un team di qualsiasi dimensione, da uno o due specialisti a un team multilivello esteso che gestisce ed esegue tutti gli aspetti delle attività legate ai dati nell’azienda.
- Australia vs. Francia Come guardare i quarti di finale della Coppa ...
- Miglior mini frigorifero per biberon nel 2023
- Progettato per lavorare in remoto, questo laptop HP è scontato di q...
Dove iniziare?
C’è un principio semplice che consiglio alle aziende che lavorano con i dati web pubblici di seguire: un team di dati efficiente lavora in sintonia con le esigenze aziendali. Tutto inizia da quale prodotto si intende costruire e quali dati saranno necessari.
Semplicemente, ogni azienda che pianifica di iniziare a lavorare con i dati web ha bisogno di specialisti in grado di acquisire ed elaborare grandi quantità di dati e di trasformare i dati in informazioni preziose per l’azienda. Di solito, la fase di trasformazione è quando i dati iniziano a creare valore per gli utenti successivi.
Per arrivare a questa fase, una piccola azienda può anche iniziare con un solo specialista.
La prima assunzione può essere un ingegnere dei dati con competenze analitiche o un analista dei dati con esperienza nel lavoro con big data e leggera ingegneria dei dati. Quando si costruisce qualcosa di più complesso, è fondamentale capire che i dati web pubblici vengono utilizzati essenzialmente per rispondere alle domande aziendali e l’elaborazione dei dati web riguarda tutte le iterazioni.
Indipendentemente dalla complessità del tuo prodotto, inizi sempre acquisendo una grande quantità di dati.
Le iterazioni successive possono includere dati aggregati o l’arricchimento dei dati con dati provenienti da altre fonti. Quindi, li elabori per ottenere informazioni, come specifici insights. Come risultato, ottieni informazioni che possono essere utilizzate nei processi successivi, ad esempio, il supporto alle decisioni aziendali, la costruzione di una nuova piattaforma o la fornitura di informazioni ai clienti.
La risposta a quale team di dati hai bisogno è collegata agli strumenti che utilizzerai,
Dal punto di vista del prodotto, la risposta a quale team di dati hai bisogno è collegata agli strumenti che utilizzerai, che dipendono anche dalle quantità di dati che utilizzerai e da come verranno trasformati. Da questa prospettiva, posso suddividere la costruzione di un team di dati in tre scenari:
- Scenario 1. Lavori con strumenti semi-automatici o completamente automatizzati che non richiedono personalizzazione e competenze specifiche. Anche gli specialisti dei dati di livello junior possono gestire alcune attività.
- Scenario 2. Alcune operazioni o processi di trasformazione dei dati richiedono lavori di sviluppo al di fuori degli strumenti che stai utilizzando.
- Scenario 3. Non puoi utilizzare le opzioni sopra citate perché il tuo prodotto richiede una personalizzazione completa. In questo caso, potresti utilizzare software open-source e costruire tutto da zero in base alle esatte esigenze del tuo prodotto.
Qual è il tuo prodotto e la visione per la costruzione di un team di dati efficiente?
In definitiva, la dimensione del tuo team di dati e quali specialisti ti servono dipendono dal tuo prodotto e dalla tua visione. La nostra esperienza nella costruzione del team di dati di Coresignal ci ha insegnato che il principio chiave è abbinare le capacità del team alle esigenze del prodotto, indipendentemente dal livello di anzianità degli specialisti.
Quanti ruoli di dati ci sono in un team di dati?
La risposta breve a questa domanda è “Dipende”. Quando si tratta della classificazione dei ruoli dei dati, ci sono molti modi di affrontare questa domanda. Nuovi ruoli emergono e le linee tra quelli esistenti possono talvolta sovrapporsi.
Esamineremo i ruoli più comuni nei team che lavorano con i dati web pubblici. Dalla mia esperienza, la struttura dei team di dati è legata al processo di lavoro con i dati web, che comprende i seguenti componenti:
- Ottenere dati dal sistema di origine;
- Ingegneria dei dati;
- Analisi dei dati;
- Scienza dei dati.
In un articolo pubblicato nel 2017, una nota scienziata dei dati, Monica Rogati, ha introdotto il concetto della gerarchia dei bisogni della scienza dei dati in un’organizzazione. Mostra che la maggior parte dei bisogni legati alla scienza dei dati in un’organizzazione riguarda le parti del processo alla base della piramide: la raccolta, il movimento, la memorizzazione, l’esplorazione e la trasformazione dei dati. Queste attività costituiscono anche una solida base di dati in un’organizzazione. I livelli superiori includono l’analisi, l’apprendimento automatico (ML) e l’intelligenza artificiale (AI).
Tuttavia, tutti questi livelli sono importanti in un’organizzazione che lavora con i dati web e richiedono specialisti con un set di competenze specifico.
Data engineer
I data engineer sono responsabili della gestione dello sviluppo, dell’implementazione e della manutenzione dei processi e degli strumenti utilizzati per l’ingestione dei dati grezzi al fine di produrre informazioni per l’uso successivo, ad esempio, analisi o machine learning (ML).
Quando si assumono data engineer, l’esperienza generale nel lavorare con i dati web e la specializzazione nell’utilizzo di strumenti specifici sono di solito in cima alla lista delle priorità. Hai bisogno di un data engineer negli scenari 2 e 3 menzionati in precedenza e nello scenario 1, se decidi di iniziare con uno specialista.
Data (o business) analyst
I data analyst si concentrano principalmente sui dati esistenti per valutare le prestazioni di un’azienda e fornire spunti per migliorarla. Hai già bisogno di data analyst negli scenari 1 e 2 menzionati in precedenza.
Le competenze più comuni che le aziende cercano quando assumono data analyst sono SQL, Python e altri linguaggi di programmazione (a seconda degli strumenti utilizzati).
Data scientist
I data scientist sono principalmente responsabili dell’analisi avanzata che si concentra sulla previsione o sugli insight futuri. L’analisi è considerata “avanzata” se viene utilizzata per costruire modelli di dati. Ad esempio, se avrai operazioni di machine learning o di elaborazione del linguaggio naturale.
Supponiamo che tu voglia lavorare con dati sulle aziende analizzando i loro profili pubblici. Vuoi identificare la percentuale di profili aziendali nel tuo database che sono falsi. Attraverso varie iterazioni a più livelli, vuoi creare un modello matematico che ti permetterà di identificare la probabilità di un profilo falso e categorizzare i profili che stai analizzando in base a criteri specifici. Per casi d’uso del genere, le aziende si affidano spesso ai data scientist.
Le competenze essenziali per un data scientist sono matematica e statistica, necessarie per la costruzione di modelli di dati, e competenze di programmazione (Python, R). Probabilmente avrai bisogno di data scientist nello scenario tre menzionato in precedenza.
Analytics engineer
Questo ruolo relativamente nuovo sta diventando sempre più popolare, specialmente tra le aziende che lavorano con dati web pubblici. Come suggerisce il titolo, il ruolo di un analytics engineer si trova tra un analista che si concentra sull’analisi e un data engineer che si concentra sull’infrastruttura. Gli analytics engineer sono responsabili della preparazione di set di dati pronti all’uso per l’analisi dei dati, che di solito viene eseguita da data analyst o data scientist, e garantiscono che i dati siano pronti per l’analisi in modo tempestivo.
SQL, Python e l’esperienza con gli strumenti necessari per estrarre, trasformare e caricare i dati sono tra le competenze essenziali richieste per gli analytics engineer. Avere un analytics engineer sarebbe utile negli scenari 2 e 3 menzionati in precedenza.
Tre cose da tenere a mente durante la creazione di un team di dati
Poiché ci sono molti approcci diversi alla classificazione dei ruoli dei dati, esistono anche una varietà di framework che possono aiutarti a creare e far crescere il tuo team di dati. Semplifichiamolo per un facile inizio e diciamo che ci sono diverse prospettive attraverso le quali un’azienda può valutare quale team sarà necessario per iniziare con i dati web.
Prospettiva dei dati
Con riferimento ai dati web in questo articolo, ci riferiamo a big data. Di solito ti vengono consegnate grandi quantità di record di dati in grandi file e in formato grezzo. Sarebbe meglio avere specialisti dei dati con esperienza nel lavorare con grandi volumi di dati e negli strumenti utilizzati per elaborarli.
Prospettiva dello stack tecnologico
Quando si tratta di strumenti, è necessario considerare che gli strumenti utilizzati dall’organizzazione per gestire tipi specifici di dati influenzeranno anche quali specialisti saranno necessari. Se hai bisogno di familiarizzare di più con gli strumenti richiesti, consulta un esperto prima di assumere un team di dati o assumi professionisti per aiutarti a selezionare gli strumenti giusti in base alle esigenze della tua azienda.
Prospettiva organizzativa
Puoi anche iniziare a costruire un team di dati valutando con quali stakeholder i specialisti dei dati lavoreranno a stretto contatto e decidendo come questo nuovo team si inserirà nella tua visione della struttura organizzativa. Ad esempio, il team di dati farà parte del team di ingegneria? Questo team si concentrerà principalmente sul prodotto? O sarà un’entità separata all’interno dell’organizzazione?
Le organizzazioni che hanno un livello di maturità dei dati più avanzato e stanno costruendo un prodotto basato sui dati guarderanno a questo compito attraverso una prospettiva più complessa, che coinvolge la visione futura dell’azienda, l’allineamento sulla definizione dei dati in tutta l’organizzazione, la decisione su chi e come gestirli, e come si svilupperà l’infrastruttura dati complessiva man mano che l’azienda cresce.
Cosa rende efficiente un team di dati?
Il team di dati è considerato efficiente finché soddisfa le esigenze della tua azienda, e quasi sempre l’efficienza del team di dati si misura in tempo e denaro.
Quindi, puoi fare affidamento su metriche come la quantità di dati elaborati durante un determinato periodo di tempo o la somma di denaro che spendi. Finché monitori queste metriche a intervalli regolari, la prossima cosa da osservare è la dinamica di queste metriche. In altre parole, se il tuo team riesce a elaborare più dati con la stessa quantità di denaro, significa che il team sta diventando più efficiente.
Un altro indicatore di efficienza che combina quanto detto in precedenza è quanto bene il tuo team scrive codice perché puoi avere molte risorse e svolgere iterazioni rapidamente, ma gli errori equivallono a risorse spese in più.
Oltre alle metriche facili da tracciare, uno dei problemi più comuni che le aziende incontrano è la fiducia nei dati. La fiducia nei dati è esattamente ciò che sembra. Anche se c’è un modo per tracciare il tempo necessario per eseguire compiti correlati ai dati o per vedere quanto costa, gli stakeholder potrebbero comunque mettere in dubbio l’affidabilità di queste metriche e dei dati stessi. Questa fiducia può essere negativamente influenzata da esperienze negative come incidenti precedenti o semplicemente dalla mancanza di comunicazione e informazioni da parte dei proprietari dei dati.
Inoltre, lavorare con grandi volumi di dati significa che individuare gli errori è un compito complesso. Tuttavia, l’organizzazione dovrebbe essere in grado di fidarsi della qualità dei dati che utilizza e delle informazioni che produce utilizzando questi dati.
È utile eseguire test statistici che consentano al team dei dati di valutare le metriche quantitative legate alla qualità dei dati, come i tassi di riempimento. In questo modo, l’organizzazione può anche accumulare dati storici che consentiranno al team dei dati di individuare eventuali problemi o tendenze negative in tempo. Un altro principio essenziale da applicare nella tua organizzazione è ascoltare i feedback dei clienti sulla qualità dei tuoi dati.
In sintesi, tutto si riduce ad avere specialisti talentuosi nel tuo team dei dati che possano lavorare velocemente, con precisione e costruire fiducia intorno al lavoro che stanno svolgendo.
Conclusioni
Per riassumere tutto, ecco alcune domande utili per aiutarti a formare un team dei dati:
- Qual è il tuo prodotto?
- Quali dati utilizzerai?
- Quali sono i componenti chiave del prodotto che coinvolgono i dati?
- Cosa si aspettano i risultati dalle diverse fasi del progetto che coinvolgono i dati?
- Quale stack tecnologico sarà richiesto per questo?
- Chi sono gli stakeholder?
- Quali indicatori ti aiuteranno a valutare se il tuo attuale team dei dati soddisfa le esigenze aziendali?
Spero che questo articolo ti abbia aiutato a comprendere meglio i diversi ruoli dei dati che sono comuni nelle organizzazioni che lavorano con dati web pubblici, perché sono essenziali, quali metriche aiutano le aziende a misurare il successo dei loro team dei dati e infine, come tutto è collegato al modo in cui la tua organizzazione pensa al ruolo dei dati.
Immagine in evidenza: Foto di Sigmund; Fornito dall’autore; Da Unsplash; Grazie!