Panoramica di Dataproc

Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare di dati di origine per l'elaborazione batch, l'esecuzione di query, l'inserimento di flussi e il machine learning. L'automazione di Dataproc consente di creare cluster rapidamente, gestirli con facilità e risparmiare spegnendo i cluster quando non ti servono. Risparmio di tempo e denaro dell'amministrazione, puoi concentrarti sui tuoi lavori e sui tuoi dati.

Perché utilizzare Dataproc?

Rispetto ai prodotti tradizionali on-premise e ai cloud concorrenti Dataproc offre una serie di vantaggi esclusivi per i cluster da tre a centinaia di nodi:

  • Basso costo: Dataproc è al prezzo di solo 1 centesimo per CPU virtuale nel tuo cluster all'ora, rispetto alle altre risorse piattaforma Cloud che utilizzi. Oltre a questo a basso costo, i cluster Dataproc possono includere istanze prerilasciabili con prestazioni inferiori di computing, riducendo ulteriormente i costi. Invece di arrotondare fino all'ora più vicina, Dataproc addebita solo i costi a ciò che usi davvero con la fatturazione al secondo e un un periodo di fatturazione minimo di un minuto.
  • Superveloce: senza utilizzare Dataproc, può richiedere dai 5 ai 30 minuti per creare cluster Spark e Hadoop on-premise o tramite provider IaaS. In confronto, i cluster Dataproc avvio, scalabilità e arresto rapidi, con ciascuna di queste operazioni non superino i 90 secondi. Ciò significa che potrai dedicare meno tempo in attesa di cluster e più tempo pratico per lavorare con i dati.
  • Integrato: Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery Cloud Storage Cloud Bigtable, Cloud Logging e Cloud Monitoring, per offrirti molto di più un cluster Spark o Hadoop, hai una piattaforma dati completa. Per Ad esempio, puoi usare Dataproc per semplificare i terabyte di ETL non elaborati registrare i dati direttamente in BigQuery per i report aziendali.
  • Gestiti: utilizza i cluster Spark e Hadoop senza assistenza di un amministratore o di un software speciale. Puoi facilmente interagiscono con i cluster e i job Spark o Hadoop tramite Console Google Cloud, Cloud SDK o REST Dataproc tramite Google Cloud CLI o tramite l'API Compute Engine. Quando hai finito con un cluster, puoi semplicemente disattivarlo per di non spendere denaro su un cluster inattivo. Non dovrai preoccuparti di di perdere dati, dato che Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplicità e familiarità: non devi imparare a usare nuovi strumenti oppure API per usare Dataproc, semplificando lo spostamento di progetti esistenti in Dataproc senza ripensare lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente. In questo modo, puoi essere più produttivo.

Che cosa è incluso in Dataproc?

Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e Google Cloud Platform supportate da Dataproc, consulta Elenco delle versioni di Dataproc.

Introduzione a Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi: