Google ha anunciado otra nueva tecnología en la nube dentro de su línea Cloud Platform, Google Cloud Dataproc. Esta nueva tecnología en la nube tiene como objetivo hacer que Hadoop y Spark sean más fáciles de implementar y administrar dentro de Google Cloud Platform. Al igual que el reciente anuncio de Dell y Cloudera, esta tecnología permite el uso de Hadoop sin los altos costes de formación que conlleva.
Google ha anunciado otra nueva tecnología en la nube dentro de su línea Cloud Platform, Google Cloud Dataproc. Esta nueva tecnología en la nube tiene como objetivo hacer que Hadoop y Spark sean más fáciles de implementar y administrar dentro de Google Cloud Platform. Al igual que el reciente anuncio de Dell y Cloudera, esta tecnología permite el uso de Hadoop sin los altos costes de formación que conlleva.
A medida que los conjuntos de datos sigan creciendo en tamaño y complejidad, se necesitarán herramientas más potentes para analizar estos conjuntos de datos. Si bien las herramientas existen, a menudo agregan otra capa de complejidad y puede ser costoso capacitar a los administradores en nuevas tecnologías o contratar consultores. Google presenta Dataproc, un servicio automático y administrado para Hadoop y Spark. Con Dataproc, los usuarios pueden aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, la transmisión y el aprendizaje automático mientras usan su automatización para crear y administrar clústeres rápidamente. Dataproc también permite que los clústeres se apaguen cuando no están en uso, lo que ayuda a ahorrar costos, ya que la facturación se realiza minuto a minuto.
Los beneficios incluyen:
- Cloud Dataproc tiene un precio de solo 1 centavo por CPU virtual en el clúster de un cliente por hora, además de los otros recursos de Cloud Platform utilizados. Los clústeres de Cloud Dataproc pueden incluir instancias interrumpibles que tienen costos de cómputo más bajos, lo que reduce aún más los costos. En lugar de redondear el uso a la hora más cercana, Cloud Dataproc cobra a los clientes solo por lo que se usa con facturación minuto a minuto y un período de facturación mínimo de diez minutos.
- Sin usar Dataproc, puede llevar entre 5 y 30 minutos crear clústeres de Spark y Hadoop en las instalaciones o a través de proveedores de IaaS. En comparación, los clústeres de Cloud Dataproc se inician, escalan y cierran rápidamente y cada una de estas operaciones demora 90 segundos o menos, en promedio. Esto significa que los usuarios pueden pasar menos tiempo esperando clústeres y más tiempo trabajando con sus datos.
- Cloud Dataproc tiene una integración integrada con otros servicios de Google Cloud Platform, como BigQuery, Almacenamiento en la nube, Mesa grande en la nube, Cloud Logging y Cloud Monitoring, para que los clientes tengan más que un clúster de Spark o Hadoop: tienen una plataforma de datos completa. Por ejemplo, pueden usar Cloud Dataproc para ETL sin esfuerzo terabytes de datos de registro sin procesar directamente en BigQuery para generar informes comerciales.
- Los clientes pueden interactuar fácilmente con clústeres y trabajos de Spark o Hadoop a través de Google Developers Console, el SDK de Google Cloud o la API REST de Cloud Dataproc. Cuando terminan con un clúster, simplemente pueden apagarlo para no desperdiciar dinero en un clúster inactivo. No hay que preocuparse por la pérdida de datos, porque Cloud Dataproc está integrado con Cloud Storage, BigQuery y Cloud Bigtable.
- No es necesario aprender nuevas herramientas o API para usar Cloud Dataproc, lo que facilita el traslado de proyectos existentes a Cloud Dataproc sin volver a desarrollar. Spark, Hadoop, Pig y Hive se actualizan con frecuencia para que los usuarios puedan ser productivos más rápido.
Disponibilidad y precios
Google Cloud Dataproc está disponible ahora como un servicio beta a partir de $ 0.01 por CPU virtual.
Proceso de datos en la nube de Google
Suscríbase al boletín de StorageReview