El AWS Data Pipeline puede realizar trabajos de análisis de bastante data.
Los usuarios de Amazon Web Services podrán pronto orquestrar sus flujos de trabajo a través de los distintos servicios de AWS y sus recursos internos, usando un nuevo sistema de orquestración llamado AWS Data Pipeline.
El jefe de tecnología de Amazon, Werner Vogels, introdujo la tecnología en la conferencia de la compañía Re:Invent, que se lleva a cabo en Las Vegas. El servicio está ahora disponible en un preview limitado, aunque Vogels no dijo cuando estaría disponible de manera comercial, ni cual sería su precio.
El servicio puede “automatizar el movimiento y el procesamiento de un gran número de datos usando flujos de trabajo dirigidos por la data y armados a través de dependencias”, según un post en el blog de AWS.
Amazon diseño el servicio para automatizar el proceso de analizar grandes cantidades de datos. Por ejemplo, un flujo puede mover la data de AWS EC2 a AWS S3 una vez por día, por semana, o pedir un trabajo de análisis en el AWS Elastic MapReduce cluster.
Para armar un flujo de trabajo, los usuarios identifican las fuentes de datos y describen el proceso que AWS debería tomar en cuenta para procesarlos. Los usuarios también deben identificar el destino de la data procesada, así como programar cuando debería ser ejecutada. Las condiciones iniciales también deben ser establecidas, como revisar si un archivo necesario existe.
Los flujos pueden correr a través de EC2, Elastic MapReduce clusters y el propio hardware de los usuarios. Pueden iniciarse en el AWS Management Console o escribiendo un script.
El AWS Data Pipeline es uno de los tantos anuncios que Amazon hizo en la conferencia. También develó un nuevo servicio de data warehouse y un servicio de descubrimiento automático que facilita el manejo de su ElastiCache. También bajó los precios de algunos de sus servicios de almacenamiento y creó dos instancias de EC2, para un alto uso de memoria y de datos.