Databricks presenta LakeFlow para ayudar a sus clientes a construir sus canalizaciones de datos
Desde su lanzamiento en 2013, Databricks ha confiado en su ecosistema de socios, como Fievtran, Rudderstack y dbt, para ofrecer herramientas para datos.
Desde su lanzamiento en 2013, Databricks ha dependido de su ecosistema de socios, como Fievtran, Rudderstack y dbt, para proporcionar herramientas para la preparación y carga de datos. Sin embargo, durante su evento anual Data + AI Summit, la empresa anunció LakeFlow, su propia solución de ingeniería de datos que puede manejar la ingestión, transformación y orquestación de datos, eliminando la necesidad de una solución de terceros. Con LakeFlow, los usuarios de Databricks pronto podrán construir sus tuberías de datos e ingerir datos de bases de datos como MySQL, Postgres, SQL Server y Oracle, así como de aplicaciones empresariales como Salesforce, Dynamics, Sharepoint, Workday, NetSuite y Google Analytics.
¿Por qué el cambio de opinión después de depender de sus socios durante tanto tiempo? El cofundador y CEO de Databricks, Ali Ghodsi, explicó que cuando consultó a su consejo asesor en el Databricks CIO Forum hace dos años sobre futuras inversiones, esperaba solicitudes de más funciones de aprendizaje automático. En cambio, la audiencia quería una mejor ingestión de datos de varias aplicaciones SaaS y bases de datos. Ghodsi enfatizó que Databricks planea "seguir invirtiendo" en su ecosistema de socios, pero claramente hay un segmento del mercado que desea un servicio como este integrado en la plataforma.
En el fondo, el sistema LakeFlow se compone de tres partes. En primer lugar, LakeFlow Connect, que proporciona los conectores entre las diferentes fuentes de datos y el servicio de Databricks. Ahora mismo, este sistema soporta SQL Server, Salesforce, Workday, ServiceNow y Google Analytics, con soporte para MySQL y Postgres próximamente. El segundo componente es Flow Pipelines, una versión del framework Delta Live Tables de Databricks para implementar transformación de datos y ETL en SQL o Python. El tercer componente es LakeFlow Jobs, el motor que proporciona orquestación automatizada y garantiza la salud y entrega de datos. La promesa de LakeFlow es que Databricks puede ofrecer ahora una solución de extremo a extremo que permite a las empresas tomar sus datos de una amplia variedad de sistemas, transformarlos e ingerirlos casi en tiempo real, y luego construir aplicaciones listas para producción sobre ellos.