data-lake

BitSail is a distributed high-performance data integration engine which supports batch, streaming and incremental scenarios. BitSail is widely used to synchronize hundreds of trillions of data every day.

real-time big-data high-performance data-lake data-integration flink data-synchronization data-pipeline

UpdatedJan 1, 2024
Java

san089 /Udacity-Data-Engineering-Projects

Star1.6k

Few projects related to Data Engineering including Data Modeling, Infrastructure setup on cloud, Data Warehousing and Data Lake development.

infrastructure aws postgres data airflow cloudformation cassandra cluster aws-s3 aws-sdk data-warehouse data-engineering data-lake aws-ec2 postgresql-database data-modeling cassandra-database etl-pipeline data-engineering-pipeline airflow-operators

UpdatedAug 26, 2022
Python

san089 /goodreads_etl_pipeline

Star1.4k

An end-to-end GoodReads Data Pipeline for Building Data Lake, Data Warehouse and Analytics Platform.

python airflow spark apache-spark scheduler s3 data-engineering data-lake warehouse redshift data-migration livy etl-framework apache-airflow emr-cluster etl-pipeline etl-job data-engineering-pipeline airflow-dag goodreads-data-pipeline

UpdatedMar 9, 2020
Python

Teradata /kylo

Star1.1k

Kylo is a data lake management software platform and framework for enabling scalable enterprise-class data lakes on big data technologies such as Teradata, Apache Spark and/or Hadoop. Kylo is licensed under Apache 2.0. Contributed by Teradata Inc.

spark hadoop data-lake teradata nifi kylo

UpdatedJan 12, 2023
Java

alanchn31 /Data-Engineering-Projects

Star911

Personal Data Engineering Projects

postgres airflow spark cassandra mongodb data-warehouse data-engineering data-lake scrapy data-modeling aws-redshift star-schema ingest-data data-engineering-nanodegree

UpdatedFeb 8, 2023
Jupyter Notebook

Canner /vulcan-sql

Star667

Data API Framework for AI Agents and Data Apps

bigquery typescript sql database ai analytics clickhouse reporting postgresql spreadsheet snowflake data-warehouse data-lake restful-api api-builder ksqldb duckdb ai-agent vulcan-sql vulcansql

UpdatedJul 1, 2024
TypeScript

lakekeeper /lakekeeper

Star498

Lakekeeper is an Apache-Licensed, secure, fast and easy to use Apache Iceberg REST Catalog written in Rust.

rust catalog data-lake iceberg lakehouse open-lakehouse lakehouse-governance

UpdatedMar 20, 2025
Rust

uber /marmaray

Star478

Generic Data Ingestion & Dispersal Library for Hadoop

spark hadoop data-lake avro-schema ingest-data schema-format

UpdatedMar 19, 2023
Java

aws-solutions-library-samples /data-lakes-on-aws

Star443

Enterprise-grade, production-hardened, serverless data lake on AWS

aws framework serverless etl analytics best-practices data-engineering iac data-lake lake-formation

UpdatedMar 18, 2025
Python

kaiwaehner /hivemq-mqtt-tensorflow-kafka-realtime-iot-machine-learning-training-inference

Star412

Real Time Big Data / IoT Machine Learning (Model Training and Inference) with HiveMQ (MQTT), TensorFlow IO and Apache Kafka - no additional data store like S3, HDFS or Spark required

python java kubernetes mqtt cloud kafka mongodb tensorflow terraform gcp grpc data-lake confluent hivemq kafka-connect kafka-streams ksql ksqldb tiered-storage tensorflow-io

UpdatedNov 5, 2020
Jupyter Notebook

cuebook /cuelake

Star285

Use SQL to build ELT pipelines on a data lakehouse.

sql apache-spark etl pipelines data-engineering data-lake data-transfer delta data-integration upsert elt data-pipeline datalake data-ingestion spark-sql zeppelin-notebook apache-iceberg lakehouse incremental-updates

UpdatedMay 25, 2022
JavaScript

awslabs /amazon-s3-find-and-forget

Star242

Amazon S3 Find and Forget is a solution to handle data erasure requests from data lakes stored on Amazon S3, for example, pursuant to the European General Data Protection Regulation (GDPR)

aws data privacy big-data s3 data-lake parquet gdpr right-to-be-forgotten amazon-s3 data-erasure ccpa