Readme

NPipeline Data Lake Connector

NPipeline Data Lake Connector provides table abstractions for building data lakes on top of the Parquet connector. This package enables partitioned writes, manifest-based table management, time travel queries, and small-file compaction with Parquet as the default storage format.

About NPipeline

NPipeline is a high-performance, extensible data processing framework for .NET that enables developers to build scalable and efficient pipeline-based applications. It provides a rich set of components for data transformation, aggregation, branching, and parallel processing, with built-in support for resilience patterns and error handling.

Installation

dotnet add package NPipeline.Connectors.DataLake

Requirements

.NET 8.0, 9.0, or 10.0
NPipeline.Connectors.Parquet (automatically included as a dependency)
NPipeline.Connectors (automatically included as a dependency)
NPipeline.StorageProviders (automatically included as a dependency)

Relationship to Parquet Connector

This package builds on NPipeline.Connectors.Parquet and uses Parquet as its default file format. The Data Lake connector adds:

Hive-style partitioning: Automatic directory structure with column=value/ patterns
Manifest tracking: NDJSON-based file inventory with snapshot IDs
Time travel: Read table state as of a specific timestamp or snapshot
Compaction: Merge small files into larger, query-optimized files
Format adapters: Extensibility for Iceberg, Delta, or custom table formats

Why this separation: The Parquet connector handles single-file I/O with full Parquet feature support. The Data Lake connector adds table-level semantics ( partitioning, snapshots, time travel) without duplicating the Parquet implementation. This allows using either package independently or together.

Features

Field	Description
`path`	Relative path from table base
`row_count`	Number of rows in the file
`written_at`	Timestamp when file was written
`file_size_bytes`	File size in bytes
`partition_values`	Partition key/value pairs
`snapshot_id`	ID of the snapshot containing this file
`content_hash`	Optional hash for integrity verification
`file_format`	Format (e.g., "parquet")
`compression`	Compression codec used

CLR Type	Path Format	Example
`DateOnly`	`yyyy-MM-dd`	`2025-01-15`
`DateTime`	`yyyy-MM-dd-HH-mm-ss`	`2025-01-15-14-30-00`
`DateTimeOffset`	`yyyy-MM-dd-HH-mm-ss`	`2025-01-15-14-30-00`
`string`	URL-encoded	`Hello%20World`
`enum`	Lowercase name	`active`
`Guid`	Lowercase D format	`a1b2c3d4-e5f6-7890-abcd-ef1234567890`
Numeric types	Invariant culture	`12345`, `3.14`

using NPipeline.Connectors.DataLake; using NPipeline.Connectors.DataLake.Partitioning; using NPipeline.Connectors.Parquet; using NPipeline.Connectors.Parquet.Attributes; using NPipeline.Pipeline; using NPipeline.StorageProviders; using NPipeline.StorageProviders.Models; public class SalesRecord { [ParquetColumn("sale_id")] public long Id { get; set; } [ParquetColumn("product_name")] public string ProductName { get; set; } = string.Empty; [ParquetDecimal(18, 2)] public decimal Amount { get; set; } public DateTime EventDate { get; set; } // Partition column public string Region { get; set; } = string.Empty; // Partition column } public class DataLakePipeline : IPipelineDefinition { private readonly StorageUri _tableUri = StorageUri.Parse("s3://warehouse/sales_table/"); public void Define(PipelineBuilder builder, PipelineContext context) { var resolver = StorageProviderFactory.CreateResolver(); var provider = StorageProviderFactory.GetProviderOrThrow(resolver, _tableUri); var partitionSpec = PartitionSpec<SalesRecord> .By(x => x.EventDate) .ThenBy(x => x.Region); var config = new ParquetConfiguration { RowGroupSize = 100_000, Compression = Parquet.CompressionMethod.Snappy, TargetFileSizeBytes = 512L * 1024 * 1024 }; // Source: Read from Data Lake table with time travel var asOfDate = new DateTimeOffset(2025, 1, 15, 0, 0, 0, TimeSpan.Zero); var source = builder.AddSource( new DataLakeTableSourceNode<SalesRecord>(provider, _tableUri, asOfDate), "lake-source"); // Transform: Process records var transform = builder.AddTransform<SalesTransform, SalesRecord, SalesRecord>("transform"); // Sink: Write back to Data Lake with partitioning var sink = builder.AddSink( new DataLakePartitionedSinkNode<SalesRecord>( provider, _tableUri, partitionSpec, config), "lake-sink"); builder.Connect(source, transform); builder.Connect(transform, sink); } }

npipeline/NPipeline.Connectors.DataLakev0.28.0

Get Started

Readme

NPipeline Data Lake Connector

About NPipeline

Installation

Requirements

Relationship to Parquet Connector

Features

Usage

Defining Partition Specifications

Writing Partitioned Data

Reading Table Data

Time Travel Queries

Manifest Format

Inspecting the Manifest

Compaction

Format Adapter Interface

Hive-Style Partition Paths

Production Considerations

File Sizing

Memory Management

Idempotent Writes

Manifest Backup

Compaction Strategy

Complete Pipeline Example

Related Packages

License

Links

Keywords

Maintainers