Add filter pushdown example (apache#1191)

tustvold · Jul 27, 2022 · 1bd4dc5 · 1bd4dc5
1 parent 80c64ef
commit 1bd4dc5
Show file tree

Hide file tree

Showing 3 changed files with 274 additions and 12 deletions.
diff --git a/parquet/examples/parquet_filter_pushdown.rs b/parquet/examples/parquet_filter_pushdown.rs
@@ -0,0 +1,269 @@
+//! Generates a large parquet file containing dictionary encoded data and demonstrates how
+//! the page index, and the record skipping API can dramatically improve performance
+
+use arrow::array::{
+    ArrayRef, Float64Builder, Int32Builder, StringBuilder, StringDictionaryBuilder,
+};
+use arrow::compute::SlicesIterator;
+use arrow::datatypes::{DataType, Field, Schema};
+use arrow::record_batch::RecordBatch;
+use arrow::util::pretty::pretty_format_columns;
+use bytes::Bytes;
+use parquet::arrow::arrow_reader::{ArrowReaderOptions, RowSelection};
+use parquet::arrow::{ArrowReader, ArrowWriter, ParquetFileArrowReader, ProjectionMask};
+use parquet::file::properties::{WriterProperties, WriterVersion};
+use std::cmp::Ordering;
+use std::ops::Range;
+use std::sync::Arc;
+use std::time::Instant;
+
+const NUM_ROW_GROUPS: usize = 2;
+const NUM_KEYS: usize = 1024;
+const ROWS_PER_ROW_GROUP: usize = 1024 * 1024;
+const ROWS_PER_FILE: usize = ROWS_PER_ROW_GROUP * NUM_ROW_GROUPS;
+
+fn generate_batch() -> RecordBatch {
+    let string_dict_t =
+        DataType::Dictionary(Box::new(DataType::Int32), Box::new(DataType::Utf8));
+
+    let schema = Arc::new(Schema::new(vec![
+        Field::new("dict1", string_dict_t.clone(), true),
+        Field::new("dict2", string_dict_t, true),
+        Field::new("f64_values", DataType::Float64, true),
+    ]));
+
+    let mut dict1 = StringDictionaryBuilder::new(
+        Int32Builder::new(ROWS_PER_FILE),
+        StringBuilder::new(1024),
+    );
+    let mut dict2 = StringDictionaryBuilder::new(
+        Int32Builder::new(ROWS_PER_FILE),
+        StringBuilder::new(1024),
+    );
+    let mut values = Float64Builder::new(ROWS_PER_FILE);
+    let dict: Vec<_> = (0..NUM_KEYS).map(|key| format!("key{}", key)).collect();
+
+    // ~1 runs of each dictionary key
+    let dict1_divisor = ROWS_PER_FILE / NUM_KEYS;
+
+    // ~8 runs for each dictionary key
+    let dict2_divisor = dict1_divisor / 8;
+
+    for i in 0..ROWS_PER_FILE {
+        dict1
+            .append(&dict[(i / dict1_divisor) % dict.len()])
+            .unwrap();
+        dict2
+            .append(&dict[(i / dict2_divisor) % dict.len()])
+            .unwrap();
+
+        values.append_value(i as f64);
+    }
+
+    RecordBatch::try_new(
+        schema,
+        vec![
+            Arc::new(dict1.finish()),
+            Arc::new(dict2.finish()),
+            Arc::new(values.finish()),
+        ],
+    )
+    .unwrap()
+}
+
+fn generate_parquet() -> Vec<u8> {
+    let mut out = Vec::with_capacity(1024);
+
+    let data = generate_batch();
+
+    let props = WriterProperties::builder()
+        .set_writer_version(WriterVersion::PARQUET_2_0)
+        .set_max_row_group_size(ROWS_PER_ROW_GROUP)
+        .build();
+    let mut writer = ArrowWriter::try_new(&mut out, data.schema(), Some(props)).unwrap();
+
+    writer.write(&data).unwrap();
+
+    let metadata = writer.close().unwrap();
+    assert_eq!(metadata.row_groups.len(), 2);
+    assert!(metadata.row_groups[0].columns[0]
+        .column_index_length
+        .is_some());
+    out
+}
+
+fn evaluate_basic(file: Bytes) -> Vec<ArrayRef> {
+    let mut reader = ParquetFileArrowReader::try_new(file).unwrap();
+
+    reader
+        .get_record_reader(1024)
+        .unwrap()
+        .map(|result| {
+            let batch = result.unwrap();
+
+            let filter_a =
+                arrow::compute::eq_dyn_utf8_scalar(&batch.columns()[0], "key0").unwrap();
+            let filter_b =
+                arrow::compute::eq_dyn_utf8_scalar(&batch.columns()[1], "key1").unwrap();
+
+            let combined = arrow::compute::and(&filter_a, &filter_b).unwrap();
+            arrow::compute::filter(&batch.column(2), &combined).unwrap()
+        })
+        .collect()
+}
+
+fn selection_from_ranges(
+    ranges: Vec<Range<usize>>,
+    total_rows: usize,
+) -> Vec<RowSelection> {
+    let mut selection: Vec<RowSelection> = Vec::with_capacity(ranges.len() * 2);
+    let mut last_end = 0;
+    for range in ranges {
+        let len = range.end - range.start;
+
+        match range.start.cmp(&last_end) {
+            Ordering::Equal => match selection.last_mut() {
+                Some(last) => last.row_count += len,
+                None => selection.push(RowSelection::select(len)),
+            },
+            Ordering::Greater => {
+                selection.push(RowSelection::skip(range.start - last_end));
+                selection.push(RowSelection::select(len))
+            }
+            Ordering::Less => panic!("out of order"),
+        }
+        last_end = range.end;
+    }
+
+    if last_end != total_rows {
+        selection.push(RowSelection::skip(total_rows - last_end))
+    }
+
+    selection
+}
+
+fn evaluate_selection(
+    mut reader: ParquetFileArrowReader,
+    column: usize,
+    key: &str,
+) -> Vec<RowSelection> {
+    let mask = ProjectionMask::leaves(reader.parquet_schema(), [column]);
+
+    let mut range_offset = 0;
+    let mut ranges = vec![];
+    for result in reader.get_record_reader_by_columns(mask, 1024).unwrap() {
+        let batch = result.unwrap();
+        let filter =
+            arrow::compute::eq_dyn_utf8_scalar(&batch.columns()[0], key).unwrap();
+
+        let valid = SlicesIterator::new(&filter)
+            .map(|(start, end)| start + range_offset..end + range_offset);
+        ranges.extend(valid);
+        range_offset += batch.num_rows();
+    }
+
+    selection_from_ranges(ranges, range_offset)
+}
+
+// Combine a selection where `second` was computed with `first` applied
+fn combine_selection(
+    first: &[RowSelection],
+    second: &[RowSelection],
+) -> Vec<RowSelection> {
+    let mut selection = vec![];
+    let mut first = first.iter().cloned().peekable();
+    let mut second = second.iter().cloned().peekable();
+
+    let mut to_skip = 0;
+    while let (Some(a), Some(b)) = (first.peek_mut(), second.peek_mut()) {
+        if a.row_count == 0 {
+            first.next().unwrap();
+            continue;
+        }
+
+        if b.row_count == 0 {
+            second.next().unwrap();
+            continue;
+        }
+
+        if a.skip {
+            // Records were skipped when producing second
+            to_skip += a.row_count;
+            first.next().unwrap();
+            continue;
+        }
+
+        let skip = b.skip;
+        let to_process = a.row_count.min(b.row_count);
+
+        a.row_count -= to_process;
+        b.row_count -= to_process;
+
+        match skip {
+            true => to_skip += to_process,
+            false => {
+                if to_skip != 0 {
+                    selection.push(RowSelection::skip(to_skip));
+                    to_skip = 0;
+                }
+                selection.push(RowSelection::select(to_process))
+            }
+        }
+    }
+    selection
+}
+
+fn evaluate_pushdown(file: Bytes) -> Vec<ArrayRef> {
+    // TODO: This could also make use of the page index
+
+    let reader = ParquetFileArrowReader::try_new(file.clone()).unwrap();
+    let s1 = evaluate_selection(reader, 0, "key0");
+
+    // Perhaps we need a way to keep the provide a selection to an existing reader?
+    let options = ArrowReaderOptions::default().with_row_selection(s1.clone());
+    let reader =
+        ParquetFileArrowReader::try_new_with_options(file.clone(), options).unwrap();
+
+    let s2 = evaluate_selection(reader, 1, "key1");
+    let s3 = combine_selection(&s1, &s2);
+
+    let total_rows = s3
+        .iter()
+        .filter_map(|x| (!x.skip).then(|| x.row_count))
+        .sum::<usize>();
+
+    let options = ArrowReaderOptions::default().with_row_selection(s3);
+    let mut reader = ParquetFileArrowReader::try_new_with_options(file, options).unwrap();
+    let mask = ProjectionMask::leaves(reader.parquet_schema(), [2]);
+
+    reader
+        .get_record_reader_by_columns(mask, total_rows)
+        .unwrap()
+        .map(|r| r.unwrap().columns()[0].clone())
+        .collect()
+}
+
+fn main() {
+    let data: Bytes = generate_parquet().into();
+    let t0 = Instant::now();
+    let basic = evaluate_basic(data.clone());
+    let t1 = Instant::now();
+    let complex = evaluate_pushdown(data);
+    let t2 = Instant::now();
+
+    let basic = pretty_format_columns("f64_values", &basic)
+        .unwrap()
+        .to_string();
+
+    let complex = pretty_format_columns("f64_values", &complex)
+        .unwrap()
+        .to_string();
+
+    println!(
+        "Simple strategy took {}s vs {}s",
+        (t1 - t0).as_secs_f64(),
+        (t2 - t1).as_secs_f64()
+    );
+
+    assert_eq!(basic, complex);
+}
diff --git a/parquet/src/arrow/arrow_reader.rs b/parquet/src/arrow/arrow_reader.rs
@@ -75,7 +75,7 @@ pub trait ArrowReader {
 /// [`RowSelection`] allows selecting or skipping a provided number of rows
 /// when scanning the parquet file
 #[derive(Debug, Clone, Copy)]
-pub(crate) struct RowSelection {
+pub struct RowSelection {
     /// The number of rows
     pub row_count: usize,
 
@@ -127,12 +127,7 @@ impl ArrowReaderOptions {
     }
 
     /// Scan rows from the parquet file according to the provided `selection`
-    ///
-    /// TODO: Make public once row selection fully implemented (#1792)
-    pub(crate) fn with_row_selection(
-        self,
-        selection: impl Into<Vec<RowSelection>>,
-    ) -> Self {
+    pub fn with_row_selection(self, selection: impl Into<Vec<RowSelection>>) -> Self {
         Self {
             selection: Some(selection.into()),
             ..self
@@ -359,9 +354,7 @@ impl ParquetRecordBatchReader {
     /// Create a new [`ParquetRecordBatchReader`] that will read at most `batch_size` rows at
     /// a time from [`ArrayReader`] based on the configured `selection`. If `selection` is `None`
     /// all rows will be returned
-    ///
-    /// TODO: Make public once row selection fully implemented (#1792)
-    pub(crate) fn new(
+    pub fn new(
         batch_size: usize,
         array_reader: Box<dyn ArrayReader>,
         selection: Option<VecDeque<RowSelection>>,

diff --git a/parquet/src/file/page_index/index_reader.rs b/parquet/src/file/page_index/index_reader.rs
@@ -35,7 +35,7 @@ pub fn read_columns_indexes<R: ChunkReader>(
     let length = lengths.iter().sum::<usize>();
 
     //read all need data into buffer
-    let mut reader = reader.get_read(offset, reader.len() as usize)?;
+    let mut reader = reader.get_read(offset, length)?;
     let mut data = vec![0; length];
     reader.read_exact(&mut data)?;
 
@@ -65,7 +65,7 @@ pub fn read_pages_locations<R: ChunkReader>(
     let (offset, total_length) = get_location_offset_and_total_length(chunks)?;
 
     //read all need data into buffer
-    let mut reader = reader.get_read(offset, reader.len() as usize)?;
+    let mut reader = reader.get_read(offset, total_length)?;
     let mut data = vec![0; total_length];
     reader.read_exact(&mut data)?;