datahub-project · treff7es · Apr 26, 2022 · Apr 13, 2022 · Apr 13, 2022 · Apr 19, 2022
diff --git a/metadata-ingestion/src/datahub/ingestion/source/sql/bigquery.py b/metadata-ingestion/src/datahub/ingestion/source/sql/bigquery.py
@@ -12,6 +12,7 @@
 # This import verifies that the dependencies are available.
 import sqlalchemy_bigquery
 from dateutil import parser
+from dateutil.relativedelta import relativedelta
 from google.cloud.bigquery import Client as BigQueryClient
 from google.cloud.logging_v2.client import Client as GCPLoggingClient
 from sqlalchemy import create_engine, inspect
@@ -621,14 +622,37 @@ def generate_partition_profiler_query(
 
         partition = self.get_latest_partition(schema, table)
         if partition:
-            partition_ts: Union[datetime.datetime, datetime.date]
+            partition_where_clause: str
             if not partition_datetime:
                 partition_datetime = parser.parse(partition.partition_id)
             logger.debug(f"{table} is partitioned and partition column is {partition}")
             if partition.data_type in ("TIMESTAMP", "DATETIME"):
-                partition_ts = partition_datetime
+                duration: relativedelta
+                # if yearly partitioned,
+                if len(partition.partition_id) == 4:
+                    duration = relativedelta(years=1)
+                    partition_datetime = partition_datetime.replace(month=1, day=1)
+                # elif monthly partitioned,
+                elif len(partition.partition_id) == 6:
+                    duration = relativedelta(months=1)
+                    partition_datetime = partition_datetime.replace(day=1)
+                # elif daily partitioned,
+                elif len(partition.partition_id) == 8:
+                    duration = relativedelta(days=1)
+                # elif hourly partitioned,
+                elif len(partition.partition_id) == 10:
+                    duration = relativedelta(hours=1)
+                upper_bound_partition_datetime = partition_datetime + duration
+                partition_where_clause = "{column_name} BETWEEN '{partition_id}' AND '{upper_bound_partition_id}'".format(
+                    column_name=partition.column_name,
+                    partition_id=partition_datetime,
+                    upper_bound_partition_id=upper_bound_partition_datetime,
+                )
             elif partition.data_type == "DATE":
-                partition_ts = partition_datetime.date()
+                partition_where_clause = "{column_name} = '{partition_id}'".format(
+                    column_name=partition.column_name,
+                    partition_id=partition_datetime.date(),
+                )
             else:
                 logger.warning(f"Not supported partition type {partition.data_type}")
                 return None, None
@@ -639,13 +663,12 @@ def generate_partition_profiler_query(
 FROM
     `{table_catalog}.{table_schema}.{table_name}`
 WHERE
-    {column_name} = '{partition_id}'
+    {partition_where_clause}
             """.format(
                 table_catalog=partition.table_catalog,
                 table_schema=partition.table_schema,
                 table_name=partition.table_name,
-                column_name=partition.column_name,
-                partition_id=partition_ts,
+                partition_where_clause=partition_where_clause,
             )
 
             return (partition.partition_id, custom_sql)