apache · leonardBang · Aug 1, 2022 · Apr 28, 2022 · Jul 29, 2022
diff --git a/...base/src/test/java/com/ververica/cdc/connectors/base/experimental/MySqlChunkSplitter.java b/...base/src/test/java/com/ververica/cdc/connectors/base/experimental/MySqlChunkSplitter.java
@@ -186,7 +186,7 @@ private List<ChunkRange> splitTableIntoChunks(
                 // the minimum dynamic chunk size is at least 1
                 final int dynamicChunkSize = Math.max((int) (distributionFactor * chunkSize), 1);
                 return splitEvenlySizedChunks(
-                        tableId, min, max, approximateRowCnt, dynamicChunkSize);
+                        tableId, min, max, approximateRowCnt, chunkSize, dynamicChunkSize);
             } else {
                 return splitUnevenlySizedChunks(
                         jdbc, tableId, splitColumnName, min, max, chunkSize);
@@ -201,25 +201,31 @@ private List<ChunkRange> splitTableIntoChunks(
      * and tumble chunks in step size.
      */
     private List<ChunkRange> splitEvenlySizedChunks(
-            TableId tableId, Object min, Object max, long approximateRowCnt, int chunkSize) {
+            TableId tableId,
+            Object min,
+            Object max,
+            long approximateRowCnt,
+            int chunkSize,
+            int dynamicChunkSize) {
         LOG.info(
-                "Use evenly-sized chunk optimization for table {}, the approximate row count is {}, the chunk size is {}",
+                "Use evenly-sized chunk optimization for table {}, the approximate row count is {}, the chunk size is {}, the dynamic chunk size is {}",
                 tableId,
                 approximateRowCnt,
-                chunkSize);
+                chunkSize,
+                dynamicChunkSize);
         if (approximateRowCnt <= chunkSize) {
             // there is no more than one chunk, return full table as a chunk
             return Collections.singletonList(ChunkRange.all());
         }
 
         final List<ChunkRange> splits = new ArrayList<>();
         Object chunkStart = null;
-        Object chunkEnd = ObjectUtils.plus(min, chunkSize);
+        Object chunkEnd = ObjectUtils.plus(min, dynamicChunkSize);
         while (ObjectUtils.compare(chunkEnd, max) <= 0) {
             splits.add(ChunkRange.of(chunkStart, chunkEnd));
             chunkStart = chunkEnd;
             try {
-                chunkEnd = ObjectUtils.plus(chunkEnd, chunkSize);
+                chunkEnd = ObjectUtils.plus(chunkEnd, dynamicChunkSize);
             } catch (ArithmeticException e) {
                 // Stop chunk split to avoid dead loop when number overflows.
                 break;

diff --git a/...-cdc/src/main/java/com/ververica/cdc/connectors/mysql/source/assigners/ChunkSplitter.java b/...-cdc/src/main/java/com/ververica/cdc/connectors/mysql/source/assigners/ChunkSplitter.java
@@ -152,7 +152,7 @@ private List<ChunkRange> splitTableIntoChunks(
                 // the minimum dynamic chunk size is at least 1
                 final int dynamicChunkSize = Math.max((int) (distributionFactor * chunkSize), 1);
                 return splitEvenlySizedChunks(
-                        tableId, min, max, approximateRowCnt, dynamicChunkSize);
+                        tableId, min, max, approximateRowCnt, chunkSize, dynamicChunkSize);
             } else {
                 return splitUnevenlySizedChunks(
                         jdbc, tableId, splitColumnName, min, max, chunkSize);
@@ -168,25 +168,31 @@ private List<ChunkRange> splitTableIntoChunks(
      */
     @VisibleForTesting
     public List<ChunkRange> splitEvenlySizedChunks(
-            TableId tableId, Object min, Object max, long approximateRowCnt, int chunkSize) {
+            TableId tableId,
+            Object min,
+            Object max,
+            long approximateRowCnt,
+            int chunkSize,
+            int dynamicChunkSize) {
         LOG.info(
-                "Use evenly-sized chunk optimization for table {}, the approximate row count is {}, the chunk size is {}",
+                "Use evenly-sized chunk optimization for table {}, the approximate row count is {}, the chunk size is {}, the dynamic chunk size is {}",
                 tableId,
                 approximateRowCnt,
-                chunkSize);
+                chunkSize,
+                dynamicChunkSize);
         if (approximateRowCnt <= chunkSize) {
             // there is no more than one chunk, return full table as a chunk
             return Collections.singletonList(ChunkRange.all());
         }
 
         final List<ChunkRange> splits = new ArrayList<>();
         Object chunkStart = null;
-        Object chunkEnd = ObjectUtils.plus(min, chunkSize);
+        Object chunkEnd = ObjectUtils.plus(min, dynamicChunkSize);
         while (ObjectUtils.compare(chunkEnd, max) <= 0) {
             splits.add(ChunkRange.of(chunkStart, chunkEnd));
             chunkStart = chunkEnd;
             try {
-                chunkEnd = ObjectUtils.plus(chunkEnd, chunkSize);
+                chunkEnd = ObjectUtils.plus(chunkEnd, dynamicChunkSize);
             } catch (ArithmeticException e) {
                 // Stop chunk split to avoid dead loop when number overflows.
                 break;

diff --git a/...test/java/com/ververica/cdc/connectors/mysql/source/assigners/MySqlChunkSplitterTest.java b/...test/java/com/ververica/cdc/connectors/mysql/source/assigners/MySqlChunkSplitterTest.java
@@ -35,6 +35,7 @@ public void testSplitEvenlySizedChunksOverflow() {
                         Integer.MAX_VALUE - 19,
                         Integer.MAX_VALUE,
                         20,
+                        10,
                         10);
         assertEquals(2, res.size());
         assertEquals(ChunkRange.of(null, 2147483638), res.get(0));
@@ -50,6 +51,7 @@ public void testSplitEvenlySizedChunksNormal() {
                         Integer.MAX_VALUE - 20,
                         Integer.MAX_VALUE,
                         20,
+                        10,
                         10);
         assertEquals(3, res.size());
         assertEquals(ChunkRange.of(null, 2147483637), res.get(0));

diff --git a/...a/com/ververica/cdc/connectors/mysql/source/assigners/MySqlSnapshotSplitAssignerTest.java b/...a/com/ververica/cdc/connectors/mysql/source/assigners/MySqlSnapshotSplitAssignerTest.java
@@ -199,6 +199,19 @@ public void testAssignTableWithSparseDistributionSplitKey() {
                             customerDatabase.getDatabaseName() + ".customers_sparse_dist"
                         });
         assertEquals(expected1, splits1);
+
+        // test sparse table that the approximate row count is bigger than chunk size
+        List<String> expected2 =
+                Arrays.asList("customers_sparse_dist null [18]", "customers_sparse_dist [18] null");
+        List<String> splits2 =
+                getTestAssignSnapshotSplits(
+                        8,
+                        10d,
+                        SPLIT_KEY_EVEN_DISTRIBUTION_FACTOR_LOWER_BOUND.defaultValue(),
+                        new String[] {
+                            customerDatabase.getDatabaseName() + ".customers_sparse_dist"
+                        });
+        assertEquals(expected2, splits2);
     }
 
     @Test