apache · anmolnar · Oct 27, 2025 · Oct 15, 2025 · Oct 16, 2025 · Oct 20, 2025
diff --git a/hbase-backup/src/main/java/org/apache/hadoop/hbase/backup/BackupObserver.java b/hbase-backup/src/main/java/org/apache/hadoop/hbase/backup/BackupObserver.java
@@ -96,8 +96,11 @@ private void registerBulkLoad(ObserverContext<? extends RegionCoprocessorEnviron
     try (Connection connection = ConnectionFactory.createConnection(cfg);
       BackupSystemTable tbl = new BackupSystemTable(connection)) {
       Set<TableName> fullyBackedUpTables = tbl.getTablesIncludedInBackups();
+      Map<TableName, Long> continuousBackupTableSet = tbl.getContinuousBackupTableSet();
 
-      if (fullyBackedUpTables.contains(tableName)) {
+      if (
+        fullyBackedUpTables.contains(tableName) && !continuousBackupTableSet.containsKey(tableName)
+      ) {
         tbl.registerBulkLoad(tableName, region.getEncodedNameAsBytes(), cfToHFilePaths);
       } else {
         if (LOG.isTraceEnabled()) {

diff --git a/...ackup/src/main/java/org/apache/hadoop/hbase/backup/impl/IncrementalTableBackupClient.java b/...ackup/src/main/java/org/apache/hadoop/hbase/backup/impl/IncrementalTableBackupClient.java
@@ -20,7 +20,6 @@
 import static org.apache.hadoop.hbase.backup.BackupRestoreConstants.CONF_CONTINUOUS_BACKUP_WAL_DIR;
 import static org.apache.hadoop.hbase.backup.BackupRestoreConstants.JOB_NAME_CONF_KEY;
 import static org.apache.hadoop.hbase.backup.replication.ContinuousBackupReplicationEndpoint.ONE_DAY_IN_MILLISECONDS;
-import static org.apache.hadoop.hbase.backup.util.BackupFileSystemManager.BULKLOAD_FILES_DIR;
 import static org.apache.hadoop.hbase.backup.util.BackupFileSystemManager.WALS_DIR;
 import static org.apache.hadoop.hbase.backup.util.BackupUtils.DATE_FORMAT;
 
@@ -37,6 +36,7 @@
 import java.util.Map;
 import java.util.Set;
 import java.util.TimeZone;
+import java.util.stream.Collectors;
 import org.apache.commons.io.FilenameUtils;
 import org.apache.commons.lang3.StringUtils;
 import org.apache.hadoop.fs.FileStatus;
@@ -55,6 +55,7 @@
 import org.apache.hadoop.hbase.backup.mapreduce.MapReduceBackupCopyJob;
 import org.apache.hadoop.hbase.backup.mapreduce.MapReduceHFileSplitterJob;
 import org.apache.hadoop.hbase.backup.util.BackupUtils;
+import org.apache.hadoop.hbase.backup.util.BulkFilesCollector;
 import org.apache.hadoop.hbase.client.Admin;
 import org.apache.hadoop.hbase.client.ColumnFamilyDescriptor;
 import org.apache.hadoop.hbase.client.Connection;
@@ -86,6 +87,7 @@
 @InterfaceAudience.Private
 public class IncrementalTableBackupClient extends TableBackupClient {
   private static final Logger LOG = LoggerFactory.getLogger(IncrementalTableBackupClient.class);
+  private static final String BULKLOAD_COLLECTOR_OUTPUT = "bulkload-collector-output";
 
   protected IncrementalTableBackupClient() {
   }
@@ -137,89 +139,88 @@ protected static int getIndex(TableName tbl, List<TableName> sTableList) {
    * the backup is marked as complete.
    * @param tablesToBackup list of tables to be backed up
    */
-  protected List<BulkLoad> handleBulkLoad(List<TableName> tablesToBackup) throws IOException {
+  protected List<BulkLoad> handleBulkLoad(List<TableName> tablesToBackup,
+    Map<TableName, List<String>> tablesToWALFileList, Map<TableName, Long> tablesToPrevBackupTs)
+    throws IOException {
     Map<TableName, MergeSplitBulkloadInfo> toBulkload = new HashMap<>();
-    List<BulkLoad> bulkLoads;
-    if (backupInfo.isContinuousBackupEnabled()) {
-      bulkLoads =
-        backupManager.readBulkloadRows(tablesToBackup, backupInfo.getIncrCommittedWalTs());
-    } else {
-      bulkLoads = backupManager.readBulkloadRows(tablesToBackup);
-    }
+    List<BulkLoad> bulkLoads = new ArrayList<>();
+
     FileSystem tgtFs;
     try {
       tgtFs = FileSystem.get(new URI(backupInfo.getBackupRootDir()), conf);
     } catch (URISyntaxException use) {
       throw new IOException("Unable to get FileSystem", use);
     }
+
     Path rootdir = CommonFSUtils.getRootDir(conf);
     Path tgtRoot = new Path(new Path(backupInfo.getBackupRootDir()), backupId);
 
-    for (BulkLoad bulkLoad : bulkLoads) {
-      TableName srcTable = bulkLoad.getTableName();
-      MergeSplitBulkloadInfo bulkloadInfo =
-        toBulkload.computeIfAbsent(srcTable, MergeSplitBulkloadInfo::new);
-      String regionName = bulkLoad.getRegion();
-      String fam = bulkLoad.getColumnFamily();
-      String filename = FilenameUtils.getName(bulkLoad.getHfilePath());
+    if (!backupInfo.isContinuousBackupEnabled()) {
+      bulkLoads = backupManager.readBulkloadRows(tablesToBackup);
+      for (BulkLoad bulkLoad : bulkLoads) {
+        TableName srcTable = bulkLoad.getTableName();
+        MergeSplitBulkloadInfo bulkloadInfo =
+          toBulkload.computeIfAbsent(srcTable, MergeSplitBulkloadInfo::new);
+        String regionName = bulkLoad.getRegion();
+        String fam = bulkLoad.getColumnFamily();
+        String filename = FilenameUtils.getName(bulkLoad.getHfilePath());
+
+        if (!tablesToBackup.contains(srcTable)) {
+          LOG.debug("Skipping {} since it is not in tablesToBackup", srcTable);
+          continue;
+        }
+        Path tblDir = CommonFSUtils.getTableDir(rootdir, srcTable);
+        Path p = new Path(tblDir, regionName + Path.SEPARATOR + fam + Path.SEPARATOR + filename);
+
+        String srcTableQualifier = srcTable.getQualifierAsString();
+        String srcTableNs = srcTable.getNamespaceAsString();
+        Path tgtFam = new Path(tgtRoot, srcTableNs + Path.SEPARATOR + srcTableQualifier
+          + Path.SEPARATOR + regionName + Path.SEPARATOR + fam);
+        if (!tgtFs.mkdirs(tgtFam)) {
+          throw new IOException("couldn't create " + tgtFam);
+        }
+        Path tgt = new Path(tgtFam, filename);
+
+        Path archiveDir = HFileArchiveUtil.getStoreArchivePath(conf, srcTable, regionName, fam);
+        Path archive = new Path(archiveDir, filename);
 
-      if (!tablesToBackup.contains(srcTable)) {
-        LOG.debug("Skipping {} since it is not in tablesToBackup", srcTable);
-        continue;
-      }
-      Path tblDir = CommonFSUtils.getTableDir(rootdir, srcTable);
-      Path p = new Path(tblDir, regionName + Path.SEPARATOR + fam + Path.SEPARATOR + filename);
-
-      // For continuous backup: bulkload files are copied from backup directory defined by
-      // CONF_CONTINUOUS_BACKUP_WAL_DIR instead of source cluster.
-      String backupRootDir = conf.get(CONF_CONTINUOUS_BACKUP_WAL_DIR);
-      if (backupInfo.isContinuousBackupEnabled() && !Strings.isNullOrEmpty(backupRootDir)) {
-        String dayDirectoryName = BackupUtils.formatToDateString(bulkLoad.getTimestamp());
-        Path bulkLoadBackupPath =
-          new Path(backupRootDir, BULKLOAD_FILES_DIR + Path.SEPARATOR + dayDirectoryName);
-        Path bulkLoadDir = new Path(bulkLoadBackupPath,
-          srcTable.getNamespaceAsString() + Path.SEPARATOR + srcTable.getNameAsString());
-        FileSystem backupFs = FileSystem.get(bulkLoadDir.toUri(), conf);
-        Path fullBulkLoadBackupPath =
-          new Path(bulkLoadDir, regionName + Path.SEPARATOR + fam + Path.SEPARATOR + filename);
-        if (backupFs.exists(fullBulkLoadBackupPath)) {
-          LOG.debug("Backup bulkload file found {}", fullBulkLoadBackupPath);
-          p = fullBulkLoadBackupPath;
-        } else {
-          LOG.warn("Backup bulkload file not found {}", fullBulkLoadBackupPath);
+        if (fs.exists(p)) {
+          if (LOG.isTraceEnabled()) {
+            LOG.trace("found bulk hfile {} in {} for {}", bulkLoad.getHfilePath(), p.getParent(),
+              srcTableQualifier);
+            LOG.trace("copying {} to {}", p, tgt);
+          }
+          bulkloadInfo.addActiveFile(p.toString());
+        } else if (fs.exists(archive)) {
+          LOG.debug("copying archive {} to {}", archive, tgt);
+          bulkloadInfo.addArchiveFiles(archive.toString());
         }
       }
 
-      String srcTableQualifier = srcTable.getQualifierAsString();
-      String srcTableNs = srcTable.getNamespaceAsString();
-      Path tgtFam = new Path(tgtRoot, srcTableNs + Path.SEPARATOR + srcTableQualifier
-        + Path.SEPARATOR + regionName + Path.SEPARATOR + fam);
-      if (!tgtFs.mkdirs(tgtFam)) {
-        throw new IOException("couldn't create " + tgtFam);
+      for (MergeSplitBulkloadInfo bulkloadInfo : toBulkload.values()) {
+        mergeSplitAndCopyBulkloadedHFiles(bulkloadInfo.getActiveFiles(),
+          bulkloadInfo.getArchiveFiles(), bulkloadInfo.getSrcTable(), tgtFs);
       }
-      Path tgt = new Path(tgtFam, filename);
+    } else {
+      // Continuous incremental backup: run BulkLoadCollectorJob over backed-up WALs
+      Path collectorOutput = new Path(getBulkOutputDir(), BULKLOAD_COLLECTOR_OUTPUT);
+      for (TableName table : tablesToBackup) {
+        String walDirsCsv = String.join(",", tablesToWALFileList.get(table));
-        String walDirsCsv = String.join(",", tablesToWALFileList.get(table));
+        List<String> walDirs = tablesToWALFileList.get(table);
+        String walDirsCsv = String.join(",", walDirs != null ? walDirs : java.util.Collections.emptyList());
-        String walDirsCsv = String.join(",", tablesToWALFileList.get(table));
+        List<String> walDirs = tablesToWALFileList.get(table);
+        String walDirsCsv = String.join(",", walDirs != null ? walDirs : java.util.Collections.emptyList());
 
-      Path archiveDir = HFileArchiveUtil.getStoreArchivePath(conf, srcTable, regionName, fam);
-      Path archive = new Path(archiveDir, filename);
+        List<Path> bulkloadPaths =
+          BulkFilesCollector.collectFromWalDirs(conf, walDirsCsv, collectorOutput, table, table,
+            tablesToPrevBackupTs.get(table), backupInfo.getIncrCommittedWalTs());
-            tablesToPrevBackupTs.get(table), backupInfo.getIncrCommittedWalTs());
+            tablesToPrevBackupTs.get(table) != null ? tablesToPrevBackupTs.get(table) : 0L, backupInfo.getIncrCommittedWalTs());
-            tablesToPrevBackupTs.get(table), backupInfo.getIncrCommittedWalTs());
+            tablesToPrevBackupTs.get(table) != null ? tablesToPrevBackupTs.get(table) : 0L, backupInfo.getIncrCommittedWalTs());
 
-      if (fs.exists(p)) {
-        if (LOG.isTraceEnabled()) {
-          LOG.trace("found bulk hfile {} in {} for {}", bulkLoad.getHfilePath(), p.getParent(),
-            srcTableQualifier);
-          LOG.trace("copying {} to {}", p, tgt);
+        List<String> bulkLoadFiles =
+          bulkloadPaths.stream().map(Path::toString).collect(Collectors.toList());
+
+        if (bulkLoadFiles.isEmpty()) {
+          LOG.info("No bulk-load files found for table {}", table);
+        } else {
+          mergeSplitAndCopyBulkloadedHFiles(bulkLoadFiles, table, tgtFs);
         }
-        if (bulkLoadFiles.isEmpty()) {
-          LOG.info("No bulk-load files found for table {}", table);
-        } else {
-          mergeSplitAndCopyBulkloadedHFiles(bulkLoadFiles, table, tgtFs);
-        }
+        if (bulkLoadFiles.isEmpty()) {
+          LOG.info("No bulk-load files found for table {}", table);
+          continue;
+        } 
+        mergeSplitAndCopyBulkloadedHFiles(bulkLoadFiles, table, tgtFs);
-        if (bulkLoadFiles.isEmpty()) {
-          LOG.info("No bulk-load files found for table {}", table);
-        } else {
-          mergeSplitAndCopyBulkloadedHFiles(bulkLoadFiles, table, tgtFs);
-        }
+        if (bulkLoadFiles.isEmpty()) {
+          LOG.info("No bulk-load files found for table {}", table);
+          continue;
+        } 
+        mergeSplitAndCopyBulkloadedHFiles(bulkLoadFiles, table, tgtFs);
-        bulkloadInfo.addActiveFile(p.toString());
-      } else if (fs.exists(archive)) {
-        LOG.debug("copying archive {} to {}", archive, tgt);
-        bulkloadInfo.addArchiveFiles(archive.toString());
       }
     }
-
-    for (MergeSplitBulkloadInfo bulkloadInfo : toBulkload.values()) {
-      mergeSplitAndCopyBulkloadedHFiles(bulkloadInfo.getActiveFiles(),
-        bulkloadInfo.getArchiveFiles(), bulkloadInfo.getSrcTable(), tgtFs);
-    }
-
     return bulkLoads;
   }
 
@@ -306,6 +307,9 @@ private void updateFileLists(List<String> activeFiles, List<String> archiveFiles
    */
   @Override
   public void execute() throws IOException, ColumnFamilyMismatchException {
+    // tablesToWALFileList and tablesToPrevBackupTs are needed for "continuous" Incremental backup
+    Map<TableName, List<String>> tablesToWALFileList = new HashMap<>();
+    Map<TableName, Long> tablesToPrevBackupTs = new HashMap<>();
     try {
       Map<TableName, String> tablesToFullBackupIds = getFullBackupIds();
       verifyCfCompatibility(backupInfo.getTables(), tablesToFullBackupIds);
@@ -339,7 +343,7 @@ public void execute() throws IOException, ColumnFamilyMismatchException {
       BackupUtils.copyTableRegionInfo(conn, backupInfo, conf);
       setupRegionLocator();
       // convert WAL to HFiles and copy them to .tmp under BACKUP_ROOT
-      convertWALsToHFiles();
+      convertWALsToHFiles(tablesToWALFileList, tablesToPrevBackupTs);
       incrementalCopyHFiles(new String[] { getBulkOutputDir().toString() },
         backupInfo.getBackupRootDir());
     } catch (Exception e) {
@@ -371,7 +375,8 @@ public void execute() throws IOException, ColumnFamilyMismatchException {
         backupManager.writeBackupStartCode(newStartCode);
       }
 
-      List<BulkLoad> bulkLoads = handleBulkLoad(backupInfo.getTableNames());
+      List<BulkLoad> bulkLoads =
+        handleBulkLoad(backupInfo.getTableNames(), tablesToWALFileList, tablesToPrevBackupTs);
 
       // backup complete
       completeBackup(conn, backupInfo, BackupType.INCREMENTAL, conf);
@@ -425,10 +430,13 @@ protected void deleteBulkLoadDirectory() throws IOException {
     }
   }
 
-  protected void convertWALsToHFiles() throws IOException {
+  protected void convertWALsToHFiles(Map<TableName, List<String>> tablesToWALFileList,
+    Map<TableName, Long> tablesToPrevBackupTs) throws IOException {
     long previousBackupTs = 0L;
+    long currentBackupTs = 0L;
     if (backupInfo.isContinuousBackupEnabled()) {
       Set<TableName> tableSet = backupInfo.getTables();
+      currentBackupTs = backupInfo.getIncrCommittedWalTs();
       List<BackupInfo> backupInfos = backupManager.getBackupHistory(true);
       for (TableName table : tableSet) {
         for (BackupInfo backup : backupInfos) {
@@ -442,7 +450,9 @@ protected void convertWALsToHFiles() throws IOException {
             } else {
               previousBackupTs = backup.getIncrCommittedWalTs();
             }
-            walBackupFileList = getBackupLogs(previousBackupTs);
+            walBackupFileList = getBackupLogs(previousBackupTs, currentBackupTs);
+            tablesToWALFileList.put(table, walBackupFileList);
+            tablesToPrevBackupTs.put(table, previousBackupTs);
             walToHFiles(walBackupFileList, Arrays.asList(table.getNameAsString()),
               previousBackupTs);
             break;
@@ -469,7 +479,7 @@ protected void convertWALsToHFiles() throws IOException {
     }
   }
 
-  private List<String> getBackupLogs(long startTs) throws IOException {
+  private List<String> getBackupLogs(long startTs, long endTs) throws IOException {
     // get log files from backup dir
     String walBackupDir = conf.get(CONF_CONTINUOUS_BACKUP_WAL_DIR);
     if (Strings.isNullOrEmpty(walBackupDir)) {
@@ -494,7 +504,7 @@ private List<String> getBackupLogs(long startTs) throws IOException {
         long dirStartTime = dirDate.getTime(); // Start of that day (00:00:00)
         long dirEndTime = dirStartTime + ONE_DAY_IN_MILLISECONDS - 1; // End time of day (23:59:59)
 
-        if (dirEndTime >= startTs) {
+        if (dirEndTime >= startTs && dirStartTime <= endTs) {
           Path dirPath = dayDir.getPath();
           FileStatus[] logs = backupFs.listStatus(dirPath);
           for (FileStatus log : logs) {
@@ -533,11 +543,7 @@ protected void walToHFiles(List<String> dirPaths, List<String> tableList, long p
     conf.set(JOB_NAME_CONF_KEY, jobname);
     if (backupInfo.isContinuousBackupEnabled()) {
       conf.set(WALInputFormat.START_TIME_KEY, Long.toString(previousBackupTs));
-      // committedWALsTs is needed only for Incremental backups with continuous backup
-      // since these do not depend on log roll ts
-      long committedWALsTs = BackupUtils.getReplicationCheckpoint(conn);
-      backupInfo.setIncrCommittedWalTs(committedWALsTs);
-      conf.set(WALInputFormat.END_TIME_KEY, Long.toString(committedWALsTs));
+      conf.set(WALInputFormat.END_TIME_KEY, Long.toString(backupInfo.getIncrCommittedWalTs()));
     }
     String[] playerArgs = { dirs, StringUtils.join(tableList, ",") };
 

diff --git a/hbase-backup/src/main/java/org/apache/hadoop/hbase/backup/impl/TableBackupClient.java b/hbase-backup/src/main/java/org/apache/hadoop/hbase/backup/impl/TableBackupClient.java
@@ -38,6 +38,7 @@
 import org.apache.hadoop.hbase.backup.BackupType;
 import org.apache.hadoop.hbase.backup.HBackupFileSystem;
 import org.apache.hadoop.hbase.backup.impl.BackupManifest.BackupImage;
+import org.apache.hadoop.hbase.backup.util.BackupUtils;
 import org.apache.hadoop.hbase.client.Admin;
 import org.apache.hadoop.hbase.client.Connection;
 import org.apache.hadoop.hbase.util.CommonFSUtils;
@@ -113,6 +114,12 @@ protected void beginBackup(BackupManager backupManager, BackupInfo backupInfo)
     // set the start timestamp of the overall backup
     long startTs = EnvironmentEdgeManager.currentTime();
     backupInfo.setStartTs(startTs);
+    if (backupInfo.getType() == BackupType.INCREMENTAL && backupInfo.isContinuousBackupEnabled()) {
+      // committedWALsTs is needed only for Incremental backups with continuous backup
+      // since these do not depend on log roll ts
+      long committedWALsTs = BackupUtils.getReplicationCheckpoint(conn);
+      backupInfo.setIncrCommittedWalTs(committedWALsTs);
+    }
     // set overall backup status: ongoing
     backupInfo.setState(BackupState.RUNNING);
     backupInfo.setPhase(BackupPhase.REQUEST);

diff --git a/...e-backup/src/main/java/org/apache/hadoop/hbase/backup/mapreduce/BulkLoadCollectorJob.java b/...e-backup/src/main/java/org/apache/hadoop/hbase/backup/mapreduce/BulkLoadCollectorJob.java
@@ -75,7 +75,7 @@ public class BulkLoadCollectorJob extends Configured implements Tool {
   public BulkLoadCollectorJob() {
   }
 
-  protected BulkLoadCollectorJob(final Configuration c) {
+  public BulkLoadCollectorJob(final Configuration c) {
     super(c);
   }
 

diff --git a/hbase-backup/src/test/java/org/apache/hadoop/hbase/backup/TestBackupBase.java b/hbase-backup/src/test/java/org/apache/hadoop/hbase/backup/TestBackupBase.java
@@ -175,7 +175,7 @@ public void execute() throws IOException {
         // copy out the table and region info files for each table
         BackupUtils.copyTableRegionInfo(conn, backupInfo, conf);
         // convert WAL to HFiles and copy them to .tmp under BACKUP_ROOT
-        convertWALsToHFiles();
+        convertWALsToHFiles(new HashMap<>(), new HashMap<>());
         incrementalCopyHFiles(new String[] { getBulkOutputDir().toString() },
           backupInfo.getBackupRootDir());
         failStageIf(Stage.stage_2);
@@ -200,7 +200,7 @@ public void execute() throws IOException {
           BackupUtils.getMinValue(BackupUtils.getRSLogTimestampMins(newTableSetTimestampMap));
         backupManager.writeBackupStartCode(newStartCode);
 
-        handleBulkLoad(backupInfo.getTableNames());
+        handleBulkLoad(backupInfo.getTableNames(), new HashMap<>(), new HashMap<>());
         failStageIf(Stage.stage_4);
 
         // backup complete

diff --git a/...kup/src/test/java/org/apache/hadoop/hbase/backup/TestIncrementalBackupWithContinuous.java b/...kup/src/test/java/org/apache/hadoop/hbase/backup/TestIncrementalBackupWithContinuous.java
@@ -163,20 +163,18 @@ public void testIncrementalBackupCopyingBulkloadTillIncrCommittedWalTs() throws
       performBulkLoad("bulkPreIncr", methodName, tableName1);
       expectedRowCount += ROWS_IN_BULK_LOAD;
       assertEquals(expectedRowCount, TEST_UTIL.countRows(tableName1));
-      assertEquals(1, systemTable.readBulkloadRows(List.of(tableName1)).size());
+      assertTrue(systemTable.readBulkloadRows(List.of(tableName1)).isEmpty());
       loadTable(TEST_UTIL.getConnection().getTable(tableName1));
       Thread.sleep(15000);
 
       performBulkLoad("bulkPostIncr", methodName, tableName1);
-      assertEquals(2, systemTable.readBulkloadRows(List.of(tableName1)).size());
+      assertTrue(systemTable.readBulkloadRows(List.of(tableName1)).isEmpty());
 
       // Incremental backup
       String backup2 =
         backupTables(BackupType.INCREMENTAL, List.of(tableName1), BACKUP_ROOT_DIR, true);
       assertTrue(checkSucceeded(backup2));
-
-      // bulkPostIncr Bulkload entry should not be deleted post incremental backup
-      assertEquals(1, systemTable.readBulkloadRows(List.of(tableName1)).size());
+      assertTrue(systemTable.readBulkloadRows(List.of(tableName1)).isEmpty());
 
       TEST_UTIL.truncateTable(tableName1);
       // Restore incremental backup