Do not consume unnecessary memory during sharding

janEbert · janEbert · commit afeaa9afba41 · 2024-09-04T21:28:19.000+02:00
There is no need to create a temporary list of a potentially very large
step/world size.
diff --git a/src/datasets/iterable_dataset.py b/src/datasets/iterable_dataset.py
@@ -556,12 +556,7 @@ def _init_state_dict(self) -> dict:
 
     def __iter__(self):
         ex_iterator = iter(self.ex_iterable)
-        while True:
-            batch = list(islice(ex_iterator, self.step))
-            if len(batch) > self.offset:
-                yield batch[self.offset]
-            else:
-                break
+        return islice(ex_iterator, self.offset, None, self.step)
 
     def shuffle_data_sources(self, generator: np.random.Generator) -> "StepExamplesIterable":
         return StepExamplesIterable(