diff --git a/lib/sycamore/sycamore/docset.py b/lib/sycamore/sycamore/docset.py
index 495f5381b..c63b3a297 100644
--- a/lib/sycamore/sycamore/docset.py
+++ b/lib/sycamore/sycamore/docset.py
@@ -8,7 +8,8 @@
 from sycamore.context import Context, context_params, OperationTypes
 from sycamore.data import Document, Element, MetadataDocument
 from sycamore.functions.tokenizer import Tokenizer
-from sycamore.llms.llms import LLM
+from sycamore.llms.llms import LLM, LLMMode
+from sycamore.llms.prompts import SycamorePrompt
 from sycamore.llms.prompts.default_prompts import (
     LlmClusterEntityAssignGroupsMessagesPrompt,
     LlmClusterEntityFormGroupsMessagesPrompt,
@@ -29,6 +30,7 @@
 from sycamore.transforms.extract_table import TableExtractor
 from sycamore.transforms.merge_elements import ElementMerger
 from sycamore.utils.extract_json import extract_json
+from sycamore.utils.deprecate import deprecated
 from sycamore.transforms.query import QueryExecutor, Query
 from sycamore.materialize_config import MaterializeSourceMode
 
@@ -465,6 +467,7 @@ def extract_document_structure(self, structure: DocumentStructure, **kwargs):
         document_structure = ExtractDocumentStructure(self.plan, structure=structure, **kwargs)
         return DocSet(self.context, document_structure)
 
+    @deprecated(version="0.1.31", reason="Use llm_map instead")
     def extract_entity(self, entity_extractor: EntityExtractor, **kwargs) -> "DocSet":
         """
         Applies the ExtractEntity transform on the Docset.
@@ -489,10 +492,8 @@ def extract_entity(self, entity_extractor: EntityExtractor, **kwargs) -> "DocSet
                      .extract_entity(entity_extractor=entity_extractor)
 
         """
-        from sycamore.transforms import ExtractEntity
-
-        entities = ExtractEntity(self.plan, context=self.context, entity_extractor=entity_extractor, **kwargs)
-        return DocSet(self.context, entities)
+        llm_map = entity_extractor.as_llm_map(self.plan, context=self.context, **kwargs)
+        return DocSet(self.context, llm_map)
 
     def extract_schema(self, schema_extractor: SchemaExtractor, **kwargs) -> "DocSet":
         """
@@ -948,6 +949,42 @@ def custom_flat_mapping_function(document: Document) -> list[Document]:
         flat_map = FlatMap(self.plan, f=f, **resource_args)
         return DocSet(self.context, flat_map)
 
+    def llm_map(
+        self, prompt: SycamorePrompt, output_field: str, llm: LLM, llm_mode: LLMMode = LLMMode.SYNC, **kwargs
+    ) -> "DocSet":
+        """
+        Renders and runs a prompt on every Document of the DocSet.
+
+        Args:
+            prompt: The prompt to use. Must implement the ``render_document`` method
+            output_field: Field in properties to store the output.
+            llm: LLM to use for the inferences.
+            llm_mode: how to make the api calls to the llm - sync/async/batch
+        """
+        from sycamore.transforms.base_llm import LLMMap
+
+        llm_map = LLMMap(self.plan, prompt=prompt, output_field=output_field, llm=llm, llm_mode=llm_mode, **kwargs)
+        return DocSet(self.context, llm_map)
+
+    def llm_map_elements(
+        self, prompt: SycamorePrompt, output_field: str, llm: LLM, llm_mode: LLMMode = LLMMode.SYNC, **kwargs
+    ) -> "DocSet":
+        """
+        Renders and runs a prompt on every Element of every Document in the DocSet.
+
+        Args:
+            prompt: The prompt to use. Must implement the ``render_document`` method
+            output_field: Field in properties to store the output.
+            llm: LLM to use for the inferences.
+            llm_mode: how to make the api calls to the llm - sync/async/batch
+        """
+        from sycamore.transforms.base_llm import LLMMapElements
+
+        llm_map_elements = LLMMapElements(
+            self.plan, prompt=prompt, output_field=output_field, llm=llm, llm_mode=llm_mode, **kwargs
+        )
+        return DocSet(self.context, llm_map_elements)
+
     def filter(self, f: Callable[[Document], bool], **kwargs) -> "DocSet":
         """
         Applies the Filter transform on the Docset.
@@ -1356,7 +1393,7 @@ def llm_cluster_entity(self, llm: LLM, instruction: str, field: str, **kwargs) -
         prompt_kwargs = {"messages": messages}
 
         # call to LLM
-        completion = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
+        completion = llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
 
         groups = extract_json(completion)
 
diff --git a/lib/sycamore/sycamore/evaluation/subtasks.py b/lib/sycamore/sycamore/evaluation/subtasks.py
index f7db14f89..81189c4cd 100644
--- a/lib/sycamore/sycamore/evaluation/subtasks.py
+++ b/lib/sycamore/sycamore/evaluation/subtasks.py
@@ -5,7 +5,7 @@
 from sycamore.docset import DocSet
 from sycamore.llms.llms import LLM
 from sycamore.llms.openai import OpenAI, OpenAIModels
-from sycamore.llms.prompts.default_prompts import SimpleGuidancePrompt, TaskIdentifierZeroShotGuidancePrompt
+from sycamore.llms.prompts.default_prompts import SimplePrompt, _TaskIdentifierZeroShotGuidancePrompt
 from sycamore.transforms.embed import Embedder, SentenceTransformerEmbedder
 from sycamore.transforms.query import QueryExecutor
 
@@ -22,7 +22,7 @@ def __init__(
             model_name="sentence-transformers/all-MiniLM-L6-v2", batch_size=100
         ),
         llm: LLM = OpenAI(OpenAIModels.GPT_3_5_TURBO.value),
-        prompt: SimpleGuidancePrompt = TaskIdentifierZeroShotGuidancePrompt(),
+        prompt: SimplePrompt = _TaskIdentifierZeroShotGuidancePrompt(),
         knn_query: bool = False,
     ):
         if subtask_data:
@@ -44,7 +44,7 @@ def __init__(
     def _get_formulas(self, document: Document) -> list[Document]:
         f_list = []
         if document.properties["subtasks_reqd"]:
-            task_id = self._llm.generate(
+            task_id = self._llm.generate_old(
                 prompt_kwargs={
                     "prompt": self._prompt,
                     "question": document["question"],
diff --git a/lib/sycamore/sycamore/llms/anthropic.py b/lib/sycamore/sycamore/llms/anthropic.py
index ec400e9a0..1f56cbac0 100644
--- a/lib/sycamore/sycamore/llms/anthropic.py
+++ b/lib/sycamore/sycamore/llms/anthropic.py
@@ -6,7 +6,7 @@
 from PIL import Image
 
 from sycamore.llms.llms import LLM
-from sycamore.llms.prompts.default_prompts import SimplePrompt
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.utils.cache import Cache
 from sycamore.utils.image_utils import base64_data
 from sycamore.utils.import_utils import requires_modules
@@ -49,29 +49,54 @@ def rewrite_system_messages(messages: Optional[list[dict]]) -> Optional[list[dic
     return [m for m in messages if m.get("role") != "system"]
 
 
-def get_generate_kwargs(prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> dict:
+def get_generate_kwargs(prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> dict:
     kwargs = {
         "temperature": 0,
         **(llm_kwargs or {}),
     }
-
     kwargs["max_tokens"] = kwargs.get("max_tokens", DEFAULT_MAX_TOKENS)
 
-    if "prompt" in prompt_kwargs:
-        prompt = prompt_kwargs.get("prompt")
-
-        if isinstance(prompt, SimplePrompt):
-            kwargs.update({"messages": prompt.as_messages(prompt_kwargs)})
+    # Anthropic models require _exactly_ alternation between "user" and "assistant"
+    # roles, so we break the messages into groups of consecutive user/assistant
+    # messages, treating "system" as "user". Then crunch each group down to a single
+    # message to ensure alternation.
+    message_groups = []  # type: ignore
+    last_role = None
+
+    for m in prompt.messages:
+        r = m.role
+        if r == "system":
+            r = "user"
+        if r != last_role:
+            message_groups.append([])
+        message_groups[-1].append(m)
+        last_role = r
+
+    messages = []
+    for group in message_groups:
+        role = group[0].role
+        if role == "system":
+            role = "user"
+        content = "\n".join(m.content for m in group)
+        if any(m.images is not None for m in group):
+            images = [im for m in group for im in m.images]
+            contents = [{"type": "text", "text": content}]
+            for im in images:
+                contents.append(
+                    {  # type: ignore
+                        "type": "image",
+                        "source": {  # type: ignore
+                            "type": "base64",
+                            "media_type": "image/png",
+                            "data": base64_data(im),
+                        },
+                    }
+                )
+            messages.append({"role": role, "content": contents})
         else:
-            kwargs.update({"messages": [{"role": "user", "content": f"{prompt}"}]})
-
-    elif "messages" in prompt_kwargs:
-        kwargs.update({"messages": prompt_kwargs["messages"]})
-    else:
-        raise ValueError("Either prompt or messages must be present in prompt_kwargs.")
-
-    kwargs["messages"] = rewrite_system_messages(kwargs["messages"])
+            messages.append({"role": role, "content": content})
 
+    kwargs["messages"] = messages
     return kwargs
 
 
@@ -128,12 +153,12 @@ def is_chat_mode(self) -> bool:
     def format_image(self, image: Image.Image) -> dict[str, Any]:
         return format_image(image)
 
-    def generate_metadata(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> dict:
-        ret = self._llm_cache_get(prompt_kwargs, llm_kwargs)
+    def generate_metadata(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> dict:
+        ret = self._llm_cache_get(prompt, llm_kwargs)
         if isinstance(ret, dict):
             return ret
 
-        kwargs = get_generate_kwargs(prompt_kwargs, llm_kwargs)
+        kwargs = get_generate_kwargs(prompt, llm_kwargs)
 
         start = datetime.now()
 
@@ -153,9 +178,9 @@ def generate_metadata(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] =
         self.add_llm_metadata(kwargs, output, wall_latency, in_tokens, out_tokens)
         logging.debug(f"Generated response from Anthropic model: {ret}")
 
-        self._llm_cache_set(prompt_kwargs, llm_kwargs, ret)
+        self._llm_cache_set(prompt, llm_kwargs, ret)
         return ret
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
-        d = self.generate_metadata(prompt_kwargs=prompt_kwargs, llm_kwargs=llm_kwargs)
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        d = self.generate_metadata(prompt=prompt, llm_kwargs=llm_kwargs)
         return d["output"]
diff --git a/lib/sycamore/sycamore/llms/bedrock.py b/lib/sycamore/sycamore/llms/bedrock.py
index 07855062f..41f0d7b5c 100644
--- a/lib/sycamore/sycamore/llms/bedrock.py
+++ b/lib/sycamore/sycamore/llms/bedrock.py
@@ -9,6 +9,7 @@
 
 from sycamore.llms.llms import LLM
 from sycamore.llms.anthropic import format_image, get_generate_kwargs
+from sycamore.llms.prompts.prompts import RenderedPrompt
 from sycamore.utils.cache import Cache
 
 DEFAULT_MAX_TOKENS = 1000
@@ -77,14 +78,14 @@ def format_image(self, image: Image.Image) -> dict[str, Any]:
             return format_image(image)
         raise NotImplementedError("Images not supported for non-Anthropic Bedrock models.")
 
-    def generate_metadata(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> dict:
-        ret = self._llm_cache_get(prompt_kwargs, llm_kwargs)
+    def generate_metadata(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> dict:
+        ret = self._llm_cache_get(prompt, llm_kwargs)
         if isinstance(ret, dict):
             print(f"cache return {ret}")
             return ret
         assert ret is None
 
-        kwargs = get_generate_kwargs(prompt_kwargs, llm_kwargs)
+        kwargs = get_generate_kwargs(prompt, llm_kwargs)
         if self._model_name.startswith("anthropic."):
             anthropic_version = (
                 DEFAULT_ANTHROPIC_VERSION
@@ -115,9 +116,9 @@ def generate_metadata(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] =
             "out_tokens": out_tokens,
         }
         self.add_llm_metadata(kwargs, output, wall_latency, in_tokens, out_tokens)
-        self._llm_cache_set(prompt_kwargs, llm_kwargs, ret)
+        self._llm_cache_set(prompt, llm_kwargs, ret)
         return ret
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
-        d = self.generate_metadata(prompt_kwargs=prompt_kwargs, llm_kwargs=llm_kwargs)
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        d = self.generate_metadata(prompt=prompt, llm_kwargs=llm_kwargs)
         return d["output"]
diff --git a/lib/sycamore/sycamore/llms/llms.py b/lib/sycamore/sycamore/llms/llms.py
index a3e1c4743..070c60098 100644
--- a/lib/sycamore/sycamore/llms/llms.py
+++ b/lib/sycamore/sycamore/llms/llms.py
@@ -1,10 +1,23 @@
+import inspect
 from abc import ABC, abstractmethod
+from enum import Enum
 import pickle
+import base64
 from PIL import Image
 from typing import Any, Optional
+import pydantic
 from sycamore.utils.cache import Cache
 from sycamore.utils.thread_local import ThreadLocalAccess, ADD_METADATA_TO_OUTPUT
 from sycamore.data.metadata import add_metadata
+from sycamore.llms.prompts import RenderedPrompt, RenderedMessage, SimplePrompt
+
+from sycamore.utils.deprecate import deprecated
+
+
+class LLMMode(Enum):
+    SYNC = 1
+    ASYNC = 2
+    BATCH = 3
 
 
 class LLM(ABC):
@@ -15,10 +28,32 @@ def __init__(self, model_name, cache: Optional[Cache] = None):
         self._cache = cache
 
     @abstractmethod
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
         """Generates a response from the LLM for the given prompt and LLM parameters."""
         pass
 
+    @deprecated(version="0.1.31", reason="Use generate, with a RenderedPrompt, instead")
+    def generate_old(self, *, prompt_kwargs: dict[str, Any], llm_kwargs: Optional[dict] = None) -> str:
+        """Generates a response from the LLM"""
+        if "prompt" in prompt_kwargs:
+            prompt = prompt_kwargs.get("prompt")
+            if isinstance(prompt, SimplePrompt):
+                prompt = prompt.as_messages()
+                for idx, prompt_message in enumerate(prompt):
+                    prompt[idx]["content"] = prompt_message["content"].format(**prompt_kwargs)
+                rendered = RenderedPrompt(
+                    messages=[RenderedMessage(role=m["role"], content=m["content"]) for m in prompt]
+                )
+            else:
+                rendered = RenderedPrompt(messages=[RenderedMessage(role="user", content=f"{prompt}")])
+        elif "messages" in prompt_kwargs:
+            ms = prompt_kwargs.get("messages", [])
+            messages = [RenderedMessage(role=m["role"], content=m["content"]) for m in ms]
+            rendered = RenderedPrompt(messages=messages)
+        else:
+            raise ValueError("Either 'prompt' or 'messages' must be specified in prompt_kwargs")
+        return self.generate(prompt=rendered, llm_kwargs=llm_kwargs)
+
     @abstractmethod
     def is_chat_mode(self) -> bool:
         """Returns True if the LLM is in chat mode, False otherwise."""
@@ -28,17 +63,52 @@ def format_image(self, image: Image.Image) -> dict[str, Any]:
         """Returns a dictionary containing the specified image suitable for use in an LLM message."""
         raise NotImplementedError("This LLM does not support images.")
 
-    async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+    async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
         """Generates a response from the LLM for the given prompt and LLM parameters asynchronously."""
         raise NotImplementedError("This LLM does not support asynchronous generation.")
 
+    @deprecated(version="0.1.31", reason="Use generate_async, with a RenderedPrompt, instead")
+    async def generate_async_old(self, *, prompt_kwargs: dict[str, Any], llm_kwargs: Optional[dict] = None) -> str:
+        if "prompt" in prompt_kwargs:
+            prompt = prompt_kwargs.get("prompt")
+            if isinstance(prompt, SimplePrompt):
+                prompt = prompt.as_messages()
+                for idx, prompt_message in enumerate(prompt):
+                    prompt[idx]["content"] = prompt_message["content"].format(**prompt_kwargs)
+                rendered = RenderedPrompt(
+                    messages=[RenderedMessage(role=m["role"], content=m["content"]) for m in prompt]
+                )
+            else:
+                rendered = RenderedPrompt(messages=[RenderedMessage(role="user", content=f"{prompt}")])
+        elif "messages" in prompt_kwargs:
+            ms = prompt_kwargs.get("messages", [])
+            messages = [RenderedMessage(role=m["role"], content=m["content"]) for m in ms]
+            rendered = RenderedPrompt(messages=messages)
+        else:
+            raise ValueError("Either 'prompt' or 'messages' must be specified in prompt_kwargs")
+        return await self.generate_async(prompt=rendered, llm_kwargs=llm_kwargs)
+
     def __str__(self):
         return f"{self.__class__.__name__}({self._model_name})"
 
-    def _llm_cache_key(self, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+    @staticmethod
+    def _pickleable_response_format(prompt: RenderedPrompt) -> Any:
+        if inspect.isclass(prompt.response_format) and issubclass(prompt.response_format, pydantic.BaseModel):
+            return prompt.response_format.model_json_schema()
+        else:
+            return prompt.response_format
+
+    def _llm_cache_key(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
         """Return a cache key for the given prompt and LLM parameters."""
         assert self._cache
-        combined = {"prompt_kwargs": prompt_kwargs, "llm_kwargs": llm_kwargs, "model_name": self._model_name}
+        rf = self._pickleable_response_format(prompt)
+        ms = prompt.messages
+        combined = {
+            "prompt": RenderedPrompt(messages=ms),
+            "prompt.response_format": rf,
+            "llm_kwargs": llm_kwargs,
+            "model_name": self._model_name,
+        }
         data = pickle.dumps(combined)
         return self._cache.get_hash_context(data).hexdigest()
 
@@ -50,47 +120,56 @@ def _use_caching(self, llm_kwargs: Optional[dict]):
         # Only cache when temperature setting is zero.
         return llm_kwargs.get("temperature", 0) == 0
 
-    def _llm_cache_get(self, prompt_kwargs: dict, llm_kwargs: Optional[dict]) -> Any:
+    def _llm_cache_get(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict]) -> Any:
         """Get a cached result for the given prompt and LLM parameters. Returns the cached
         result if found, or otherwise None."""
         if not self._use_caching(llm_kwargs):
             return None
         assert self._cache is not None, "make mypy happy"
 
-        key = self._llm_cache_key(prompt_kwargs, llm_kwargs)
+        key = self._llm_cache_key(prompt, llm_kwargs)
         hit = self._cache.get(key)
         if hit:
+            hit = base64.b64decode(hit)
+            hit = pickle.loads(hit)
             assert (
-                len(hit) == 4
-                and hit.get("prompt_kwargs") == prompt_kwargs
+                len(hit) == 5
+                and hit.get("prompt") == RenderedPrompt(messages=prompt.messages)
+                and hit.get("prompt.response_format") == self._pickleable_response_format(prompt)
                 and hit.get("llm_kwargs") == llm_kwargs
                 and hit.get("model_name") == self._model_name
                 and "result" in hit
             ), f"""
             Found LLM cache content mismatch:
             key={key}
-            prompt_kwargs={prompt_kwargs}, cached={hit.get("prompt_kwargs")}
+            prompt={prompt}, cached={hit.get("prompt")}
+                             cached_response_format={hit.get("prompt.response_format")}
             llm_kwargs={llm_kwargs}, cached={hit.get("llm_kwargs")}
             model_name={self._model_name}, cached={hit.get("model_name")}
             Complete hit: {hit}"""
             return hit.get("result")
         return None
 
-    def _llm_cache_set(self, prompt_kwargs: dict, llm_kwargs: Optional[dict], result: Any) -> None:
+    def _llm_cache_set(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict], result: Any) -> None:
         """Set a cached result for the given key."""
         if not self._use_caching(llm_kwargs):
             return
         assert self._cache is not None, "make mypy happy"
 
-        key = self._llm_cache_key(prompt_kwargs, llm_kwargs)
-        self._cache.set(
-            key,
+        key = self._llm_cache_key(prompt, llm_kwargs)
+        databytes = pickle.dumps(
             {
-                "prompt_kwargs": prompt_kwargs,
+                "prompt": RenderedPrompt(messages=prompt.messages),
+                "prompt.response_format": self._pickleable_response_format(prompt),
                 "llm_kwargs": llm_kwargs,
                 "model_name": self._model_name,
                 "result": result,
-            },
+            }
+        )
+        datastr = base64.b64encode(databytes).decode("utf-8")
+        self._cache.set(
+            key,
+            datastr,
         )
 
     def get_metadata(self, kwargs, response_text, wall_latency, in_tokens, out_tokens) -> dict:
@@ -122,7 +201,7 @@ def __init__(self, *, return_value="trivial", cache: Optional[Cache] = None):
         super().__init__("trivial", cache=cache)
         self._return_value = return_value
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
         return self._return_value
 
     def is_chat_mode(self) -> bool:
diff --git a/lib/sycamore/sycamore/llms/openai.py b/lib/sycamore/sycamore/llms/openai.py
index 6e44fd35b..7730da9ea 100644
--- a/lib/sycamore/sycamore/llms/openai.py
+++ b/lib/sycamore/sycamore/llms/openai.py
@@ -20,7 +20,7 @@
 import pydantic
 
 from sycamore.llms.llms import LLM
-from sycamore.llms.prompts import SimplePrompt
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.utils.cache import Cache
 from sycamore.utils.image_utils import base64_data_url
 
@@ -313,7 +313,7 @@ def _convert_response_format(self, llm_kwargs: Optional[Dict]) -> Optional[Dict]
             return retval
         return llm_kwargs
 
-    def _get_generate_kwargs(self, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> dict:
+    def _get_generate_kwargs(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> dict:
         kwargs = {
             "temperature": 0,
             **(llm_kwargs or {}),
@@ -321,57 +321,50 @@ def _get_generate_kwargs(self, prompt_kwargs: dict, llm_kwargs: Optional[dict] =
         if "SYCAMORE_OPENAI_USER" in os.environ:
             kwargs.update({"user": os.environ.get("SYCAMORE_OPENAI_USER")})
 
-        if "prompt" in prompt_kwargs:
-            prompt = prompt_kwargs.get("prompt")
-            if self.is_chat_mode():
-                if isinstance(prompt, SimplePrompt):
-                    prompt = prompt.as_messages()
-                    for idx, prompt_message in enumerate(prompt):
-                        prompt[idx]["content"] = prompt_message["content"].format(**prompt_kwargs)
-                    kwargs.update(
-                        {
-                            "messages": prompt,
-                        }
-                    )
-                else:
-                    kwargs.update({"messages": [{"role": "user", "content": prompt}]})
+        if not self.is_chat_mode():
+            # If plain completions model, we want a 'prompt' arg with a
+            # single string in it, not a list of messages. Make it by
+            # concatenating the messages.
+            pstring = "\n".join(m.content for m in prompt.messages)
+            kwargs.update({"prompt": pstring})
+            return kwargs
+
+        messages_list = []
+        for m in prompt.messages:
+            if m.role == "system":
+                # OpenAI docs say "developer" is the new "system"
+                # but Azure don't like that
+                role = "system"
             else:
-                if isinstance(prompt, SimplePrompt):
-                    prompt = f"{prompt.system}\n{prompt.user}"
-                kwargs.update({"prompt": prompt})
-        elif "messages" in prompt_kwargs:
-            kwargs.update({"messages": prompt_kwargs["messages"]})
-        else:
-            raise ValueError("Either prompt or messages must be present in prompt_kwargs.")
-        return kwargs
+                role = m.role
+            if m.images is None:
+                content: Union[str, list] = m.content
+            else:
+                content = [{"type": "text", "text": m.content}]
+                assert isinstance(content, list)  # mypy!!!
+                for im in m.images:
+                    content.append(self.format_image(im))
+            messages_list.append({"role": role, "content": content})
 
-    def _determine_using_beta(self, response_format: Any) -> bool:
-        if isinstance(response_format, dict) and response_format.get("type") == "json_schema":
-            return True
-        elif inspect.isclass(response_format) and issubclass(response_format, pydantic.BaseModel):
-            return True
-        else:
-            return False
+        kwargs.update({"messages": messages_list})
+        return kwargs
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
         llm_kwargs = self._convert_response_format(llm_kwargs)
-        ret = self._llm_cache_get(prompt_kwargs, llm_kwargs)
+        ret = self._llm_cache_get(prompt, llm_kwargs)
         if ret is not None:
             return ret
 
-        if llm_kwargs is not None:
-            if self._determine_using_beta(llm_kwargs.get("response_format", None)):
-                ret = self._generate_using_openai_structured(prompt_kwargs, llm_kwargs)
-            else:
-                ret = self._generate_using_openai(prompt_kwargs, llm_kwargs)
+        if prompt.response_format is not None:
+            ret = self._generate_using_openai_structured(prompt, llm_kwargs)
         else:
-            ret = self._generate_using_openai(prompt_kwargs, llm_kwargs)
+            ret = self._generate_using_openai(prompt, llm_kwargs)
 
-        self._llm_cache_set(prompt_kwargs, llm_kwargs, ret)
+        self._llm_cache_set(prompt, llm_kwargs, ret)
         return ret
 
-    def _generate_using_openai(self, prompt_kwargs, llm_kwargs) -> str:
-        kwargs = self._get_generate_kwargs(prompt_kwargs, llm_kwargs)
+    def _generate_using_openai(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict]) -> str:
+        kwargs = self._get_generate_kwargs(prompt, llm_kwargs)
         logging.debug("OpenAI prompt: %s", kwargs)
         if self.is_chat_mode():
             starttime = datetime.now()
@@ -392,9 +385,9 @@ def _generate_using_openai(self, prompt_kwargs, llm_kwargs) -> str:
             raise ValueError("OpenAI returned empty response")
         return response_text
 
-    def _generate_using_openai_structured(self, prompt_kwargs, llm_kwargs) -> str:
+    def _generate_using_openai_structured(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict]) -> str:
         try:
-            kwargs = self._get_generate_kwargs(prompt_kwargs, llm_kwargs)
+            kwargs = self._get_generate_kwargs(prompt, llm_kwargs)
             if self.is_chat_mode():
                 starttime = datetime.now()
                 completion = self.client_wrapper.get_client().beta.chat.completions.parse(
@@ -415,23 +408,24 @@ def _generate_using_openai_structured(self, prompt_kwargs, llm_kwargs) -> str:
             # 2.) The LLM refused to respond to the request because it did not meet guidelines
             raise e
 
-    async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
-        ret = self._llm_cache_get(prompt_kwargs, llm_kwargs)
+    async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        ret = self._llm_cache_get(prompt, llm_kwargs)
         if ret is not None:
             return ret
 
         if llm_kwargs is None:
             raise ValueError("Must include llm_kwargs to generate future call")
-        if self._determine_using_beta(llm_kwargs.get("response_format", None)):
-            ret = await self._generate_awaitable_using_openai_structured(prompt_kwargs, llm_kwargs)
+
+        if prompt.response_format is not None:
+            ret = await self._generate_awaitable_using_openai_structured(prompt, llm_kwargs)
         else:
-            ret = await self._generate_awaitable_using_openai(prompt_kwargs, llm_kwargs)
+            ret = await self._generate_awaitable_using_openai(prompt, llm_kwargs)
 
-        self._llm_cache_set(prompt_kwargs, llm_kwargs, ret)
+        self._llm_cache_set(prompt, llm_kwargs, ret)
         return ret
 
-    async def _generate_awaitable_using_openai(self, prompt_kwargs, llm_kwargs) -> str:
-        kwargs = self._get_generate_kwargs(prompt_kwargs, llm_kwargs)
+    async def _generate_awaitable_using_openai(self, prompt: RenderedPrompt, llm_kwargs: Optional[dict]) -> str:
+        kwargs = self._get_generate_kwargs(prompt, llm_kwargs)
         starttime = datetime.now()
         if self.is_chat_mode():
             completion = await self.client_wrapper.get_async_client().chat.completions.create(
@@ -456,9 +450,11 @@ async def _generate_awaitable_using_openai(self, prompt_kwargs, llm_kwargs) -> s
         self.add_llm_metadata(kwargs, response_text, wall_latency, completion_tokens, prompt_tokens)
         return response_text
 
-    async def _generate_awaitable_using_openai_structured(self, prompt_kwargs, llm_kwargs) -> str:
+    async def _generate_awaitable_using_openai_structured(
+        self, prompt: RenderedPrompt, llm_kwargs: Optional[dict]
+    ) -> str:
         try:
-            kwargs = self._get_generate_kwargs(prompt_kwargs, llm_kwargs)
+            kwargs = self._get_generate_kwargs(prompt, llm_kwargs)
             if self.is_chat_mode():
                 starttime = datetime.now()
                 completion = await self.client_wrapper.get_async_client().beta.chat.completions.parse(
diff --git a/lib/sycamore/sycamore/llms/prompts/__init__.py b/lib/sycamore/sycamore/llms/prompts/__init__.py
index 3fc2487ad..6261099a6 100644
--- a/lib/sycamore/sycamore/llms/prompts/__init__.py
+++ b/lib/sycamore/sycamore/llms/prompts/__init__.py
@@ -15,6 +15,14 @@
     ExtractTablePropertiesPrompt,
 )
 from sycamore.llms.prompts.default_prompts import _deprecated_prompts
+from sycamore.llms.prompts.prompts import (
+    RenderedPrompt,
+    RenderedMessage,
+    SycamorePrompt,
+    ElementListPrompt,
+    ElementPrompt,
+    StaticPrompt,
+)
 
 prompts = [
     "SimplePrompt",
@@ -28,7 +36,16 @@
     "ExtractTablePropertiesPrompt",
 ] + list(_deprecated_prompts.keys())
 
-__all__ = prompts
+_all = prompts + [
+    "RenderedPrompt",
+    "RenderedMessage",
+    "SycamorePrompt",
+    "ElementListPrompt",
+    "ElementPrompt",
+    "StaticPrompt",
+]
+
+__all__ = _all
 
 
 def __getattr__(name):
diff --git a/lib/sycamore/sycamore/llms/prompts/default_prompts.py b/lib/sycamore/sycamore/llms/prompts/default_prompts.py
index ac2760704..f92d881d8 100644
--- a/lib/sycamore/sycamore/llms/prompts/default_prompts.py
+++ b/lib/sycamore/sycamore/llms/prompts/default_prompts.py
@@ -3,11 +3,12 @@
 from typing import Any, Optional, Type
 
 from sycamore.schema import Schema
+from sycamore.llms.prompts.prompts import ElementListPrompt, ElementPrompt, StaticPrompt
 
 logger = logging.getLogger(__name__)
 
 
-class SimplePrompt(ABC):
+class _SimplePrompt(ABC):
     system: Optional[str] = None
     user: Optional[str] = None
     var_name: str = "answer"
@@ -35,7 +36,10 @@ def __hash__(self):
         return hash((self.system, self.user, self.var_name))
 
 
-class EntityExtractorZeroShotGuidancePrompt(SimplePrompt):
+SimplePrompt = _SimplePrompt
+
+
+class _EntityExtractorZeroShotGuidancePrompt(_SimplePrompt):
     system = "You are a helpful entity extractor"
     # ruff: noqa: E501
     user = """You are given a few text elements of a document. The {entity} of the document is in these few text elements.Using
@@ -45,7 +49,15 @@ class EntityExtractorZeroShotGuidancePrompt(SimplePrompt):
     """
 
 
-class EntityExtractorFewShotGuidancePrompt(SimplePrompt):
+EntityExtractorZeroShotGuidancePrompt = ElementListPrompt(
+    system="You are a helpful entity extractor",
+    user="""You are given a few text elements of a document. The {entity} of the document is in these few text elements.
+    Using this context, FIND, COPY, and RETURN the {entity}. DO NOT REPHRASE OR MAKE UP AN ANSWER.
+    {elements}""",
+)
+
+
+class _EntityExtractorFewShotGuidancePrompt(SimplePrompt):
     system = "You are a helpful entity extractor."
     # ruff: noqa: E501
     user = """You are given a few text elements of a document. The {entity} of the document is in these few text elements. Here are
@@ -57,7 +69,19 @@ class EntityExtractorFewShotGuidancePrompt(SimplePrompt):
     """
 
 
-class TextSummarizerGuidancePrompt(SimplePrompt):
+EntityExtractorFewShotGuidancePrompt = ElementListPrompt(
+    system="You are a helpful entity extractor",
+    user="""You are given a few text elements of a document. The {entity} of the document is in these few text elements. Here are
+    some example groups of text elements where the {entity} has been identified.
+    {examples}
+    Using the context from the document and the provided examples, FIND, COPY, and RETURN the {entity}. Only return the {entity} as part
+    of your answer. DO NOT REPHRASE OR MAKE UP AN ANSWER.
+    {elements}
+    """,
+)
+
+
+class _TextSummarizerGuidancePrompt(SimplePrompt):
     system = "You are a helpful text summarizer."
     user = """Write a summary of the following. Use only the information provided.
     Include as many key details as possible. Do not make up answer. Only return the summary as part of your answer.
@@ -66,7 +90,16 @@ class TextSummarizerGuidancePrompt(SimplePrompt):
     var_name = "summary"
 
 
-class SchemaZeroShotGuidancePrompt(SimplePrompt):
+TextSummarizerGuidancePrompt = ElementPrompt(
+    system="You are a helpful text summarizer.",
+    user="""Write a summary of the following. Use only the information provided.
+    Include as many key details as possible. Do not make up your answer. Only return the summary as part of your answer
+    {elt_text}
+    """,
+)
+
+
+class _SchemaZeroShotGuidancePrompt(SimplePrompt):
     system = "You are a helpful entity extractor. You only return JSON Schema."
     user = """You are given a few text elements of a document. Extract JSON Schema representing one entity of
     class {entity} from the document. Using this context, FIND, FORMAT, and RETURN the JSON-LD Schema.
@@ -76,7 +109,18 @@ class {entity} from the document. Using this context, FIND, FORMAT, and RETURN t
     """
 
 
-class TaskIdentifierZeroShotGuidancePrompt(SimplePrompt):
+SchemaZeroShotGuidancePrompt = ElementListPrompt(
+    system="You are a helpful entity extractor. You only return JSON Schema.",
+    user="""You are given a few text elements of a document. Extract JSON Schema representing one entity of
+    class {entity} from the document. Using this context, FIND, FORMAT, and RETURN the JSON-LD Schema.
+    Return a flat schema, without nestes properties. Return at most {max_num_properties} properties.
+    Only return JSON Schema as part of your answer.
+    {elements}""",
+    max_num_properties=7,
+)
+
+
+class _TaskIdentifierZeroShotGuidancePrompt(SimplePrompt):
     system = "You are a helpful task identifier. You return a string containing no whitespace."
     user = """You are given a dictionary where the keys are task IDs and the values are descriptions of tasks.
     Using this context, FIND and RETURN only the task ID that best matches the given question.
@@ -86,6 +130,17 @@ class TaskIdentifierZeroShotGuidancePrompt(SimplePrompt):
     """
 
 
+TaskIdentifierZeroShotGuidancePrompt = StaticPrompt(
+    system="You are a helpful task identifier. You return a string containing no whitespace.",
+    user="""You are given a dictionary where the keys are task IDs and the values are descriptions of tasks.
+    Using this context, FIND and RETURN only the task ID that best matches the given question.
+    Only return the task ID as a string. Do not return any additional information.
+    {task_descriptions}
+    Question: {question}
+    """,
+)
+
+
 class GraphEntityExtractorPrompt(SimplePrompt):
     user = """
     -Instructions-
@@ -108,7 +163,7 @@ class GraphRelationshipExtractorPrompt(SimplePrompt):
     """
 
 
-class ExtractTablePropertiesPrompt(SimplePrompt):
+class _ExtractTablePropertiesPrompt(SimplePrompt):
     user = """
         You are given a text string represented as a CSV (comma-separated values) and an image of a table.
 
@@ -150,8 +205,8 @@ class ExtractTablePropertiesPrompt(SimplePrompt):
             |---------------------------------|------------------|------------------|
 
             return False
-        
-        example of a key value table containing null walues 
+
+        example of a key value table containing null values
             |---------------------------------|---------------------|
             | header 1 :                      | header 2: 'value2'  |
             | header 3 :                      | header 4 :          |
@@ -163,6 +218,65 @@ class ExtractTablePropertiesPrompt(SimplePrompt):
             """
 
 
+ExtractTablePropertiesPrompt = ElementPrompt(
+    user="""
+        You are given a text string represented as a CSV (comma-separated values) and an image of a table.
+
+        Instructions:
+            Check if the table contains key-value pairs. A key-value pair table is a table where data is structured as key-value pairs. Generally, the first column contains the key and the second column contains the value. However, key-value pairs can also appear in other formats.
+            If there is a one-to-one mapping between two cells, even if the relationship is not direct, they should be considered key-value pairs.
+            If the table is a key-value pair table, return its key-value pairs as a JSON object.
+            If the table is not a key-value pair table, return False.
+            Use camelCase for the key names in the JSON object.
+            Parse the CSV table, check the image, and return a flattened JSON object representing the key-value pairs from the table. The extracted key-value pairs should be formatted as a JSON object.
+            Do not return nested objects; keep the dictionary only one level deep. The only valid value types are numbers, strings, None, and lists.
+            A table can have multiple or all null values for a key. In such cases, return a JSON object with the specified key set to null for all rows in the table.
+            For fields where the values are in standard measurement units like miles, nautical miles, knots, or Celsius, include the unit in the key name and only set the numeric value as the value:
+
+                "Wind Speed: 9 knots" should become "windSpeedInKnots": 9
+                "Temperature: 3°C" should become "temperatureInC": 3
+                Ensure that key names are enclosed in double quotes.
+
+            Return only the JSON object between ``` if the table is a key-value pair table; otherwise, return False.
+
+        example of a key-value pair table:
+            |---------------------------------|------------------|
+            | header 1                        | header 2         |
+            |---------------------------------|------------------|
+            | NEW FIRE ALARM SYSTEMS          | $272 TWO HOURS   |
+            | NEW SPRINKLER SYSTEMS           | $408 THREE HOURS |
+            | NEW GASEOUS SUPPRESSION SYSTEMS | $272 TWO HOURS   |
+            |---------------------------------|------------------|
+
+            return ```{"NEW FIRE ALARM SYSTEMS": "$272 TWO HOURS", "NEW SPRINKLER SYSTEMS": "$408 THREE HOURS", "NEW GASEOUS SUPPRESSION SYSTEMS": "$272 TWO HOURS"}```
+
+        example of a table which is not key-value pair table:
+            |---------------------------------|------------------|------------------|
+            | header 1                        | header 2         | header 3         |
+            |---------------------------------|------------------|------------------|
+            | NEW FIRE ALARM SYSTEMS          | $272 TWO HOURS   | $2752 ONE HOUR   |
+            | NEW SPRINKLER SYSTEMS           | $408 THREE HOURS | $128 FIVE HOURS  |
+            | NEW GASEOUS SUPPRESSION SYSTEMS | $272 TWO HOURS   | $652 TEN HOURS   |
+            |---------------------------------|------------------|------------------|
+
+            return False
+
+        example of a key value table containing null values
+            |---------------------------------|---------------------|
+            | header 1 :                      | header 2: 'value2'  |
+            | header 3 :                      | header 4 :          |
+            | header 5 :                      | header 6:           |
+            |---------------------------------|---------------------|
+
+            return ```{"header1": null, "header2": "value2", "header3": null, "header4": null, "header5": null, "header6": null}```
+
+        CSV:
+            {elt_text}
+            """,
+    include_element_image=True,
+)
+
+
 class ExtractPropertiesFromSchemaPrompt(SimplePrompt):
     def __init__(self, schema: Schema, text: str):
         super().__init__()
@@ -171,13 +285,13 @@ def __init__(self, schema: Schema, text: str):
         self.user = f"""
         Extract values for the following fields:
         {self._format_schema(schema)}
-        
+
         Document text:
         {text}
-        
+
         Don't return extra information.
         If you cannot find a value for a requested property, use the provided default or the value 'None'.
-        Return your answers as a valid json dictionary that will be parsed in python. 
+        Return your answers as a valid json dictionary that will be parsed in python.
 """
 
     @staticmethod
@@ -188,7 +302,7 @@ def _format_schema(schema: Schema) -> str:
             {i} {field.name}: type={field.field_type}: default={field.default}
                 {field.description}\n
                 Examples values: {field.examples}
-                
+
 """
         return text
 
@@ -291,14 +405,14 @@ def __init__(self, field: str, groups: list[str]):
 
 
 _deprecated_prompts: dict[str, Type[SimplePrompt]] = {
-    "ENTITY_EXTRACTOR_ZERO_SHOT_GUIDANCE_PROMPT": EntityExtractorZeroShotGuidancePrompt,
-    "ENTITY_EXTRACTOR_ZERO_SHOT_GUIDANCE_PROMPT_CHAT": EntityExtractorFewShotGuidancePrompt,
-    "ENTITY_EXTRACTOR_FEW_SHOT_GUIDANCE_PROMPT_CHAT": EntityExtractorFewShotGuidancePrompt,
-    "ENTITY_EXTRACTOR_FEW_SHOT_GUIDANCE_PROMPT": EntityExtractorFewShotGuidancePrompt,
-    "TEXT_SUMMARIZER_GUIDANCE_PROMPT": TextSummarizerGuidancePrompt,
-    "TEXT_SUMMARIZER_GUIDANCE_PROMPT_CHAT": TextSummarizerGuidancePrompt,
-    "SCHEMA_ZERO_SHOT_GUIDANCE_PROMPT": SchemaZeroShotGuidancePrompt,
-    "SCHEMA_ZERO_SHOT_GUIDANCE_PROMPT_CHAT": SchemaZeroShotGuidancePrompt,
+    "ENTITY_EXTRACTOR_ZERO_SHOT_GUIDANCE_PROMPT": _EntityExtractorZeroShotGuidancePrompt,
+    "ENTITY_EXTRACTOR_ZERO_SHOT_GUIDANCE_PROMPT_CHAT": _EntityExtractorFewShotGuidancePrompt,
+    "ENTITY_EXTRACTOR_FEW_SHOT_GUIDANCE_PROMPT_CHAT": _EntityExtractorFewShotGuidancePrompt,
+    "ENTITY_EXTRACTOR_FEW_SHOT_GUIDANCE_PROMPT": _EntityExtractorFewShotGuidancePrompt,
+    "TEXT_SUMMARIZER_GUIDANCE_PROMPT": _TextSummarizerGuidancePrompt,
+    "TEXT_SUMMARIZER_GUIDANCE_PROMPT_CHAT": _TextSummarizerGuidancePrompt,
+    "SCHEMA_ZERO_SHOT_GUIDANCE_PROMPT": _SchemaZeroShotGuidancePrompt,
+    "SCHEMA_ZERO_SHOT_GUIDANCE_PROMPT_CHAT": _SchemaZeroShotGuidancePrompt,
     "PROPERTIES_ZERO_SHOT_GUIDANCE_PROMPT": PropertiesZeroShotGuidancePrompt,
     "PROPERTIES_ZERO_SHOT_GUIDANCE_PROMPT_CHAT": PropertiesZeroShotGuidancePrompt,
 }
diff --git a/lib/sycamore/sycamore/llms/prompts/prompts.py b/lib/sycamore/sycamore/llms/prompts/prompts.py
index 0ea81112e..2baef85f2 100644
--- a/lib/sycamore/sycamore/llms/prompts/prompts.py
+++ b/lib/sycamore/sycamore/llms/prompts/prompts.py
@@ -34,7 +34,7 @@ class RenderedPrompt:
     """
 
     messages: list[RenderedMessage]
-    response_format: Union[None, dict[str, Any], pydantic.BaseModel] = None
+    response_format: Union[None, dict[str, Any], type[pydantic.BaseModel]] = None
 
 
 class SycamorePrompt:
@@ -93,7 +93,7 @@ def set(self, **kwargs) -> "SycamorePrompt":
              .. code-block:: python
 
                 p = StaticPrompt(system="hello", user="world")
-                    p.render_document(Document())
+                p.render_document(Document())
                 # [
                 #     {"role": "system", "content": "hello"},
                 #     {"role": "user", "content": "world"}
@@ -218,6 +218,108 @@ def render_document(self, doc: Document) -> RenderedPrompt:
         return result
 
 
+class ElementListIterPrompt(ElementListPrompt):
+    """A prompt with utilities for constructing a lists of elements to include
+    in a sequence of rendered prompts. Functions almost identically to ElementListPrompt,
+    but renders into a series of prompts.
+
+    Args:
+
+        system: The system prompt string. Use {} to reference names that should
+            be interpolated. Defaults to None
+        user: The user prompt string. Use {} to reference names that should be
+            interpolated. Defaults to None
+        element_select: Function to choose the elements (and their order) to include
+            in the prompt. If None, defaults to the first ``num_elements`` elements.
+        element_list_constructor: Function to turn a list of elements into a
+            string that can be accessed with the interpolation key "{elements}".
+            Defaults to "ELEMENT 0: {elts[0].text_representation}\\n
+                         ELEMENT 1: {elts[1].text_representation}\\n
+                         ..."
+        num_elements: Sets the number of elements to take if ``element_select`` is
+            unset. Default is 35.
+        element_batcher: Constructs batches of elements to render in sequence to generate
+            several rendered prompts. Defaults to one batch with all elements.
+        iteration_var_name: Name of the property to look for in the document to determine
+            which batch of elements to use to render the prompt. Default is "i"
+        **kwargs: other keyword arguments are stored and can be used as interpolation keys.
+
+    Example:
+         .. code-block:: python
+
+            prompt = ElementListIterPrompt(
+                system = "You are a program that returns 'None' if you don't know the answer to my question"
+                user = "What is the capital of the country described?\\nElements:\\n{elements}"
+                element_batcher = lambda elts: [elts[i:i+2] for i in range(0, len(elts), 2)]
+            ).set(is_done=lambda s: s != 'None')
+            doc.properties["i"] = 0
+            prompt.render_document(doc)
+            # [
+            #     {"role": "system", "content": "You are a program that returns 'None' if you don't
+            #             know the answer to my question"},
+            #     {"role": "user", "content": "What is the capital of the country described?\\nElements:\\n
+            #             ELEMENT 0: <elt 0 text>\\nELEMENT 1: <elt 1 text>"}
+            # ]
+            doc.properties["i"] = 1
+            prompt.render_document(doc)
+            # [
+            #     {"role": "system", "content": "You are a program that returns 'None' if you don't
+            #             know the answer to my question"},
+            #     {"role": "user", "content": "What is the capital of the country described?\\nElements:\\n
+            #             ELEMENT 0: <elt 2 text>\\nELEMENT 1: <elt 3 text>"}
+            # ]
+    """
+
+    def __init__(
+        self,
+        *,
+        element_batcher: Optional[Callable[[list[Element]], list[list[Element]]]] = None,
+        iteration_var_name: str = "i",
+        **kwargs,
+    ):
+        self.element_batcher = element_batcher or (lambda e: [e])
+        self.iteration_var_name = iteration_var_name
+        super().__init__(**kwargs)
+
+    def render_document(self, doc: Document) -> RenderedPrompt:
+        """Render this prompt, given this document as context, using python's
+        ``str.format()`` method. The keys passed into ``format()`` are as follows:
+
+            - self.kwargs: the additional kwargs specified when creating this prompt.
+            - doc_text: doc.text_representation
+            - doc_property_<property_name>: each property name in doc.properties is
+                prefixed with 'doc_property_'. So if ``doc.properties = {'k1': 0, 'k2': 3}``,
+                you get ``doc_property_k1 = 0, doc_property_k2 = 3``.
+            - elements: the element list constructed from doc.elements using ``self.element_select``,
+                ``self.element_order``, and ``self.element_list_constructor``.
+
+        Args:
+            doc: The document to use as context for rendering this prompt
+
+        Returns:
+            A two-message RenderedPrompt containing ``self.system.format()`` and
+            ``self.user.format()`` using the format keys as specified above. The prompt is
+            rendered from the ``doc.properties[self.iteration_var_name]``'th batch of
+            elements generated by ``self.element_batcher``
+        """
+        i = doc.properties.get(self.iteration_var_name, 0)
+
+        format_args = self.kwargs
+        format_args["doc_text"] = doc.text_representation
+        flat_props = flatten_data(doc.properties, prefix="doc_property", separator="_")
+        format_args.update(flat_props)
+
+        for j, elt_batch in enumerate(self.element_batcher(doc.elements)):
+            if j < i:
+                continue
+            else:
+                elements = self.element_select(elt_batch)
+                elementstr = self.element_list_constructor(elements)
+                messages = _build_format_str(self.system, self.user, {"elements": elementstr, **format_args})
+                return RenderedPrompt(messages=messages)
+        return RenderedPrompt(messages=[])
+
+
 class ElementPrompt(SycamorePrompt):
     """A prompt for rendering an element with utilities for capturing information
     from the element's parent document, with a system and user prompt.
diff --git a/lib/sycamore/sycamore/query/execution/operations.py b/lib/sycamore/sycamore/query/execution/operations.py
index 200cf832d..033d0b7fb 100644
--- a/lib/sycamore/sycamore/query/execution/operations.py
+++ b/lib/sycamore/sycamore/query/execution/operations.py
@@ -94,7 +94,7 @@ def summarize_data(
     prompt_kwargs = {"messages": messages}
 
     # call to LLM
-    completion = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
+    completion = llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
 
     # LLM response
     return completion
diff --git a/lib/sycamore/sycamore/query/planner.py b/lib/sycamore/sycamore/query/planner.py
index c23182653..fcfdeb207 100644
--- a/lib/sycamore/sycamore/query/planner.py
+++ b/lib/sycamore/sycamore/query/planner.py
@@ -41,7 +41,7 @@
             "properties.key" or "properties.count"; you can only reference one of those fields.
             Other than those, DO NOT USE ANY OTHER FIELD NAMES.
         5. If an optional field does not have a value in the query plan, return null in its place.
-        6. The first step of each plan MUST be a **QueryDatabase** or **QueryVectorDatabase" operation. 
+        6. The first step of each plan MUST be a **QueryDatabase** or **QueryVectorDatabase" operation.
             Whenever possible, include all possible filtering operations in the first step.
            That is, you should strive to construct an OpenSearch query that filters the data as
            much as possible, reducing the need for further query operations. If using a QueryVectorDatabase, always
@@ -518,7 +518,7 @@ def generate_from_llm(self, question: str) -> Tuple[Any, str]:
         ]
 
         prompt_kwargs = {"messages": messages}
-        chat_completion = self._llm_client.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
+        chat_completion = self._llm_client.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
         return prompt_kwargs, chat_completion
 
     def plan(self, question: str) -> LogicalPlan:
diff --git a/lib/sycamore/sycamore/query/strategy.py b/lib/sycamore/sycamore/query/strategy.py
index edf03c727..f38fa9b31 100644
--- a/lib/sycamore/sycamore/query/strategy.py
+++ b/lib/sycamore/sycamore/query/strategy.py
@@ -86,7 +86,7 @@ def __call__(self, plan: LogicalPlan) -> LogicalPlan:
             modified_description = self.postprocess_llm_helper(
                 f"""
                             The following is the description of a Python function. I am modifying the function code
-                            to remove any functionality that specifically has to do with "{op.query_phrase}", thereby 
+                            to remove any functionality that specifically has to do with "{op.query_phrase}", thereby
                             generalizing the description to be more flexible.
                             Return only the modified description. Do not make assumptions
                             about the intent of the question that are not explicitly specified.
@@ -115,7 +115,7 @@ def __call__(self, plan: LogicalPlan) -> LogicalPlan:
                 f"""
                         Generate a one-line description for a python function whose goal is to filter the input
                         records based on whether they contain {op.query_phrase}.
-                        Here are two example outputs: 
+                        Here are two example outputs:
                         (1) Filter to records involving wildfires.
                         (2) Filter to records that occurred in Northwest USA.
                         """,
@@ -158,7 +158,7 @@ def postprocess_llm_helper(self, user_message: str) -> str:
         ]
 
         prompt_kwargs = {"messages": messages}
-        chat_completion = self.llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
+        chat_completion = self.llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
         return chat_completion
 
 
diff --git a/lib/sycamore/sycamore/tests/integration/llms/test_anthropic.py b/lib/sycamore/sycamore/tests/integration/llms/test_anthropic.py
index c5f77666b..e642e266b 100644
--- a/lib/sycamore/sycamore/tests/integration/llms/test_anthropic.py
+++ b/lib/sycamore/sycamore/tests/integration/llms/test_anthropic.py
@@ -1,15 +1,30 @@
 from pathlib import Path
 from typing import Any
+import base64
+import pickle
 
 from sycamore.llms import Anthropic, AnthropicModels
+from sycamore.llms.prompts.prompts import RenderedPrompt, RenderedMessage
 from sycamore.utils.cache import DiskCache
 
 
+def cacheget(cache: DiskCache, key: str):
+    hit = cache.get(key)
+    return pickle.loads(base64.b64decode(hit))  # type: ignore
+
+
+def cacheset(cache: DiskCache, key: str, data: Any):
+    databytes = pickle.dumps(data)
+    cache.set(key, base64.b64encode(databytes).decode("utf-8"))
+
+
 def test_anthropic_defaults():
     llm = Anthropic(AnthropicModels.CLAUDE_3_HAIKU)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     assert len(res) > 0
 
@@ -17,14 +32,14 @@ def test_anthropic_defaults():
 def test_anthropic_messages_defaults():
     llm = Anthropic(AnthropicModels.CLAUDE_3_HAIKU)
     messages = [
-        {
-            "role": "user",
-            "content": "Write a caption for a recent trip to a sunny beach",
-        },
+        RenderedMessage(
+            role="user",
+            content="Write a caption for a recent trip to a sunny beach",
+        ),
     ]
-    prompt_kwargs = {"messages": messages}
+    prompt = RenderedPrompt(messages=messages)
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     assert len(res) > 0
 
@@ -32,43 +47,55 @@ def test_anthropic_messages_defaults():
 def test_cached_anthropic(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = Anthropic(AnthropicModels.CLAUDE_3_HAIKU, cache=cache)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
     # pylint: disable=protected-access
-    key = llm._llm_cache_key(prompt_kwargs, {})
+    key = llm._llm_cache_key(prompt, {})
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     # assert result is cached
-    assert cache.get(key).get("result")["output"] == res
-    assert cache.get(key).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key).get("llm_kwargs") == {}
-    assert cache.get(key).get("model_name") == AnthropicModels.CLAUDE_3_HAIKU.value
+    assert cacheget(cache, key).get("result")["output"] == res
+    assert cacheget(cache, key).get("prompt") == prompt
+    assert cacheget(cache, key).get("prompt.response_format") is None
+    assert cacheget(cache, key).get("llm_kwargs") == {}
+    assert cacheget(cache, key).get("model_name") == AnthropicModels.CLAUDE_3_HAIKU.value
 
     # assert llm.generate is using cached result
     custom_output: dict[str, Any] = {
         "result": {"output": "This is a custom response"},
-        "prompt_kwargs": prompt_kwargs,
+        "prompt": prompt,
+        "prompt.response_format": None,
         "llm_kwargs": {},
         "model_name": AnthropicModels.CLAUDE_3_HAIKU.value,
     }
-    cache.set(key, custom_output)
+    cacheset(cache, key, custom_output)
 
-    assert llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={}) == custom_output["result"]["output"]
+    assert llm.generate(prompt=prompt, llm_kwargs={}) == custom_output["result"]["output"]
 
 
 def test_cached_bedrock_different_prompts(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = Anthropic(AnthropicModels.CLAUDE_3_HAIKU, cache=cache)
-    prompt_kwargs_1 = {"prompt": "Write a limerick about large language models."}
-    prompt_kwargs_2 = {"prompt": "Write a short limerick about large language models."}
-    prompt_kwargs_3 = {"prompt": "Write a poem about large language models."}
-    prompt_kwargs_4 = {"prompt": "Write a short poem about large language models."}
-
-    key_1 = llm._llm_cache_key(prompt_kwargs_1, {})
-    key_2 = llm._llm_cache_key(prompt_kwargs_2, {})
-    key_3 = llm._llm_cache_key(prompt_kwargs_3, {})
-    key_4 = llm._llm_cache_key(prompt_kwargs_4, {})
+    prompt_1 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
+    prompt_2 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a short limerick about large language models.")]
+    )
+    prompt_3 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a poem about large language models.")]
+    )
+    prompt_4 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a short poem about large language models.")]
+    )
+
+    key_1 = llm._llm_cache_key(prompt_1, {})
+    key_2 = llm._llm_cache_key(prompt_2, {})
+    key_3 = llm._llm_cache_key(prompt_3, {})
+    key_4 = llm._llm_cache_key(prompt_4, {})
     keys = [key_1, key_2, key_3, key_4]
 
     assert len(keys) == len(
@@ -87,23 +114,25 @@ def test_cached_anthropic_different_models(tmp_path: Path):
     llm_HAIKU = Anthropic(AnthropicModels.CLAUDE_3_HAIKU, cache=cache)
     llm_SONNET = Anthropic(AnthropicModels.CLAUDE_3_SONNET, cache=cache)
 
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
     # populate cache
-    key_HAIKU = llm_HAIKU._llm_cache_key(prompt_kwargs, {})
-    res_HAIKU = llm_HAIKU.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
-    key_SONNET = llm_SONNET._llm_cache_key(prompt_kwargs, {})
-    res_SONNET = llm_SONNET.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    key_HAIKU = llm_HAIKU._llm_cache_key(prompt, {})
+    res_HAIKU = llm_HAIKU.generate(prompt=prompt, llm_kwargs={})
+    key_SONNET = llm_SONNET._llm_cache_key(prompt, {})
+    res_SONNET = llm_SONNET.generate(prompt=prompt, llm_kwargs={})
 
     # check proper cached results
-    assert cache.get(key_HAIKU).get("result")["output"] == res_HAIKU
-    assert cache.get(key_HAIKU).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_HAIKU).get("llm_kwargs") == {}
-    assert cache.get(key_HAIKU).get("model_name") == AnthropicModels.CLAUDE_3_HAIKU.value
-    assert cache.get(key_SONNET).get("result")["output"] == res_SONNET
-    assert cache.get(key_SONNET).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_SONNET).get("llm_kwargs") == {}
-    assert cache.get(key_SONNET).get("model_name") == AnthropicModels.CLAUDE_3_SONNET.value
+    assert cacheget(cache, key_HAIKU).get("result")["output"] == res_HAIKU
+    assert cacheget(cache, key_HAIKU).get("prompt") == prompt
+    assert cacheget(cache, key_HAIKU).get("llm_kwargs") == {}
+    assert cacheget(cache, key_HAIKU).get("model_name") == AnthropicModels.CLAUDE_3_HAIKU.value
+    assert cacheget(cache, key_SONNET).get("result")["output"] == res_SONNET
+    assert cacheget(cache, key_SONNET).get("prompt") == prompt
+    assert cacheget(cache, key_SONNET).get("llm_kwargs") == {}
+    assert cacheget(cache, key_SONNET).get("model_name") == AnthropicModels.CLAUDE_3_SONNET.value
 
     # check for difference with model change
     assert key_HAIKU != key_SONNET
@@ -112,9 +141,11 @@ def test_cached_anthropic_different_models(tmp_path: Path):
 
 def test_metadata():
     llm = Anthropic(AnthropicModels.CLAUDE_3_HAIKU)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
-    res = llm.generate_metadata(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate_metadata(prompt=prompt, llm_kwargs={})
 
     assert "output" in res
     assert "wall_latency" in res
diff --git a/lib/sycamore/sycamore/tests/integration/llms/test_bedrock.py b/lib/sycamore/sycamore/tests/integration/llms/test_bedrock.py
index d8622d888..01719ab0e 100644
--- a/lib/sycamore/sycamore/tests/integration/llms/test_bedrock.py
+++ b/lib/sycamore/sycamore/tests/integration/llms/test_bedrock.py
@@ -1,18 +1,33 @@
 from pathlib import Path
 from typing import Any
+import pickle
+import base64
 
 from sycamore.llms import Bedrock, BedrockModels
+from sycamore.llms.prompts import RenderedPrompt, RenderedMessage
 from sycamore.utils.cache import DiskCache
 
 
+def cacheget(cache: DiskCache, key: str):
+    hit = cache.get(key)
+    return pickle.loads(base64.b64decode(hit))  # type: ignore
+
+
+def cacheset(cache: DiskCache, key: str, data: Any):
+    databytes = pickle.dumps(data)
+    cache.set(key, base64.b64encode(databytes).decode("utf-8"))
+
+
 # Note: These tests assume your environment has been configured to access Amazon Bedrock.
 
 
 def test_bedrock_defaults():
     llm = Bedrock(BedrockModels.CLAUDE_3_HAIKU)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     assert len(res) > 0
 
@@ -20,14 +35,14 @@ def test_bedrock_defaults():
 def test_bedrock_messages_defaults():
     llm = Bedrock(BedrockModels.CLAUDE_3_HAIKU)
     messages = [
-        {
-            "role": "user",
-            "content": "Write a caption for a recent trip to a sunny beach",
-        },
+        RenderedMessage(
+            role="user",
+            content="Write a caption for a recent trip to a sunny beach",
+        ),
     ]
-    prompt_kwargs = {"messages": messages}
+    prompt = RenderedPrompt(messages=messages)
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     assert len(res) > 0
 
@@ -35,43 +50,55 @@ def test_bedrock_messages_defaults():
 def test_cached_bedrock(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = Bedrock(BedrockModels.CLAUDE_3_HAIKU, cache=cache)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
     # pylint: disable=protected-access
-    key = llm._llm_cache_key(prompt_kwargs, {})
+    key = llm._llm_cache_key(prompt, {})
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     # assert result is cached
-    assert cache.get(key).get("result")["output"] == res
-    assert cache.get(key).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key).get("llm_kwargs") == {}
-    assert cache.get(key).get("model_name") == BedrockModels.CLAUDE_3_HAIKU.value.name
+    assert cacheget(cache, key).get("result")["output"] == res
+    assert cacheget(cache, key).get("prompt") == prompt
+    assert cacheget(cache, key).get("prompt.response_format") is None
+    assert cacheget(cache, key).get("llm_kwargs") == {}
+    assert cacheget(cache, key).get("model_name") == BedrockModels.CLAUDE_3_HAIKU.value.name
 
     # assert llm.generate is using cached result
     custom_output: dict[str, Any] = {
         "result": {"output": "This is a custom response"},
-        "prompt_kwargs": prompt_kwargs,
+        "prompt": prompt,
+        "prompt.response_format": None,
         "llm_kwargs": {},
         "model_name": BedrockModels.CLAUDE_3_HAIKU.value.name,
     }
-    cache.set(key, custom_output)
+    cacheset(cache, key, custom_output)
 
-    assert llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={}) == custom_output["result"]["output"]
+    assert llm.generate(prompt=prompt, llm_kwargs={}) == custom_output["result"]["output"]
 
 
 def test_cached_bedrock_different_prompts(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = Bedrock(BedrockModels.CLAUDE_3_HAIKU, cache=cache)
-    prompt_kwargs_1 = {"prompt": "Write a limerick about large language models."}
-    prompt_kwargs_2 = {"prompt": "Write a short limerick about large language models."}
-    prompt_kwargs_3 = {"prompt": "Write a poem about large language models."}
-    prompt_kwargs_4 = {"prompt": "Write a short poem about large language models."}
-
-    key_1 = llm._llm_cache_key(prompt_kwargs_1, {})
-    key_2 = llm._llm_cache_key(prompt_kwargs_2, {})
-    key_3 = llm._llm_cache_key(prompt_kwargs_3, {})
-    key_4 = llm._llm_cache_key(prompt_kwargs_4, {})
+    prompt_1 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
+    prompt_2 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a short limerick about large language models.")]
+    )
+    prompt_3 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a poem about large language models.")]
+    )
+    prompt_4 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a short poem about large language models.")]
+    )
+
+    key_1 = llm._llm_cache_key(prompt_1, {})
+    key_2 = llm._llm_cache_key(prompt_2, {})
+    key_3 = llm._llm_cache_key(prompt_3, {})
+    key_4 = llm._llm_cache_key(prompt_4, {})
     keys = [key_1, key_2, key_3, key_4]
 
     assert len(keys) == len(
@@ -90,23 +117,25 @@ def test_cached_bedrock_different_models(tmp_path: Path):
     llm_HAIKU = Bedrock(BedrockModels.CLAUDE_3_HAIKU, cache=cache)
     llm_SONNET = Bedrock(BedrockModels.CLAUDE_3_SONNET, cache=cache)
 
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
     # populate cache
-    key_HAIKU = llm_HAIKU._llm_cache_key(prompt_kwargs, {})
-    res_HAIKU = llm_HAIKU.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
-    key_SONNET = llm_SONNET._llm_cache_key(prompt_kwargs, {})
-    res_SONNET = llm_SONNET.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    key_HAIKU = llm_HAIKU._llm_cache_key(prompt, {})
+    res_HAIKU = llm_HAIKU.generate(prompt=prompt, llm_kwargs={})
+    key_SONNET = llm_SONNET._llm_cache_key(prompt, {})
+    res_SONNET = llm_SONNET.generate(prompt=prompt, llm_kwargs={})
 
     # check proper cached results
-    assert cache.get(key_HAIKU).get("result")["output"] == res_HAIKU
-    assert cache.get(key_HAIKU).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_HAIKU).get("llm_kwargs") == {}
-    assert cache.get(key_HAIKU).get("model_name") == BedrockModels.CLAUDE_3_HAIKU.value.name
-    assert cache.get(key_SONNET).get("result")["output"] == res_SONNET
-    assert cache.get(key_SONNET).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_SONNET).get("llm_kwargs") == {}
-    assert cache.get(key_SONNET).get("model_name") == BedrockModels.CLAUDE_3_SONNET.value.name
+    assert cacheget(cache, key_HAIKU).get("result")["output"] == res_HAIKU
+    assert cacheget(cache, key_HAIKU).get("prompt") == prompt
+    assert cacheget(cache, key_HAIKU).get("llm_kwargs") == {}
+    assert cacheget(cache, key_HAIKU).get("model_name") == BedrockModels.CLAUDE_3_HAIKU.value.name
+    assert cacheget(cache, key_SONNET).get("result")["output"] == res_SONNET
+    assert cacheget(cache, key_SONNET).get("prompt") == prompt
+    assert cacheget(cache, key_SONNET).get("llm_kwargs") == {}
+    assert cacheget(cache, key_SONNET).get("model_name") == BedrockModels.CLAUDE_3_SONNET.value.name
 
     # check for difference with model change
     assert key_HAIKU != key_SONNET
@@ -115,9 +144,11 @@ def test_cached_bedrock_different_models(tmp_path: Path):
 
 def test_metadata():
     llm = Bedrock(BedrockModels.CLAUDE_3_HAIKU)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
-    res = llm.generate_metadata(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate_metadata(prompt=prompt, llm_kwargs={})
 
     assert "output" in res
     assert "wall_latency" in res
diff --git a/lib/sycamore/sycamore/tests/integration/llms/test_openai.py b/lib/sycamore/sycamore/tests/integration/llms/test_openai.py
index c2102f6d8..70910f4a1 100644
--- a/lib/sycamore/sycamore/tests/integration/llms/test_openai.py
+++ b/lib/sycamore/sycamore/tests/integration/llms/test_openai.py
@@ -1,14 +1,25 @@
 from pathlib import Path
 import pickle
+import base64
 import pytest
+from typing import Any
 
 from sycamore.llms import OpenAI, OpenAIModels, OpenAIClientWrapper
 from sycamore.llms.openai import OpenAIModel, OpenAIClientType
-from sycamore.llms.prompts.default_prompts import SimplePrompt
+from sycamore.llms.prompts import RenderedPrompt, RenderedMessage, StaticPrompt
 from sycamore.utils.cache import DiskCache
 
 from pydantic import BaseModel
-from openai.lib._parsing import type_to_response_format_param
+
+
+def cacheget(cache: DiskCache, key: str):
+    hit = cache.get(key)
+    return pickle.loads(base64.b64decode(hit))  # type: ignore
+
+
+def cacheset(cache: DiskCache, key: str, data: Any):
+    databytes = pickle.dumps(data)
+    cache.set(key, base64.b64encode(databytes).decode("utf-8"))
 
 
 # Note: These tests expect you to have OPENAI_API_KEY set in your environment.
@@ -16,9 +27,10 @@
 
 def test_openai_defaults():
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
-
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     assert len(res) > 0
 
@@ -26,18 +38,18 @@ def test_openai_defaults():
 def test_openai_messages_defaults():
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO)
     messages = [
-        {
-            "role": "system",
-            "content": "You are a social media influencer",
-        },
-        {
-            "role": "user",
-            "content": "Write a caption for a recent trip to a sunny beach",
-        },
+        RenderedMessage(
+            role="system",
+            content="You are a social media influencer",
+        ),
+        RenderedMessage(
+            role="user",
+            content="Write a caption for a recent trip to a sunny beach",
+        ),
     ]
-    prompt_kwargs = {"messages": messages}
+    prompt = RenderedPrompt(messages=messages)
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     assert len(res) > 0
 
@@ -45,70 +57,84 @@ def test_openai_messages_defaults():
 def test_cached_openai(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO, cache=cache)
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
-    key = llm._llm_cache_key(prompt_kwargs, {})
+    key = llm._llm_cache_key(prompt, {})
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    res = llm.generate(prompt=prompt, llm_kwargs={})
 
     # assert result is cached
-    assert cache.get(key).get("result") == res
-    assert cache.get(key).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key).get("llm_kwargs") == {}
-    assert cache.get(key).get("model_name") == "gpt-3.5-turbo"
+    assert cacheget(cache, key).get("result") == res
+    assert cacheget(cache, key).get("prompt") == prompt
+    assert cacheget(cache, key).get("prompt.response_format") is None
+    assert cacheget(cache, key).get("llm_kwargs") == {}
+    assert cacheget(cache, key).get("model_name") == "gpt-3.5-turbo"
 
     # assert llm.generate is using cached result
     custom_output = {
         "result": "This is a custom response",
-        "prompt_kwargs": prompt_kwargs,
+        "prompt": prompt,
+        "prompt.response_format": None,
         "llm_kwargs": {},
         "model_name": "gpt-3.5-turbo",
     }
-    cache.set(key, custom_output)
+    cacheset(cache, key, custom_output)
 
-    assert llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={}) == custom_output["result"]
+    assert llm.generate(prompt=prompt, llm_kwargs={}) == custom_output["result"]
 
 
 def test_cached_guidance(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO, cache=cache)
-    prompt_kwargs = {"prompt": TestPrompt()}
+    prompt = TestPrompt().render_generic()
 
-    key = llm._llm_cache_key(prompt_kwargs, None)
+    key = llm._llm_cache_key(prompt, None)
 
-    res = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs=None)
+    res = llm.generate(prompt=prompt, llm_kwargs=None)
 
     # assert result is cached
-    assert isinstance(cache.get(key), dict)
-    assert cache.get(key).get("result") == res
-    assert cache.get(key).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key).get("llm_kwargs") is None
-    assert cache.get(key).get("model_name") == "gpt-3.5-turbo"
+    assert isinstance(cacheget(cache, key), dict)
+    assert cacheget(cache, key).get("result") == res
+    assert cacheget(cache, key).get("prompt") == prompt
+    assert cacheget(cache, key).get("prompt.response_format") is None
+    assert cacheget(cache, key).get("llm_kwargs") is None
+    assert cacheget(cache, key).get("model_name") == "gpt-3.5-turbo"
 
     # assert llm.generate is using cached result
     custom_output = {
         "result": "This is a custom response",
-        "prompt_kwargs": {"prompt": TestPrompt()},
+        "prompt": TestPrompt().render_generic(),
+        "prompt.response_format": None,
         "llm_kwargs": None,
         "model_name": "gpt-3.5-turbo",
     }
-    cache.set(key, custom_output)
+    cacheset(cache, key, custom_output)
 
-    assert llm.generate(prompt_kwargs={"prompt": TestPrompt()}, llm_kwargs=None) == custom_output["result"]
+    assert llm.generate(prompt=TestPrompt().render_generic(), llm_kwargs=None) == custom_output["result"]
 
 
 def test_cached_openai_different_prompts(tmp_path: Path):
     cache = DiskCache(str(tmp_path))
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO, cache=cache)
-    prompt_kwargs_1 = {"prompt": "Write a limerick about large language models."}
-    prompt_kwargs_2 = {"prompt": "Write a short limerick about large language models."}
-    prompt_kwargs_3 = {"prompt": "Write a poem about large language models."}
-    prompt_kwargs_4 = {"prompt": "Write a short poem about large language models."}
-
-    key_1 = llm._llm_cache_key(prompt_kwargs_1, {})
-    key_2 = llm._llm_cache_key(prompt_kwargs_2, {})
-    key_3 = llm._llm_cache_key(prompt_kwargs_3, {})
-    key_4 = llm._llm_cache_key(prompt_kwargs_4, {})
+    prompt_1 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
+    prompt_2 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a short limerick about large language models.")]
+    )
+    prompt_3 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a poem about large language models.")]
+    )
+    prompt_4 = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a short poem about large language models.")]
+    )
+
+    key_1 = llm._llm_cache_key(prompt_1, {})
+    key_2 = llm._llm_cache_key(prompt_2, {})
+    key_3 = llm._llm_cache_key(prompt_3, {})
+    key_4 = llm._llm_cache_key(prompt_4, {})
     keys = [key_1, key_2, key_3, key_4]
 
     assert len(keys) == len(
@@ -127,23 +153,25 @@ def test_cached_openai_different_models(tmp_path: Path):
     llm_GPT_3_5_TURBO = OpenAI(OpenAIModels.GPT_3_5_TURBO, cache=cache)
     llm_GPT_4O_MINI = OpenAI(OpenAIModels.GPT_4O_MINI, cache=cache)
 
-    prompt_kwargs = {"prompt": "Write a limerick about large language models."}
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="Write a limerick about large language models.")]
+    )
 
     # populate cache
-    key_GPT_3_5_TURBO = llm_GPT_3_5_TURBO._llm_cache_key(prompt_kwargs, {})
-    res_GPT_3_5_TURBO = llm_GPT_3_5_TURBO.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
-    key_GPT_4O_MINI = llm_GPT_4O_MINI._llm_cache_key(prompt_kwargs, {})
-    res_GPT_4O_MINI = llm_GPT_4O_MINI.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+    key_GPT_3_5_TURBO = llm_GPT_3_5_TURBO._llm_cache_key(prompt, {})
+    res_GPT_3_5_TURBO = llm_GPT_3_5_TURBO.generate(prompt=prompt, llm_kwargs={})
+    key_GPT_4O_MINI = llm_GPT_4O_MINI._llm_cache_key(prompt, {})
+    res_GPT_4O_MINI = llm_GPT_4O_MINI.generate(prompt=prompt, llm_kwargs={})
 
     # check proper cached results
-    assert cache.get(key_GPT_3_5_TURBO).get("result") == res_GPT_3_5_TURBO
-    assert cache.get(key_GPT_3_5_TURBO).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_GPT_3_5_TURBO).get("llm_kwargs") == {}
-    assert cache.get(key_GPT_3_5_TURBO).get("model_name") == "gpt-3.5-turbo"
-    assert cache.get(key_GPT_4O_MINI).get("result") == res_GPT_4O_MINI
-    assert cache.get(key_GPT_4O_MINI).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_GPT_4O_MINI).get("llm_kwargs") == {}
-    assert cache.get(key_GPT_4O_MINI).get("model_name") == "gpt-4o-mini"
+    assert cacheget(cache, key_GPT_3_5_TURBO).get("result") == res_GPT_3_5_TURBO
+    assert cacheget(cache, key_GPT_3_5_TURBO).get("prompt") == prompt
+    assert cacheget(cache, key_GPT_3_5_TURBO).get("llm_kwargs") == {}
+    assert cacheget(cache, key_GPT_3_5_TURBO).get("model_name") == "gpt-3.5-turbo"
+    assert cacheget(cache, key_GPT_4O_MINI).get("result") == res_GPT_4O_MINI
+    assert cacheget(cache, key_GPT_4O_MINI).get("prompt") == prompt
+    assert cacheget(cache, key_GPT_4O_MINI).get("llm_kwargs") == {}
+    assert cacheget(cache, key_GPT_4O_MINI).get("model_name") == "gpt-4o-mini"
 
     # check for difference with model change
     assert key_GPT_3_5_TURBO != key_GPT_4O_MINI
@@ -157,39 +185,44 @@ def test_cached_openai_pydantic_model(tmp_path: Path):
     class Statement(BaseModel):
         is_true: bool
 
-    prompt_kwargs = {"prompt": "2+2 = 4, is this statement true?"}
-    llm_kwargs = {"response_format": Statement}
-    llm_kwargs_cached = {"response_format": type_to_response_format_param(Statement)}
+    llm_kwargs = {}  # type: ignore
+    llm_kwargs_cached = {}  # type: ignore
+
+    prompt = RenderedPrompt(
+        messages=[RenderedMessage(role="user", content="2+2 = 4, is this statement true?")], response_format=Statement
+    )
 
     # populate cache
     # pylint: disable=protected-access
-    key_GPT_4O_MINI = llm_GPT_4O_MINI._llm_cache_key(prompt_kwargs, llm_kwargs_cached)
-    res_GPT_4O_MINI = llm_GPT_4O_MINI.generate(prompt_kwargs=prompt_kwargs, llm_kwargs=llm_kwargs)
+    key_GPT_4O_MINI = llm_GPT_4O_MINI._llm_cache_key(prompt, llm_kwargs_cached)
+    res_GPT_4O_MINI = llm_GPT_4O_MINI.generate(prompt=prompt, llm_kwargs=llm_kwargs)
+    print(res_GPT_4O_MINI)
     assert key_GPT_4O_MINI is not None
     # check cache
-    assert cache.get(key_GPT_4O_MINI).get("result") == res_GPT_4O_MINI
-    assert cache.get(key_GPT_4O_MINI).get("prompt_kwargs") == prompt_kwargs
-    assert cache.get(key_GPT_4O_MINI).get("llm_kwargs") == llm_kwargs_cached
-    assert cache.get(key_GPT_4O_MINI).get("model_name") == "gpt-4o-mini"
+    assert cacheget(cache, key_GPT_4O_MINI).get("result") == res_GPT_4O_MINI
+    assert cacheget(cache, key_GPT_4O_MINI).get("prompt") == RenderedPrompt(messages=prompt.messages)
+    assert cacheget(cache, key_GPT_4O_MINI).get(
+        "prompt.response_format"
+    ) == llm_GPT_4O_MINI._pickleable_response_format(prompt)
+    assert cacheget(cache, key_GPT_4O_MINI).get("llm_kwargs") == llm_kwargs_cached
+    assert cacheget(cache, key_GPT_4O_MINI).get("model_name") == "gpt-4o-mini"
 
 
-class TestPrompt(SimplePrompt):
-    system = "You are a skilled poet"
-    user = "Write a limerick about large language models"
+class TestPrompt(StaticPrompt):
+    def __init__(self):
+        super().__init__(system="You are a skilled poet", user="Write a limerick about large language models")
 
 
 def test_openai_defaults_guidance_chat():
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO)
-    prompt_kwargs = {"prompt": TestPrompt()}
-    res = llm.generate(prompt_kwargs=prompt_kwargs)
+    res = llm.generate(prompt=TestPrompt().render_generic())
     print(res)
     assert len(res) > 0
 
 
 def test_openai_defaults_guidance_instruct():
     llm = OpenAI(OpenAIModels.GPT_3_5_TURBO_INSTRUCT)
-    prompt_kwargs = {"prompt": TestPrompt()}
-    res = llm.generate(prompt_kwargs=prompt_kwargs)
+    res = llm.generate(prompt=TestPrompt().render_generic())
     assert len(res) > 0
 
 
@@ -208,14 +241,14 @@ def azure_llm():
 
 
 def test_azure_defaults_guidance_chat(azure_llm):
-    prompt_kwargs = {"prompt": TestPrompt()}
-    res = azure_llm.generate(prompt_kwargs=prompt_kwargs)
+    prompt = TestPrompt().render_generic()
+    res = azure_llm.generate(prompt=prompt)
     assert len(res) > 0
 
 
 def test_azure_defaults_guidance_instruct(azure_llm):
-    prompt_kwargs = {"prompt": TestPrompt()}
-    res = azure_llm.generate(prompt_kwargs=prompt_kwargs)
+    prompt = TestPrompt().render_generic()
+    res = azure_llm.generate(prompt=prompt)
     assert len(res) > 0
 
 
diff --git a/lib/sycamore/sycamore/tests/unit/llms/test_bedrock.py b/lib/sycamore/sycamore/tests/unit/llms/test_bedrock.py
index f50804e75..af606ab88 100644
--- a/lib/sycamore/sycamore/tests/unit/llms/test_bedrock.py
+++ b/lib/sycamore/sycamore/tests/unit/llms/test_bedrock.py
@@ -2,6 +2,7 @@
 from unittest.mock import patch
 import tempfile
 
+from sycamore.llms.prompts import RenderedPrompt, RenderedMessage
 from sycamore.llms import Bedrock, BedrockModels
 from sycamore.llms.bedrock import DEFAULT_ANTHROPIC_VERSION, DEFAULT_MAX_TOKENS
 from sycamore.utils.cache import DiskCache
@@ -40,11 +41,11 @@ def test_bedrock_simple(mock_boto3_client):
     assert client._model_name == BedrockModels.CLAUDE_3_5_SONNET.value.name
 
     result = client.generate(
-        prompt_kwargs={
-            "messages": [
-                {"role": "user", "content": "Roll 4d20 and tell me the final sum."},
+        prompt=RenderedPrompt(
+            messages=[
+                RenderedMessage(role="user", content="Roll 4d20 and tell me the final sum."),
             ]
-        }
+        )
     )
     assert result == "Here is your result: 56"
 
@@ -68,12 +69,12 @@ def test_bedrock_system_role(mock_boto3_client):
     assert client._model_name == BedrockModels.CLAUDE_3_5_SONNET.value.name
 
     result = client.generate(
-        prompt_kwargs={
-            "messages": [
-                {"role": "system", "content": "You are a DM for a game of D&D."},
-                {"role": "user", "content": "Roll 4d20 and tell me the final sum."},
+        prompt=RenderedPrompt(
+            messages=[
+                RenderedMessage(role="system", content="You are a DM for a game of D&D."),
+                RenderedMessage(role="user", content="Roll 4d20 and tell me the final sum."),
             ]
-        }
+        )
     )
     assert result == "Here is your result: 56"
 
@@ -99,11 +100,11 @@ def test_bedrock_with_llm_kwargs(mock_boto3_client):
     assert client._model_name == BedrockModels.CLAUDE_3_5_SONNET.value.name
 
     result = client.generate(
-        prompt_kwargs={
-            "messages": [
-                {"role": "user", "content": "Roll 4d20 and tell me the final sum."},
+        prompt=RenderedPrompt(
+            messages=[
+                RenderedMessage(role="user", content="Roll 4d20 and tell me the final sum."),
             ]
-        },
+        ),
         llm_kwargs={"max_tokens": 100, "anthropic_version": "v1"},
     )
     assert result == "Here is your result: 56"
@@ -134,11 +135,11 @@ def test_bedrock_with_cache(mock_boto3_client):
         assert client._model_name == BedrockModels.CLAUDE_3_5_SONNET.value.name
 
         result = client.generate(
-            prompt_kwargs={
-                "messages": [
-                    {"role": "user", "content": "Roll 4d20 and tell me the final sum."},
+            prompt=RenderedPrompt(
+                messages=[
+                    RenderedMessage(role="user", content="Roll 4d20 and tell me the final sum."),
                 ]
-            }
+            )
         )
         assert result == "Here is your result: 56"
 
@@ -154,11 +155,11 @@ def test_bedrock_with_cache(mock_boto3_client):
         }
 
         result = client.generate(
-            prompt_kwargs={
-                "messages": [
-                    {"role": "user", "content": "Roll 4d20 and tell me the final sum."},
+            prompt=RenderedPrompt(
+                messages=[
+                    RenderedMessage(role="user", content="Roll 4d20 and tell me the final sum."),
                 ]
-            }
+            )
         )
         assert result == "Here is your result: 56"
 
diff --git a/lib/sycamore/sycamore/tests/unit/llms/test_llms.py b/lib/sycamore/sycamore/tests/unit/llms/test_llms.py
index ab76de5f3..d03e9ea55 100644
--- a/lib/sycamore/sycamore/tests/unit/llms/test_llms.py
+++ b/lib/sycamore/sycamore/tests/unit/llms/test_llms.py
@@ -1,8 +1,10 @@
 from pathlib import Path
 from unittest.mock import patch
 
+import pytest
 from sycamore.llms import OpenAI, OpenAIModels, Bedrock, BedrockModels, get_llm, MODELS
 from sycamore.llms.llms import FakeLLM
+from sycamore.llms.prompts import RenderedPrompt, RenderedMessage
 from sycamore.llms.prompts import EntityExtractorFewShotGuidancePrompt, EntityExtractorZeroShotGuidancePrompt
 from sycamore.utils.cache import DiskCache
 import datetime
@@ -44,6 +46,8 @@ def test_openai_davinci_fallback():
     assert llm._model_name == OpenAIModels.GPT_3_5_TURBO_INSTRUCT.value.name
 
 
+# Skip bc prompts are changing entirely
+@pytest.mark.skip
 def test_deprecated_prompt_fallback():
     from sycamore.llms.prompts.default_prompts import ENTITY_EXTRACTOR_ZERO_SHOT_GUIDANCE_PROMPT
 
@@ -68,8 +72,8 @@ def test_get_llm(mock_boto3_client):
 class TestCache:
     def test_nocache(self, tmp_path):
         llm = FakeLLM()
-        llm._llm_cache_set({}, None, "abc")
-        assert llm._llm_cache_get({}, None) is None
+        llm._llm_cache_set(RenderedPrompt(messages=[]), None, "abc")
+        assert llm._llm_cache_get(RenderedPrompt(messages=[]), None) is None
 
     def test_use_caching(self, tmp_path: Path):
         llm = FakeLLM()
@@ -84,19 +88,19 @@ def test_use_caching(self, tmp_path: Path):
     def test_cache(self, tmp_path: Path):
         llm = FakeLLM(cache=DiskCache(str(tmp_path)))
 
-        def doit(prompt_kwargs, llm_kwargs, result, overwrite=False, already_set=False):
+        def doit(prompt, llm_kwargs, result, overwrite=False, already_set=False):
             if overwrite:
-                assert llm._llm_cache_get(prompt_kwargs, llm_kwargs) is not None
-                llm._llm_cache_set(prompt_kwargs, llm_kwargs, result)
+                assert llm._llm_cache_get(prompt, llm_kwargs) is not None
+                llm._llm_cache_set(prompt, llm_kwargs, result)
             elif not already_set:
-                assert llm._llm_cache_get(prompt_kwargs, llm_kwargs) is None
-                llm._llm_cache_set(prompt_kwargs, llm_kwargs, result)
+                assert llm._llm_cache_get(prompt, llm_kwargs) is None
+                llm._llm_cache_set(prompt, llm_kwargs, result)
 
-            assert llm._llm_cache_get(prompt_kwargs, llm_kwargs) == result
+            assert llm._llm_cache_get(prompt, llm_kwargs) == result
 
-        doit({}, None, "abc")
-        doit({}, None, "abc2", overwrite=True)
-        doit({}, {}, "def")
-        doit({"prompt": "foff"}, {}, {"ghi": "jkl"})
-        doit({}, {"magic": True}, [1, 2, 3])
-        doit({}, None, "abc2", already_set=True)
+        doit(RenderedPrompt(messages=[]), None, "abc")
+        doit(RenderedPrompt(messages=[]), None, "abc2", overwrite=True)
+        doit(RenderedPrompt(messages=[]), {}, "def")
+        doit(RenderedPrompt(messages=[RenderedMessage(role="user", content="foff")]), {}, {"ghi": "jkl"})
+        doit(RenderedPrompt(messages=[]), {"magic": True}, [1, 2, 3])
+        doit(RenderedPrompt(messages=[]), None, "abc2", already_set=True)
diff --git a/lib/sycamore/sycamore/tests/unit/query/test_operations.py b/lib/sycamore/sycamore/tests/unit/query/test_operations.py
index 7e1116cf0..52807315a 100644
--- a/lib/sycamore/sycamore/tests/unit/query/test_operations.py
+++ b/lib/sycamore/sycamore/tests/unit/query/test_operations.py
@@ -8,6 +8,7 @@
 from sycamore.functions import CharacterTokenizer
 from sycamore.functions.basic_filters import MatchFilter, RangeFilter
 from sycamore.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.llms.prompts.default_prompts import (
     LlmClusterEntityAssignGroupsMessagesPrompt,
     LlmClusterEntityFormGroupsMessagesPrompt,
@@ -24,21 +25,24 @@ class MockLLM(LLM):
     def __init__(self):
         super().__init__(model_name="mock_model")
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        if prompt.messages[0].content.endswith('"1, 2, one, two, 1, 3".'):
+            return '{"groups": ["group1", "group2", "group3"]}'
         if (
-            prompt_kwargs["messages"]
+            prompt.messages
             == LlmClusterEntityFormGroupsMessagesPrompt(
                 field="text_representation", instruction="", text="1, 2, one, two, 1, 3"
             ).as_messages()
         ):
             return '{"groups": ["group1", "group2", "group3"]}'
         elif (
-            prompt_kwargs["messages"][0]
+            "['group1', 'group2', 'group3']" in prompt.messages[0].content
+            or prompt.messages[0]
             == LlmClusterEntityAssignGroupsMessagesPrompt(
                 field="text_representation", groups=["group1", "group2", "group3"]
             ).as_messages()[0]
         ):
-            value = prompt_kwargs["messages"][1]["content"]
+            value = prompt.messages[1].content
             if value == "1" or value == "one":
                 return "group1"
             elif value == "2" or value == "two":
@@ -47,6 +51,7 @@ def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
                 return "group3"
         else:
             return ""
+        return ""
 
     def is_chat_mode(self):
         return True
diff --git a/lib/sycamore/sycamore/tests/unit/query/test_strategy.py b/lib/sycamore/sycamore/tests/unit/query/test_strategy.py
index 8a272ea93..0b1db8d9f 100644
--- a/lib/sycamore/sycamore/tests/unit/query/test_strategy.py
+++ b/lib/sycamore/sycamore/tests/unit/query/test_strategy.py
@@ -2,6 +2,7 @@
 from typing import Optional
 
 from sycamore.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.query.logical_plan import LogicalPlan
 from sycamore.query.operators.query_database import QueryDatabase
 from sycamore.query.strategy import (
@@ -17,7 +18,7 @@ class DummyLLMClient(LLM):
     def is_chat_mode(self) -> bool:
         return False
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
         return "Dummy response from an LLM Client"
 
 
diff --git a/lib/sycamore/sycamore/tests/unit/test_docset.py b/lib/sycamore/sycamore/tests/unit/test_docset.py
index 443aadff6..3655f1dff 100644
--- a/lib/sycamore/sycamore/tests/unit/test_docset.py
+++ b/lib/sycamore/sycamore/tests/unit/test_docset.py
@@ -1,6 +1,7 @@
 import random
 import string
 from typing import Callable, Optional
+from dataclasses import asdict
 
 import pytest
 
@@ -8,6 +9,7 @@
 from sycamore import DocSet, Context
 from sycamore.data import Document, Element
 from sycamore.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.llms.prompts.default_prompts import (
     LlmClusterEntityAssignGroupsMessagesPrompt,
     LlmClusterEntityFormGroupsMessagesPrompt,
@@ -17,7 +19,6 @@
     Embed,
     Partitioner,
     Summarize,
-    ExtractEntity,
     FlatMap,
     Map,
     MapBatch,
@@ -29,6 +30,7 @@
 )
 from sycamore.transforms import Filter
 from sycamore.transforms.base import get_name_from_callable
+from sycamore.transforms.base_llm import LLMMap
 from sycamore.transforms.extract_entity import OpenAIEntityExtractor
 from sycamore.transforms.extract_schema import SchemaExtractor
 from sycamore.transforms.query import QueryExecutor
@@ -41,50 +43,64 @@ class MockLLM(LLM):
     def __init__(self):
         super().__init__(model_name="mock_model")
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        if llm_kwargs is None:
+            llm_kwargs = {}
+        if prompt.messages[-1].content.endswith("Element_index: 1\nText: third element\n"):
+            return "None"
         if (
-            prompt_kwargs == {"messages": [{"role": "user", "content": "Element_index: 1\nText: third element\n"}]}
+            asdict(prompt) == {"messages": [{"role": "user", "content": "Element_index: 1\nText: third element\n"}]}
             and llm_kwargs == {}
         ):
             return "None"
         elif (
-            "first short element" in prompt_kwargs["messages"][0]["content"]
-            and "second longer element with more words" in prompt_kwargs["messages"][0]["content"]
+            "first short element" in prompt.messages[-1].content
+            and "second longer element with more words" in prompt.messages[-1].content
             and llm_kwargs == {}
         ):
             return "4"
         elif (
-            "very long element with many words that might exceed token limit" in prompt_kwargs["messages"][0]["content"]
+            "very long element with many words that might exceed token limit" in prompt.messages[-1].content
             and llm_kwargs == {}
         ):
             return "5"
-        elif prompt_kwargs == {"messages": [{"role": "user", "content": "test1"}]} and llm_kwargs == {}:
+        elif asdict(prompt) == {"messages": [{"role": "user", "content": "test1"}]} and llm_kwargs == {}:
+            return "4"
+        elif prompt.messages[0].content == "test1":
             return "4"
-        elif prompt_kwargs == {"messages": [{"role": "user", "content": "test2"}]} and llm_kwargs == {}:
+        elif asdict(prompt) == {"messages": [{"role": "user", "content": "test2"}]} and llm_kwargs == {}:
+            return "2"
+        elif prompt.messages[0].content == "test2":
             return "2"
 
+        elif prompt.messages[-1].content.endswith('"1, 2, one, two, 1, 3".'):
+            return '{"groups": ["group1", "group2", "group3"]}'
+
         elif (
-            prompt_kwargs["messages"]
+            prompt.messages
             == LlmClusterEntityFormGroupsMessagesPrompt(
                 field="text_representation", instruction="", text="1, 2, one, two, 1, 3"
             ).as_messages()
         ):
             return '{"groups": ["group1", "group2", "group3"]}'
         elif (
-            prompt_kwargs["messages"][0]
+            "['group1', 'group2', 'group3']" in prompt.messages[0].content
+            or prompt.messages[0]
             == LlmClusterEntityAssignGroupsMessagesPrompt(
                 field="text_representation", groups=["group1", "group2", "group3"]
             ).as_messages()[0]
         ):
-            value = prompt_kwargs["messages"][1]["content"]
+            value = prompt.messages[1].content
             if value == "1" or value == "one":
                 return "group1"
             elif value == "2" or value == "two":
                 return "group2"
             elif value == "3" or value == "three":
                 return "group3"
+            else:
+                return ""
         else:
-            return ""
+            return prompt.messages[-1].content
 
     def is_chat_mode(self):
         return True
@@ -163,10 +179,11 @@ def test_embedding(self, mocker):
 
     def test_llm_extract_entity(self, mocker):
         context = mocker.Mock(spec=Context)
+        context.params = {}
         llm = mocker.Mock(spec=LLM)
         docset = DocSet(context, None)
         docset = docset.extract_entity(entity_extractor=OpenAIEntityExtractor("title", llm=llm, prompt_template=""))
-        assert isinstance(docset.lineage(), ExtractEntity)
+        assert isinstance(docset.lineage(), LLMMap)
 
     def test_query(self, mocker):
         context = mocker.Mock(spec=Context)
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_base_llm.py b/lib/sycamore/sycamore/tests/unit/transforms/test_base_llm.py
new file mode 100644
index 000000000..0710eb8fe
--- /dev/null
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_base_llm.py
@@ -0,0 +1,123 @@
+from sycamore.data import Document, Element
+from sycamore.llms.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt, SycamorePrompt
+from sycamore.llms.prompts.prompts import RenderedMessage
+from sycamore.transforms.base_llm import LLMMap, LLMMapElements
+import pytest
+from typing import Optional
+
+
+class FakeLLM(LLM):
+    def __init__(self):
+        super().__init__(model_name="dummy")
+
+    def is_chat_mode(self) -> bool:
+        return True
+
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        return "".join(m.content for m in prompt.messages)
+
+
+class FakeDocPrompt(SycamorePrompt):
+    def render_document(self, doc: Document) -> RenderedPrompt:
+        return RenderedPrompt(messages=[RenderedMessage(role="system", content=doc.text_representation or "None")])
+
+
+class FakeEltPrompt(SycamorePrompt):
+    def render_element(self, elt: Element, doc: Document) -> RenderedPrompt:
+        return RenderedPrompt(
+            messages=[
+                RenderedMessage(role="system", content=doc.text_representation or "None"),
+                RenderedMessage(role="user", content=elt.text_representation or "None"),
+            ]
+        )
+
+
+class TestLLMMap:
+    def test_wrong_prompt_fails_fast(self):
+        prompt = FakeEltPrompt()
+        llm = FakeLLM()
+        with pytest.raises(NotImplementedError) as einfo:
+            _ = LLMMap(None, prompt, "out", llm)
+        assert "FakeEltPrompt" in str(einfo.value)
+
+    def test_happy_path(self):
+        prompt = FakeDocPrompt()
+        llm = FakeLLM()
+        doc1 = Document({"text_representation": "ooga"})
+        doc2 = Document({"text_representation": "booga"})
+        map = LLMMap(None, prompt, "out", llm)
+        outdocs = map.llm_map([doc1, doc2])
+
+        assert outdocs[0].text_representation == "ooga"
+        assert outdocs[0].properties["out"] == "ooga"
+        assert outdocs[1].text_representation == "booga"
+        assert outdocs[1].properties["out"] == "booga"
+
+    def test_validate(self):
+        prompt = FakeDocPrompt()
+        llm = FakeLLM()
+        doc1 = Document({"text_representation": "ooga"})
+        doc2 = Document({"text_representation": "booga"})
+        count = 0
+
+        def valfn(d: Document) -> bool:
+            nonlocal count
+            count += 1
+            return count > 1
+
+        map = LLMMap(None, prompt, "out", llm, validate=valfn)
+        _ = map.llm_map([doc1, doc2])
+
+        assert count == 2
+
+
+class TestLLMMapElements:
+    def test_wrong_prompt_fails_fast(self):
+        prompt = FakeDocPrompt()
+        llm = FakeLLM()
+        with pytest.raises(NotImplementedError) as einfo:
+            _ = LLMMapElements(None, prompt, "out", llm)
+        assert "FakeDocPrompt" in str(einfo.value)
+
+    def test_happy_path(self):
+        prompt = FakeEltPrompt()
+        llm = FakeLLM()
+        doc1 = Document(
+            {
+                "doc_id": "1",
+                "text_representation": "ooga",
+                "elements": [{"text_representation": "yo"}, {"text_representation": "ho"}],
+            }
+        )
+        doc2 = Document({"doc_id": "2", "elements": [{"text_representation": "booga"}, {}]})
+        map = LLMMapElements(None, prompt, "out", llm)
+        outdocs = map.llm_map_elements([doc1, doc2])
+
+        assert outdocs[0].elements[0].properties["out"] == "oogayo"
+        assert outdocs[0].elements[1].properties["out"] == "oogaho"
+        assert outdocs[1].elements[0].properties["out"] == "Nonebooga"
+        assert outdocs[1].elements[1].properties["out"] == "NoneNone"
+
+    def test_postprocess(self):
+        prompt = FakeEltPrompt()
+        llm = FakeLLM()
+        doc1 = Document(
+            {
+                "doc_id": "1",
+                "text_representation": "ooga",
+                "elements": [{"text_representation": "yo"}, {"text_representation": "ho"}],
+            }
+        )
+        doc2 = Document({"doc_id": "2", "elements": [{"text_representation": "booga"}, {}]})
+        count = 0
+
+        def valfn(e: Element) -> bool:
+            nonlocal count
+            count += 1
+            return count > 1
+
+        map = LLMMapElements(None, prompt, "out", llm, validate=valfn)
+        _ = map.llm_map_elements([doc1, doc2])
+
+        assert count == 4
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_extract_entity.py b/lib/sycamore/sycamore/tests/unit/transforms/test_extract_entity.py
index 389165653..0c06d0bff 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_extract_entity.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_extract_entity.py
@@ -5,13 +5,9 @@
 import sycamore
 from sycamore.context import Context, OperationTypes, ExecMode
 from sycamore.data import Document, Element
-from sycamore.transforms import ExtractEntity
 from sycamore.transforms.extract_entity import OpenAIEntityExtractor
 from sycamore.llms import LLM
-from sycamore.llms.prompts.default_prompts import (
-    EntityExtractorFewShotGuidancePrompt,
-    EntityExtractorZeroShotGuidancePrompt,
-)
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.tests.unit.test_docset import TestSimilarityScorer, MockTokenizer
 from sycamore.tests.unit.test_docset import MockLLM as docsetMockLLM
 from sycamore.tests.unit.transforms.test_llm_filter import tokenizer_doc
@@ -21,40 +17,25 @@ class MockLLM(LLM):
     def __init__(self):
         super().__init__(model_name="mock_model")
 
-    def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
-        if prompt_kwargs == {"messages": [{"role": "user", "content": "s3://path"}]} and llm_kwargs == {}:
-            return "alt_title"
-        if prompt_kwargs == {"prompt": "s3://path"} and llm_kwargs == {}:
+    def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+        if len(prompt.messages) == 1:
+            usermessage = prompt.messages[0].content
+        else:
+            usermessage = prompt.messages[1].content
+
+        if "s3://path" in usermessage:
             return "alt_title"
 
-        if (
-            prompt_kwargs["entity"] == "title"
-            and prompt_kwargs["query"] == "ELEMENT 1: None\nELEMENT 2: None\n"
-            and prompt_kwargs["examples"] is None
-        ):
-            assert isinstance(prompt_kwargs["prompt"], EntityExtractorZeroShotGuidancePrompt)
-            assert llm_kwargs is None
-            return "title1"
+        if "Jack Black" in usermessage:
+            return "Jack Black"
 
-        if (
-            prompt_kwargs["entity"] == "title"
-            and prompt_kwargs["query"] == "ELEMENT 1: None\nELEMENT 2: None\n"
-            and prompt_kwargs["examples"] == "title"
-        ):
-            assert isinstance(prompt_kwargs["prompt"], EntityExtractorFewShotGuidancePrompt)
-            assert llm_kwargs is None
+        if "example" in usermessage:
             return "title2"
 
-        if (
-            prompt_kwargs["entity"] == "title"
-            and prompt_kwargs["query"] == "ELEMENT 1: Jack Black\nELEMENT 2: None\n"
-            and prompt_kwargs["examples"] is None
-        ):
-            assert isinstance(prompt_kwargs["prompt"], EntityExtractorZeroShotGuidancePrompt)
-            assert llm_kwargs is None
-            return "Jack Black"
+        if "title" in usermessage:
+            return "title1"
 
-        logging.error(f"{prompt_kwargs} // {llm_kwargs}")
+        logging.error(f"{prompt} // {llm_kwargs}")
         assert False, "Make all generate branches explicitly check the arguments"
 
     def is_chat_mode(self):
@@ -87,17 +68,17 @@ class TestEntityExtraction:
 
     def test_extract_entity_zero_shot(self, mocker):
         llm = MockLLM()
-        extract_entity = ExtractEntity(None, entity_extractor=OpenAIEntityExtractor("title", llm=llm))
-        out_doc = extract_entity.run(self.doc)
-        assert out_doc.properties.get("title") == "title1"
+        extractor = OpenAIEntityExtractor("title", llm=llm)
+        llm_map = extractor.as_llm_map(None)
+        out_docs = llm_map.run([self.doc])
+        assert out_docs[0].properties.get("title") == "title1"
 
     def test_extract_entity_zero_shot_custom_field(self, mocker):
         llm = MockLLM()
-        extract_entity = ExtractEntity(
-            None, entity_extractor=OpenAIEntityExtractor("title", llm=llm, field="properties.entity.author")
-        )
-        out_doc = extract_entity.run(self.doc)
-        assert out_doc.properties.get("title") == "Jack Black"
+        extractor = OpenAIEntityExtractor("title", llm=llm, field="properties.entity.author")
+        llm_map = extractor.as_llm_map(None)
+        out_docs = llm_map.run([self.doc])
+        assert out_docs[0].properties.get("title") == "Jack Black"
 
     def test_extract_entity_with_context_llm(self, mocker):
         llm = MockLLM()
@@ -106,40 +87,31 @@ def test_extract_entity_with_context_llm(self, mocker):
                 "default": {"llm": llm},
             }
         )
-        extract_entity = ExtractEntity(None, context=context, entity_extractor=OpenAIEntityExtractor("title"))
-        out_doc = extract_entity.run(self.doc)
-        assert out_doc.properties.get("title") == "title1"
+        extractor = OpenAIEntityExtractor("title")
+        llm_map = extractor.as_llm_map(None, context=context)
+        out_docs = llm_map.run([self.doc])
+        assert out_docs[0].properties.get("title") == "title1"
 
     def test_extract_entity_few_shot(self, mocker):
         llm = MockLLM()
-        extract_entity = ExtractEntity(
-            None, entity_extractor=OpenAIEntityExtractor("title", llm=llm, prompt_template="title")
-        )
-        out_doc = extract_entity.run(self.doc)
-        assert out_doc.properties.get("title") == "title2"
+        extractor = OpenAIEntityExtractor("title", llm=llm, prompt_template="title")
+        llm_map = extractor.as_llm_map(None)
+        out_docs = llm_map.run([self.doc])
+        assert out_docs[0].properties.get("title") == "title2"
 
     def test_extract_entity_document_field_messages(self, mocker):
         llm = MockLLM()
-        extract_entity = ExtractEntity(
-            None,
-            entity_extractor=OpenAIEntityExtractor(
-                "title", llm=llm, use_elements=False, prompt=[], field="properties.path"
-            ),
-        )
-        out_doc = extract_entity.run(self.doc)
-
-        assert out_doc.properties.get("title") == "alt_title"
+        extractor = OpenAIEntityExtractor("title", llm=llm, use_elements=False, prompt=[], field="properties.path")
+        llm_map = extractor.as_llm_map(None)
+        out_docs = llm_map.run([self.doc])
+        assert out_docs[0].properties.get("title") == "alt_title"
 
     def test_extract_entity_document_field_string(self, mocker):
         llm = MockLLM()
-        extract_entity = ExtractEntity(
-            None,
-            entity_extractor=OpenAIEntityExtractor(
-                "title", llm=llm, use_elements=False, prompt="", field="properties.path"
-            ),
-        )
-        out_doc = extract_entity.run(self.doc)
-        assert out_doc.properties.get("title") == "alt_title"
+        extractor = OpenAIEntityExtractor("title", llm=llm, use_elements=False, prompt="", field="properties.path")
+        llm_map = extractor.as_llm_map(None)
+        out_docs = llm_map.run([self.doc])
+        assert out_docs[0].properties.get("title") == "alt_title"
 
     def test_extract_entity_with_similarity_sorting(self, mocker):
         doc_list = [
@@ -193,10 +165,15 @@ def test_extract_entity_with_similarity_sorting(self, mocker):
         taken = entity_docset.take()
         assert len(taken) == 4
         assert len(taken[0].elements) == 2
-        assert (taken[1].elements[0]["properties"]["_element_index"]) == 9
-        assert (taken[1].elements[1]["properties"]["_element_index"]) == 4
+        # Element order should be unchanged regardless of scorer
+        assert (taken[1].elements[0]["properties"]["_element_index"]) == 4
+        assert (taken[1].elements[1]["properties"]["_element_index"]) == 9
         assert (taken[0].elements[1]["properties"]["_element_index"]) == 2
 
+        # Element order should be changed in the prompt
+        assert "ELEMENT 1: test2" in taken[1].properties[new_field]
+        assert "ELEMENT 2: test1" in taken[1].properties[new_field]
+
     def test_extract_entity_with_tokenizer(self, mocker):
         mock_llm = docsetMockLLM()
         mock_tokenizer = MockTokenizer()
@@ -218,13 +195,14 @@ def test_extract_entity_with_tokenizer(self, mocker):
             prompt=[],
             field="text_representation",
             tokenizer=mock_tokenizer,
-            max_tokens=10,  # Low token limit to test windowing
+            max_tokens=20,  # Low token limit to test windowing
         )
 
         entity_docset = docset.extract_entity(
             entity_extractor=entity_extractor,
         )
         taken = entity_docset.take()
+
         assert taken[0].properties[f"{new_field}_source_element_index"] == {0, 1, 2}
         assert taken[1].properties[f"{new_field}_source_element_index"] == {2}
         assert taken[0].properties[new_field] == "4"
@@ -234,8 +212,3 @@ def test_extract_entity_with_tokenizer(self, mocker):
         assert taken[0].elements[2]["properties"]["_autogen_LLMExtractEntityOutput_source_element_index"] == {0, 1, 2}
         assert taken[1].elements[0]["properties"]["_autogen_LLMExtractEntityOutput_source_element_index"] == {1}
         assert taken[1].elements[1]["properties"]["_autogen_LLMExtractEntityOutput_source_element_index"] == {2}
-        assert taken[0].elements[0]["properties"]["_autogen_LLMExtractEntityOutput"] == "4"
-        assert taken[0].elements[1]["properties"]["_autogen_LLMExtractEntityOutput"] == "4"
-        assert taken[0].elements[2]["properties"]["_autogen_LLMExtractEntityOutput"] == "4"
-        assert taken[1].elements[0]["properties"]["_autogen_LLMExtractEntityOutput"] == "None"
-        assert taken[1].elements[1]["properties"]["_autogen_LLMExtractEntityOutput"] == "5"
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_extract_table_properties.py b/lib/sycamore/sycamore/tests/unit/transforms/test_extract_table_properties.py
index 5fcc2060c..0aa0f649d 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_extract_table_properties.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_extract_table_properties.py
@@ -54,7 +54,7 @@ def test_extract_key_value_pair(self, mocker):
         mock_frombytes.return_value = image
 
         llm = mocker.Mock(spec=OpenAI)
-        llm.generate.return_value = '{"key1":"val1"}'
+        llm.generate_old.return_value = '{"key1":"val1"}'
         llm.format_image.return_value = {"type": "image", "data": "dummy"}
 
         property_name = "llm_response"
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_graph_entity_extractor.py b/lib/sycamore/sycamore/tests/unit/transforms/test_graph_entity_extractor.py
index c7b5ab5f5..b7b3d88bd 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_graph_entity_extractor.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_graph_entity_extractor.py
@@ -4,6 +4,7 @@
 from sycamore.data.document import Document, HierarchicalDocument
 from sycamore.data.element import Element
 from sycamore.llms.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.reader import DocSetReader
 from sycamore.transforms.extract_document_structure import StructureBySection
 from sycamore.transforms.extract_graph_entities import EntityExtractor
@@ -58,13 +59,13 @@ class MockLLM(LLM):
         def __init__(self):
             super().__init__(model_name="mock_model")
 
-        def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
-            pass
+        def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+            return ""
 
         def is_chat_mode(self):
             return True
 
-        async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+        async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None):
             return """{
                 "Company": [
                     {"name": "Microsoft"},
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_graph_relationship_extractor.py b/lib/sycamore/sycamore/tests/unit/transforms/test_graph_relationship_extractor.py
index 59c898ff2..d299651ca 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_graph_relationship_extractor.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_graph_relationship_extractor.py
@@ -4,6 +4,7 @@
 from sycamore.data.document import Document, HierarchicalDocument
 from sycamore.data.element import Element
 from sycamore.llms.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.reader import DocSetReader
 from sycamore.transforms.extract_document_structure import StructureBySection
 from sycamore.transforms.extract_graph_entities import EntityExtractor
@@ -60,13 +61,13 @@ class MockEntityLLM(LLM):
         def __init__(self):
             super().__init__(model_name="mock_model")
 
-        def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
-            pass
+        def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+            return ""
 
         def is_chat_mode(self):
             return True
 
-        async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+        async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None):
             return """{
                 "Company": [
                     {"name": "Microsoft"},
@@ -80,13 +81,13 @@ class MockRelationshipLLM(LLM):
         def __init__(self):
             super().__init__(model_name="mock_model")
 
-        def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None) -> str:
+        def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
             return ""
 
         def is_chat_mode(self):
             return True
 
-        async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+        async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None):
             return """{
                 "Competes": [
                 {"start": {"name": "Microsoft"}, "end": {"name": "Google"}}
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_llm_filter.py b/lib/sycamore/sycamore/tests/unit/transforms/test_llm_filter.py
index e4d171bd7..5e195a2ca 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_llm_filter.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_llm_filter.py
@@ -7,8 +7,10 @@
 from sycamore.data import Document, Element
 from sycamore.functions import Tokenizer
 from sycamore.llms import LLM
+from sycamore.plan_nodes import Node
 from sycamore.tests.unit.test_docset import MockLLM, TestSimilarityScorer, MockTokenizer
 from sycamore.transforms.extract_entity import EntityExtractor
+from sycamore.transforms.base_llm import LLMMap
 
 tokenizer_doc = [
     Document(
@@ -27,7 +29,9 @@
             Element(properties={"_element_index": 1}, text_representation="third element"),  # llm_filter result = 2
             Element(
                 properties={"_element_index": 2},
-                text_representation="very long element with many words that might exceed token limit",
+                text_representation="very long element with many words that might exceed token limit."
+                " Specifically, it has so many words that even with the additional contextualization"
+                " like 'Element type' and 'page number' it still overflows",
             ),  # llm_filter result = 5
         ],
     ),
@@ -223,7 +227,7 @@ def test_llm_filter_with_tokenizer_and_max_tokens(self):
             threshold=3,
             use_elements=True,
             tokenizer=mock_tokenizer,
-            max_tokens=10,  # Low token limit to test windowing
+            max_tokens=20,  # Low token limit to test windowing
         )
 
         taken = filtered_docset.take()
@@ -252,6 +256,11 @@ def __init__(self, entity_name, bad_val):
         super().__init__(entity_name)
         self.bad_val = bad_val
 
+    def as_llm_map(
+        self, child: Optional[Node], context: Optional[Context] = None, llm: Optional[LLM] = None, **kwargs
+    ) -> LLMMap:
+        raise NotImplementedError("Not using this yet")
+
     def extract_entity(
         self, document: Document, context: Optional[Context] = None, llm: Optional[LLM] = None
     ) -> Document:
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_llm_query.py b/lib/sycamore/sycamore/tests/unit/transforms/test_llm_query.py
index 6b352dfdb..da9b944f6 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_llm_query.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_llm_query.py
@@ -21,7 +21,7 @@ def test_llm_query_text_does_not_call_llm(self, mocker):
 
     def test_summarize_text_element_calls_llm(self, mocker):
         llm = mocker.Mock(spec=OpenAI)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = {"summary": "summary"}
         doc = Document()
         element1 = Element()
@@ -39,7 +39,7 @@ def test_summarize_text_element_calls_llm(self, mocker):
 
     def test_summarize_text_document_calls_llm(self, mocker):
         llm = mocker.Mock(spec=OpenAI)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = {"summary": "summary"}
         doc = Document()
         element1 = Element()
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_resolve_graph_entities.py b/lib/sycamore/sycamore/tests/unit/transforms/test_resolve_graph_entities.py
index c7cd071fb..58cfe1c7f 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_resolve_graph_entities.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_resolve_graph_entities.py
@@ -4,6 +4,7 @@
 from sycamore.data.document import Document, HierarchicalDocument
 from sycamore.data.element import Element
 from sycamore.llms.llms import LLM
+from sycamore.llms.prompts import RenderedPrompt
 from sycamore.reader import DocSetReader
 from sycamore.transforms.extract_document_structure import StructureBySection
 from sycamore.transforms.extract_graph_entities import EntityExtractor
@@ -59,13 +60,14 @@ class MockEntityLLM(LLM):
         def __init__(self):
             super().__init__(model_name="mock_model")
 
-        def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
-            pass
+        def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+            """"""
+            raise NotImplementedError("All these calls are async")
 
         def is_chat_mode(self):
             return True
 
-        async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+        async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None):
             return """{
                 "Company": [
                     {"name": "Microsoft"},
@@ -79,13 +81,13 @@ class MockRelationshipLLM(LLM):
         def __init__(self):
             super().__init__(model_name="mock_model")
 
-        def generate(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
-            pass
+        def generate(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None) -> str:
+            return ""
 
         def is_chat_mode(self):
             return True
 
-        async def generate_async(self, *, prompt_kwargs: dict, llm_kwargs: Optional[dict] = None):
+        async def generate_async(self, *, prompt: RenderedPrompt, llm_kwargs: Optional[dict] = None):
             return """{
                 "Competes": [
                 {"start": {"name": "Microsoft"}, "end": {"name": "Google"}}
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_schema.py b/lib/sycamore/sycamore/tests/unit/transforms/test_schema.py
index 56c4c6943..141b9e87c 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_schema.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_schema.py
@@ -4,7 +4,7 @@
 
 from ray.util import inspect_serializability
 
-from sycamore.llms.prompts import SchemaZeroShotGuidancePrompt
+from sycamore.llms.prompts.default_prompts import _SchemaZeroShotGuidancePrompt
 from sycamore.data import Document, Element
 from sycamore.llms.llms import LLM, FakeLLM
 from sycamore.schema import Schema, SchemaField
@@ -37,7 +37,7 @@ def test_serializable(self, mocker):
 
     def test_extract_schema(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = '```json {"accidentNumber": "string"}```'
 
         num_of_elements = 10
@@ -66,7 +66,7 @@ def test_extract_schema(self, mocker):
         assert doc.properties == ground_truth
         generate.assert_called_once_with(
             prompt_kwargs={
-                "prompt": SchemaZeroShotGuidancePrompt(),
+                "prompt": _SchemaZeroShotGuidancePrompt(),
                 "entity": class_name,
                 "max_num_properties": max_num_properties,
                 "query": schema_extractor._prompt_formatter(doc.elements),
@@ -75,7 +75,7 @@ def test_extract_schema(self, mocker):
 
     def test_extract_batch_schema(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = '```json {"accidentNumber": "string"}```'
         schema_extractor = LLMSchemaExtractor("AircraftIncident", llm)
 
@@ -98,7 +98,7 @@ def test_extract_batch_schema(self, mocker):
 
     def test_extract_properties(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = '```json {"accidentNumber": "FTW95FA129", "location": "Fort Worth, TX"}```'
 
         doc = Document()
@@ -124,7 +124,7 @@ def test_extract_properties(self, mocker):
 
     def test_extract_properties_explicit_json(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = '{"accidentNumber": "FTW95FA129"}'
 
         doc = Document()
@@ -147,7 +147,7 @@ def test_extract_properties_explicit_json(self, mocker):
 
     def test_extract_properties_fixed_json(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = '{"accidentNumber": "FTW95FA129"}'
 
         doc = Document()
@@ -166,7 +166,7 @@ def test_extract_properties_fixed_json(self, mocker):
 
     def test_extract_properties_with_schema(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = (
             '{"startDate": "2022-01-22 00:01:31", '
             '"endDate": "2022-01-24 00:01:59", '
diff --git a/lib/sycamore/sycamore/tests/unit/transforms/test_summarize.py b/lib/sycamore/sycamore/tests/unit/transforms/test_summarize.py
index f4a934c46..f749280eb 100644
--- a/lib/sycamore/sycamore/tests/unit/transforms/test_summarize.py
+++ b/lib/sycamore/sycamore/tests/unit/transforms/test_summarize.py
@@ -21,7 +21,7 @@ def test_summarize_text_does_not_call_llm(self, mocker):
 
     def test_summarize_text_calls_llm(self, mocker):
         llm = mocker.Mock(spec=LLM)
-        generate = mocker.patch.object(llm, "generate")
+        generate = mocker.patch.object(llm, "generate_old")
         generate.return_value = "this is the summary"
         doc = Document()
         element1 = Element()
diff --git a/lib/sycamore/sycamore/transforms/base_llm.py b/lib/sycamore/sycamore/transforms/base_llm.py
new file mode 100644
index 000000000..d1514fc45
--- /dev/null
+++ b/lib/sycamore/sycamore/transforms/base_llm.py
@@ -0,0 +1,228 @@
+from typing import Optional, Sequence, Callable, Union
+
+from sycamore.llms.llms import LLM, LLMMode
+from sycamore.llms.prompts.prompts import SycamorePrompt, RenderedPrompt
+from sycamore.plan_nodes import Node
+from sycamore.transforms.map import MapBatch
+from sycamore.data import Document, Element
+
+
+def _infer_prompts(
+    prompts: list[RenderedPrompt],
+    llm: LLM,
+    llm_mode: LLMMode,
+) -> list[str]:
+    if llm_mode == LLMMode.SYNC:
+        res = []
+        for p in prompts:
+            s = llm.generate(prompt=p)
+            res.append(s)
+        return res
+    elif llm_mode == LLMMode.ASYNC:
+        raise NotImplementedError("Haven't done async yet")
+    elif llm_mode == LLMMode.BATCH:
+        raise NotImplementedError("Haven't done batch yet")
+    else:
+        raise NotImplementedError("Unknown LLM Mode")
+
+
+class LLMMap(MapBatch):
+    """The LLMMap transform renders each Document in a docset into
+    a prompt for an LLM, calls the LLM, and attaches the output to
+    the document.
+
+    Args:
+
+        child: Child node in the sycamore execution graph
+        prompt: The SycamorePrompt to use to render each document.
+            Must implement the ``render_document`` method.
+        output_field: The name of the field in doc.properties in which
+            to store the llm output
+        llm: The llm to use for inference.
+        llm_mode: How to call the llm - sync/async/batch. All LLMs do not
+            necessarily implement all options.
+        iteration_var: Name of the document property to increment with every
+            invalid response. Default is None, which means no re-try.
+        validate: Function to determine whether an LLM response is valid.
+            Default is 'everything is valid'
+        max_tries: Hard limit on the number of LLM calls per document. Default
+            is 5
+
+    Example:
+         .. code-block:: python
+
+            prompt = EntityExtractorZeroShotGuidancePrompt.set(entity="title")
+
+            docset.llm_map(
+                prompt=prompt,
+                output_field="title",
+                llm=OpenAI(OpenAIModels.GPT_4O_MINI)
+            )
+    """
+
+    def __init__(
+        self,
+        child: Optional[Node],
+        prompt: SycamorePrompt,
+        output_field: str,
+        llm: LLM,
+        llm_mode: LLMMode = LLMMode.SYNC,
+        iteration_var: Optional[str] = None,
+        validate: Callable[[Document], bool] = lambda d: True,
+        max_tries: int = 5,
+        **kwargs,
+    ):
+        self._prompt = prompt
+        self._validate_prompt()
+        self._output_field = output_field
+        self._llm = llm
+        self._llm_mode = llm_mode
+        self._iteration_var = iteration_var
+        self._validate = validate
+        self._max_tries = max_tries
+        super().__init__(child, f=self.llm_map, **kwargs)
+
+    def llm_map(self, documents: list[Document]) -> list[Document]:
+        if self._iteration_var is not None:
+            for d in documents:
+                d.properties[self._iteration_var] = 0
+
+        valid = [False] * len(documents)
+        tries = 0
+        while not all(valid) and tries < self._max_tries:
+            tries += 1
+            rendered = [self._prompt.render_document(d) for v, d in zip(valid, documents) if not v]
+            if sum([0, *(len(r.messages) for r in rendered)]) == 0:
+                break
+            results = _infer_prompts(rendered, self._llm, self._llm_mode)
+            ri = 0
+            for i in range(len(documents)):
+                if valid[i]:
+                    continue
+                documents[i].properties[self._output_field] = results[ri]
+                valid[i] = self._validate(documents[i])
+                ri += 1
+                if self._iteration_var is not None and not valid[i]:
+                    documents[i].properties[self._iteration_var] += 1
+            if self._iteration_var is None:
+                break
+
+        return documents
+
+    def _validate_prompt(self):
+        doc = Document()
+        try:
+            _ = self._prompt.render_document(doc)
+        except NotImplementedError as e:
+            raise e
+        except Exception:
+            pass
+
+
+class LLMMapElements(MapBatch):
+    """The LLMMapElements transform renders each Element for each
+    Document in a docset into a prompt for an LLM, calls the LLM,
+    and attaches the output to the element.
+
+    Args:
+        child: Child node in the sycamore execution graph
+        prompt: The SycamorePrompt to use to render each element.
+            Must implement the ``render_element`` method.
+        output_field: The name of the field in elt.properties in which
+            to store the llm output.
+        llm: The llm to use for inference.
+        llm_mode: How to call the llm - sync/async/batch. All LLMs do not
+            necessarily implement all options.
+        iteration_var: Name of the element property to increment with every
+            invalid response. Default is None, which means no re-try.
+        validate: Function to determine whether an LLM response is valid.
+            Default is 'everything is valid'
+        max_tries: Hard limit on the number of LLM calls per element. Default
+            is 5
+
+    Example:
+         .. code-block:: python
+
+            prompt = TextSummarizerGuidancePrompt
+
+            docset.llm_map_elements(
+                prompt = prompt,
+                output_field = "summary",
+                llm = OpenAI(OpenAIModels.GPT_4O)
+    """
+
+    def __init__(
+        self,
+        child: Optional[Node],
+        prompt: SycamorePrompt,
+        output_field: str,
+        llm: LLM,
+        llm_mode: LLMMode = LLMMode.SYNC,
+        iteration_var: Optional[str] = None,
+        validate: Callable[[Element], bool] = lambda d: True,
+        max_tries: int = 5,
+        **kwargs,
+    ):
+        self._prompt = prompt
+        self._validate_prompt()
+        self._output_field = output_field
+        self._llm = llm
+        self._llm_mode = llm_mode
+        self._iteration_var = iteration_var
+        self._validate = validate
+        self._max_tries = max_tries
+        super().__init__(child, f=self.llm_map_elements, **kwargs)
+
+    def llm_map_elements(self, documents: list[Document]) -> list[Document]:
+        elt_doc_pairs = [(e, d) for d in documents for e in d.elements]
+        if self._iteration_var is not None:
+            for e, _ in elt_doc_pairs:
+                e.properties[self._iteration_var] = 0
+
+        valid = [False] * len(elt_doc_pairs)
+        tries = 0
+        while not all(valid) and tries < self._max_tries:
+            tries += 1
+            rendered = [self._prompt.render_element(e, d) for v, (e, d) in zip(valid, elt_doc_pairs) if not v]
+            if sum([0, *(len(r.messages) for r in rendered)]) == 0:
+                break
+            results = _infer_prompts(rendered, self._llm, self._llm_mode)
+            ri = 0
+            for i in range(len(elt_doc_pairs)):
+                if valid[i]:
+                    continue
+                print(ri)
+                elt, doc = elt_doc_pairs[i]
+                elt.properties[self._output_field] = results[ri]
+                valid[i] = self._validate(elt)
+                ri += 1
+                if self._iteration_var is not None:
+                    elt.properties[self._iteration_var] += 1
+            if self._iteration_var is None:
+                break
+
+        last_doc = None
+        new_elts = []
+        for e, d in elt_doc_pairs:
+            if last_doc is not None and last_doc.doc_id != d.doc_id:
+                last_doc.elements = new_elts
+                new_elts = []
+            new_elts.append(e)
+            last_doc = d
+        if last_doc is not None:
+            last_doc.elements = new_elts
+        return documents
+
+    def _validate_prompt(self):
+        doc = Document()
+        elt = Element()
+        try:
+            _ = self._prompt.render_element(elt, doc)
+        except NotImplementedError as e:
+            raise e
+        except Exception:
+            pass
+
+
+def _as_sequences(ls: list[Union[RenderedPrompt, Sequence[RenderedPrompt]]]) -> list[Sequence[RenderedPrompt]]:
+    return [[p] if isinstance(p, RenderedPrompt) else p for p in ls]
diff --git a/lib/sycamore/sycamore/transforms/extract_entity.py b/lib/sycamore/sycamore/transforms/extract_entity.py
index 19b3663a1..260db3c12 100644
--- a/lib/sycamore/sycamore/transforms/extract_entity.py
+++ b/lib/sycamore/sycamore/transforms/extract_entity.py
@@ -1,14 +1,24 @@
 from abc import ABC, abstractmethod
-from typing import Callable, Any, Optional, Union
+from typing import Callable, Any, Optional, Union, cast
 
 from sycamore.context import Context, context_params, OperationTypes
 from sycamore.data import Element, Document
 from sycamore.llms import LLM
-from sycamore.llms.prompts import (
+from sycamore.llms.prompts.default_prompts import (
     EntityExtractorZeroShotGuidancePrompt,
     EntityExtractorFewShotGuidancePrompt,
+    _EntityExtractorZeroShotGuidancePrompt,
+    _EntityExtractorFewShotGuidancePrompt,
+)
+from sycamore.llms.prompts.prompts import (
+    ElementListIterPrompt,
+    ElementListPrompt,
+    RenderedMessage,
+    SycamorePrompt,
+    RenderedPrompt,
 )
 from sycamore.plan_nodes import Node
+from sycamore.transforms.base_llm import LLMMap
 from sycamore.transforms.map import Map
 from sycamore.utils.time_trace import timetrace
 from sycamore.functions.tokenizer import Tokenizer
@@ -25,10 +35,29 @@ def element_list_formatter(elements: list[Element], field: str = "text_represent
     return query
 
 
+class FieldToValuePrompt(SycamorePrompt):
+    def __init__(self, messages: list[RenderedMessage], field: str):
+        self.messages = messages
+        self.field = field
+
+    def render_document(self, doc: Document) -> RenderedPrompt:
+        value = doc.field_to_value(self.field)
+        rendered = []
+        for m in self.messages:
+            rendered.append(RenderedMessage(role=m.role, content=m.content.format(value=value)))
+        return RenderedPrompt(messages=rendered)
+
+
 class EntityExtractor(ABC):
     def __init__(self, entity_name: str):
         self._entity_name = entity_name
 
+    @abstractmethod
+    def as_llm_map(
+        self, child: Optional[Node], context: Optional[Context] = None, llm: Optional[LLM] = None, **kwargs
+    ) -> Node:
+        pass
+
     @abstractmethod
     def extract_entity(
         self, document: Document, context: Optional[Context] = None, llm: Optional[LLM] = None
@@ -100,6 +129,123 @@ def __init__(
         self._similarity_query = similarity_query
         self._similarity_scorer = similarity_scorer
 
+    @context_params(OperationTypes.INFORMATION_EXTRACTOR)
+    def as_llm_map(
+        self, child: Optional[Node], context: Optional[Context] = None, llm: Optional[LLM] = None, **kwargs
+    ) -> Node:
+        if llm is None:
+            llm = self._llm
+        assert llm is not None, "Could not find an LLM to use"
+        prompt: SycamorePrompt  # grr mypy
+        if self._prompt_template is not None:
+            prompt = EntityExtractorFewShotGuidancePrompt
+            prompt = cast(ElementListPrompt, prompt.set(examples=self._prompt_template))
+        else:
+            prompt = EntityExtractorZeroShotGuidancePrompt
+
+        if self._tokenizer is not None:
+
+            def validate(d: Document) -> bool:
+                return d.properties.get(self._entity_name, "None") != "None"
+
+            def elt_list_ctor(elts: list[Element]) -> str:
+                if self._prompt_formatter is not element_list_formatter:
+                    return self._prompt_formatter(elts, self._field)
+                combined_text = ""
+                for element in elts:
+                    if "type" in element:
+                        combined_text += f"Element type: {element['type']}\n"
+                    if "page_number" in element["properties"]:
+                        combined_text += f"Page_number: {element['properties']['page_number']}\n"
+                    if "_element_index" in element["properties"]:
+                        combined_text += f"Element_index: {element['properties']['_element_index']}\n"
+                    combined_text += f"Text: {element.field_to_value(self._field)}\n"
+                return combined_text
+
+            source_idx_key = f"{self._entity_name}_source_element_index"
+
+            def eb(elts: list[Element]) -> list[list[Element]]:
+                curr_tks = 0
+                curr_batch: list[Element] = []
+                batches = []
+                source_indices = set()
+                assert (
+                    self._tokenizer is not None
+                ), "Cannot batch elements based on token counts because tokenizer is None"
+                for e in elts:
+                    eltl = cast(ElementListPrompt, prompt).element_list_constructor([e])
+                    tks = len(self._tokenizer.tokenize(eltl))
+                    if tks + curr_tks > self._max_tokens:
+                        batches.append(curr_batch)
+                        curr_tks = tks
+                        curr_batch = [e]
+                        source_indices = {e.element_index}
+                        e.properties[source_idx_key] = source_indices
+                    else:
+                        e.properties[source_idx_key] = source_indices
+                        source_indices.add(e.element_index)
+                        curr_batch.append(e)
+                        curr_tks += tks
+                batches.append(curr_batch)
+                return batches
+
+            iteration_var_name = f"{self._entity_name}_i"
+
+            def postprocess(d: Document) -> Document:
+                last_eclub: set[int] = set()
+                club_idx = 0
+                target_club_idx = d.properties[iteration_var_name]
+                for e in d.elements:
+                    if len(last_eclub) > 0 and e.properties[source_idx_key] != last_eclub:
+                        club_idx += 1
+                    last_eclub = e.properties[source_idx_key]
+                    if club_idx == target_club_idx:
+                        d.properties[source_idx_key] = last_eclub
+                        break
+                return d
+
+            prompt = ElementListIterPrompt(
+                system=prompt.system,
+                user=prompt.user,
+                element_list_constructor=elt_list_ctor,
+                element_batcher=eb,
+                entity=self._entity_name,
+                examples=self._prompt_template,
+                iteration_var_name=iteration_var_name,
+            )
+
+            llm_map = LLMMap(
+                child, prompt, self._entity_name, llm, iteration_var=iteration_var_name, validate=validate, **kwargs
+            )
+            ppmap = Map(llm_map, f=postprocess)
+            return ppmap
+
+        elif not self._use_elements:
+            if self._prompt is None:
+                raise ValueError("prompt must be specified if use_elements is False")
+            if isinstance(self._prompt, str):
+                prompt = FieldToValuePrompt(
+                    messages=[RenderedMessage(role="user", content=self._prompt + "{value}")], field=self._field
+                )
+            elif isinstance(self._prompt, list):
+                ms = [RenderedMessage(role=m["role"], content=m["content"]) for m in self._prompt]
+                ms.append(RenderedMessage(role="user", content="{value}"))
+                prompt = FieldToValuePrompt(messages=ms, field=self._field)
+            return LLMMap(child, prompt, self._entity_name, llm, **kwargs)
+
+        def elt_sorter(elts: list[Element]) -> list[Element]:
+            sorter_inner = make_element_sorter_fn(self._field, self._similarity_query, self._similarity_scorer)
+            dummy_doc = Document(elements=elts)
+            sorter_inner(dummy_doc)
+            return dummy_doc.elements
+
+        prompt = prompt.set(element_select=lambda e: elt_sorter(e)[: self._num_of_elements])
+        prompt = prompt.set(element_list_constructor=lambda e: self._prompt_formatter(e, self._field))
+        prompt = prompt.set(entity=self._entity_name)
+
+        llm_map = LLMMap(child, prompt, self._entity_name, llm, **kwargs)
+        return llm_map
+
     @context_params(OperationTypes.INFORMATION_EXTRACTOR)
     @timetrace("OaExtract")
     def extract_entity(
@@ -130,10 +276,10 @@ def _handle_element_prompting(self, document: Document) -> Any:
         if self._prompt is None:
             prompt: Any = None
             if self._prompt_template:
-                prompt = EntityExtractorFewShotGuidancePrompt()
+                prompt = _EntityExtractorFewShotGuidancePrompt()
             else:
-                prompt = EntityExtractorZeroShotGuidancePrompt()
-            entities = self._llm.generate(
+                prompt = _EntityExtractorZeroShotGuidancePrompt()
+            entities = self._llm.generate_old(
                 prompt_kwargs={
                     "prompt": prompt,
                     "entity": self._entity_name,
@@ -177,10 +323,10 @@ def _get_entities(self, content: str, prompt: Optional[Union[list[dict], str]] =
         assert prompt is not None, "No prompt found for entity extraction"
         if isinstance(self._prompt, str):
             prompt = self._prompt + content
-            response = self._llm.generate(prompt_kwargs={"prompt": prompt}, llm_kwargs={})
+            response = self._llm.generate_old(prompt_kwargs={"prompt": prompt}, llm_kwargs={})
         else:
             messages = (self._prompt or []) + [{"role": "user", "content": content}]
-            response = self._llm.generate(prompt_kwargs={"messages": messages}, llm_kwargs={})
+            response = self._llm.generate_old(prompt_kwargs={"messages": messages}, llm_kwargs={})
         return response
 
 
diff --git a/lib/sycamore/sycamore/transforms/extract_graph_entities.py b/lib/sycamore/sycamore/transforms/extract_graph_entities.py
index 654880e7f..21e2122fd 100644
--- a/lib/sycamore/sycamore/transforms/extract_graph_entities.py
+++ b/lib/sycamore/sycamore/transforms/extract_graph_entities.py
@@ -140,7 +140,7 @@ async def _extract_from_section(self, summary: str) -> list[str]:
                 llm_kwargs = {"response_format": model}
                 messages = generate_prompt_messages(self.prompt, summary)
                 outputs.append(
-                    await self.llm.generate_async(prompt_kwargs={"messages": messages}, llm_kwargs=llm_kwargs)
+                    await self.llm.generate_async_old(prompt_kwargs={"messages": messages}, llm_kwargs=llm_kwargs)
                 )
             except Exception as e:
                 logger.warn(f"OPENAI CALL FAILED: {e}")
diff --git a/lib/sycamore/sycamore/transforms/extract_graph_relationships.py b/lib/sycamore/sycamore/transforms/extract_graph_relationships.py
index 6d1f5e1fc..c37806568 100644
--- a/lib/sycamore/sycamore/transforms/extract_graph_relationships.py
+++ b/lib/sycamore/sycamore/transforms/extract_graph_relationships.py
@@ -162,7 +162,7 @@ async def _generate_relationships(self, section: HierarchicalDocument) -> dict:
             messages = generate_prompt_messages(self.prompt, entities_list[i], section.data["summary"])
             llm_kwargs = {"response_format": models[i]}
             prompt_kwargs = {"messages": messages}
-            outputs.append(await self.llm.generate_async(prompt_kwargs=prompt_kwargs, llm_kwargs=llm_kwargs))
+            outputs.append(await self.llm.generate_async_old(prompt_kwargs=prompt_kwargs, llm_kwargs=llm_kwargs))
 
         async def _process_llm_output(outputs: list[str], parsed_metadata: dict, summary: str):
             parsed_res: dict[str, Any] = {}
diff --git a/lib/sycamore/sycamore/transforms/extract_schema.py b/lib/sycamore/sycamore/transforms/extract_schema.py
index c4e0bdd41..d8f066cde 100644
--- a/lib/sycamore/sycamore/transforms/extract_schema.py
+++ b/lib/sycamore/sycamore/transforms/extract_schema.py
@@ -5,8 +5,8 @@
 from sycamore.data import Element, Document
 from sycamore.schema import Schema
 from sycamore.llms import LLM
-from sycamore.llms.prompts import (
-    SchemaZeroShotGuidancePrompt,
+from sycamore.llms.prompts.default_prompts import (
+    _SchemaZeroShotGuidancePrompt,
     PropertiesZeroShotGuidancePrompt,
 )
 from sycamore.llms.prompts.default_prompts import ExtractPropertiesFromSchemaPrompt
@@ -99,9 +99,9 @@ def extract_schema(self, document: Document) -> Document:
     def _handle_zero_shot_prompting(self, document: Document) -> Any:
         sub_elements = [document.elements[i] for i in range((min(self._num_of_elements, len(document.elements))))]
 
-        prompt = SchemaZeroShotGuidancePrompt()
+        prompt = _SchemaZeroShotGuidancePrompt()
 
-        entities = self._llm.generate(
+        entities = self._llm.generate_old(
             prompt_kwargs={
                 "prompt": prompt,
                 "entity": self._entity_name,
@@ -228,7 +228,7 @@ def _handle_zero_shot_prompting(self, document: Document) -> Any:
             )
         if isinstance(self._schema, Schema):
             prompt = ExtractPropertiesFromSchemaPrompt(schema=self._schema, text=text)
-            entities = self._llm.generate(prompt_kwargs={"prompt": prompt})
+            entities = self._llm.generate_old(prompt_kwargs={"prompt": prompt})
         else:
             schema = self._schema or document.properties.get("_schema")
             assert schema is not None, "Schema must be provided or detected before extracting properties."
@@ -236,7 +236,7 @@ def _handle_zero_shot_prompting(self, document: Document) -> Any:
             schema_name = self._schema_name or document.properties.get("_schema_class")
             assert schema_name is not None, "Schema name must be provided or detected before extracting properties."
 
-            entities = self._llm.generate(
+            entities = self._llm.generate_old(
                 prompt_kwargs={
                     "prompt": PropertiesZeroShotGuidancePrompt(),
                     "entity": schema_name,
diff --git a/lib/sycamore/sycamore/transforms/extract_table_properties.py b/lib/sycamore/sycamore/transforms/extract_table_properties.py
index 81e9e0cc6..b07d3f68c 100644
--- a/lib/sycamore/sycamore/transforms/extract_table_properties.py
+++ b/lib/sycamore/sycamore/transforms/extract_table_properties.py
@@ -87,7 +87,9 @@ def extract_table_properties(
                         "text": (
                             prompt_LLM
                             if prompt_LLM is not None
-                            else ExtractTablePropertiesPrompt.user + f"\n CSV: {ele.text_representation}"
+                            else (
+                                ExtractTablePropertiesPrompt.user + f"\n CSV: {ele.text_representation}"  # type: ignore
+                            )  # type ignore - thinks ETPP.user could be None
                         ),
                     },
                     llm.format_image(img),
@@ -96,7 +98,7 @@ def extract_table_properties(
                     {"role": "user", "content": content},
                 ]
                 prompt_kwargs = {"messages": messages}
-                raw_answer = llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+                raw_answer = llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={})
             parsed_json = ExtractTableProperties.extract_parent_json(raw_answer)
             if parsed_json:
                 ele.properties[property_name] = json.loads(parsed_json)
diff --git a/lib/sycamore/sycamore/transforms/llm_filter.py b/lib/sycamore/sycamore/transforms/llm_filter.py
index 611c4f831..1e7868cad 100644
--- a/lib/sycamore/sycamore/transforms/llm_filter.py
+++ b/lib/sycamore/sycamore/transforms/llm_filter.py
@@ -60,7 +60,6 @@ def tokenized_threshold_llm_filter(
         if score >= threshold:
             return True
         evaluated_elements += 1
-
     if evaluated_elements == 0:  # no elements found for property
         return keep_none
     return False
diff --git a/lib/sycamore/sycamore/transforms/llm_query.py b/lib/sycamore/sycamore/transforms/llm_query.py
index ba0f86426..731c4af84 100644
--- a/lib/sycamore/sycamore/transforms/llm_query.py
+++ b/lib/sycamore/sycamore/transforms/llm_query.py
@@ -85,7 +85,7 @@ def execute_query(self, document: Document) -> Document:
                         break
             if not self._per_element:
                 prompt_kwargs = {"prompt": final_prompt}
-                llm_resp = self._llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs=self._llm_kwargs)
+                llm_resp = self._llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs=self._llm_kwargs)
                 document["properties"][self._output_property] = llm_resp
         else:
             if document.text_representation:
@@ -118,7 +118,7 @@ def _query_text_object(
                 else:
                     prompt = self._prompt + "\n" + object.text_representation
             prompt_kwargs = {"prompt": prompt}
-            llm_resp = self._llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs=self._llm_kwargs)
+            llm_resp = self._llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs=self._llm_kwargs)
             if self._table_cont:
                 object["properties"]["table_continuation"] = llm_resp
             else:
diff --git a/lib/sycamore/sycamore/transforms/summarize.py b/lib/sycamore/sycamore/transforms/summarize.py
index 9230f44da..bd54452a5 100644
--- a/lib/sycamore/sycamore/transforms/summarize.py
+++ b/lib/sycamore/sycamore/transforms/summarize.py
@@ -9,7 +9,7 @@
 from sycamore.llms.prompts.default_prompts import SummarizeDataMessagesPrompt
 from sycamore.plan_nodes import NonCPUUser, NonGPUUser, Node
 from sycamore.llms import LLM
-from sycamore.llms.prompts import TextSummarizerGuidancePrompt
+from sycamore.llms.prompts.default_prompts import _TextSummarizerGuidancePrompt
 from sycamore.transforms.map import Map
 from sycamore.utils.time_trace import timetrace
 
@@ -77,10 +77,10 @@ def summarize(self, document: Document) -> Document:
 
     @timetrace("SummText")
     def _summarize_text_element(self, element: Element) -> Element:
-        prompt = TextSummarizerGuidancePrompt()
+        prompt = _TextSummarizerGuidancePrompt()
 
         if element.text_representation:
-            response = self._llm.generate(prompt_kwargs={"prompt": prompt, "query": element.text_representation})
+            response = self._llm.generate_old(prompt_kwargs={"prompt": prompt, "query": element.text_representation})
             element.properties["summary"] = response
         return element
 
@@ -96,7 +96,7 @@ def __call__(self, text: str) -> str:
 
         t0 = time.time()
         # call to LLM
-        summary = self.llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
+        summary = self.llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={"temperature": 0})
         t1 = time.time()
         logging.info(f"Summarizer took {t1 - t0} seconds to generate summary.")
 
diff --git a/lib/sycamore/sycamore/transforms/summarize_images.py b/lib/sycamore/sycamore/transforms/summarize_images.py
index 9c274dd2c..d64e60404 100644
--- a/lib/sycamore/sycamore/transforms/summarize_images.py
+++ b/lib/sycamore/sycamore/transforms/summarize_images.py
@@ -23,11 +23,11 @@ class LLMImageSummarizer:
 
     Example:
          The following code demonstrates how to partition a pdf DocSet and summarize the images it contains.
-         This version uses a Claude model via Bedrock. 
+         This version uses a Claude model via Bedrock.
 
          .. code-block:: python
             llm = Bedrock(BedrockModels.CLAUDE_3_5_SONNET)
-    
+
             context = sycamore.init()
             doc = context.read.binary(paths=paths, binary_format="pdf")\
                               .partition(partitioner=SycamorePartitioner(extract_images=True))\
@@ -91,7 +91,7 @@ def summarize_image(
 
         prompt_kwargs = {"messages": messages}
 
-        raw_answer = self.llm.generate(prompt_kwargs=prompt_kwargs, llm_kwargs={})
+        raw_answer = self.llm.generate_old(prompt_kwargs=prompt_kwargs, llm_kwargs={})
         return extract_json(raw_answer)
 
     def summarize_all_images(self, doc: Document) -> Document:
diff --git a/lib/sycamore/sycamore/utils/deprecate.py b/lib/sycamore/sycamore/utils/deprecate.py
new file mode 100644
index 000000000..6810c8d55
--- /dev/null
+++ b/lib/sycamore/sycamore/utils/deprecate.py
@@ -0,0 +1,26 @@
+from functools import wraps
+from typing import Optional, Callable, TypeVar
+from typing_extensions import ParamSpec
+import warnings
+
+P = ParamSpec("P")
+T = TypeVar("T")
+
+
+def deprecated(version: Optional[str] = None, reason: Optional[str] = None):
+
+    def decorator(fn: Callable[P, T]) -> Callable[P, T]:
+        warn_msg = f"{fn.__name__} is deprecated"
+        if version is not None:
+            warn_msg += f" since version {version}"
+        if reason is not None:
+            warn_msg += f". Reason: {reason}"
+
+        @wraps(fn)
+        def wrapper(*args: P.args, **kwargs: P.kwargs) -> T:
+            warnings.warn(warn_msg, category=FutureWarning)
+            return fn(*args, **kwargs)
+
+        return wrapper
+
+    return decorator