Add openai support for semantic parse_pdf

YoungVor · YoungVor · commit ef58d6dc6c1b · 2025-10-08T12:38:57.000-07:00
diff --git a/src/fenic/_inference/anthropic/anthropic_batch_chat_completions_client.py b/src/fenic/_inference/anthropic/anthropic_batch_chat_completions_client.py
@@ -275,7 +275,7 @@ def _estimate_structured_output_overhead(self, response_format) -> int:
         """
         return self.estimate_response_format_tokens(response_format)
 
-    def _get_max_output_tokens(self, request: FenicCompletionsRequest) -> int:
+    def _get_max_output_token_request_limit(self, request: FenicCompletionsRequest) -> int:
         """Get maximum output tokens including thinking budget.
 
         Args:
@@ -329,7 +329,7 @@ def estimate_tokens_for_request(self, request: FenicCompletionsRequest):
         input_tokens += self._count_auxiliary_input_tokens(request)
         
         # Estimate output tokens
-        output_tokens = self._get_max_output_tokens(request)
+        output_tokens = self._get_max_output_token_request_limit(request)
         
         return TokenEstimate(
             input_tokens=input_tokens,
diff --git a/src/fenic/_inference/cohere/cohere_batch_embeddings_client.py b/src/fenic/_inference/cohere/cohere_batch_embeddings_client.py
@@ -171,7 +171,7 @@ def estimate_tokens_for_request(self, request: FenicEmbeddingsRequest) -> TokenE
             output_tokens=0
         )
 
-    def _get_max_output_tokens(self, request: FenicEmbeddingsRequest) -> int:
+    def _get_max_output_token_request_limit(self, request: FenicEmbeddingsRequest) -> int:
         """Get maximum output tokens (always 0 for embeddings).
         
         Returns:
diff --git a/src/fenic/_inference/common_openai/openai_chat_completions_core.py b/src/fenic/_inference/common_openai/openai_chat_completions_core.py
@@ -90,9 +90,10 @@ async def make_single_request(
             common_params: dict[str, Any] = {
                 "model": self._model,
                 "messages": convert_messages(request.messages),
-                "max_completion_tokens": request.max_completion_tokens + profile_configuration.expected_additional_reasoning_tokens,
                 "n": 1,
             }
+            if request.max_completion_tokens:
+                common_params.update({"max_completion_tokens": request.max_completion_tokens + profile_configuration.expected_additional_reasoning_tokens})
             if request.temperature:
                 common_params.update({"temperature": request.temperature})
 
diff --git a/src/fenic/_inference/google/gemini_batch_embeddings_client.py b/src/fenic/_inference/google/gemini_batch_embeddings_client.py
@@ -121,7 +121,7 @@ def estimate_tokens_for_request(self, request: FenicEmbeddingsRequest) -> TokenE
             input_tokens=self.token_counter.count_tokens(request.doc), output_tokens=0
         )
 
-    def _get_max_output_tokens(self, request: FenicEmbeddingsRequest) -> int:
+    def _get_max_output_token_request_limit(self, request: FenicEmbeddingsRequest) -> int:
         return 0
 
     def reset_metrics(self):
diff --git a/src/fenic/_inference/google/gemini_native_chat_completions_client.py b/src/fenic/_inference/google/gemini_native_chat_completions_client.py
@@ -132,56 +132,6 @@ def count_tokens(self, messages: Tokenizable) -> int:  # type: ignore[override]
         # Re-expose for mypy – same implementation as parent.
         return super().count_tokens(messages)
 
-    def _estimate_structured_output_overhead(self, response_format: ResolvedResponseFormat) -> int:
-        """Use Google-specific response schema token estimation.
-
-        Args:
-            response_format: Pydantic model class defining the response format
-
-        Returns:
-            Estimated token overhead for structured output
-        """
-        return self._estimate_response_schema_tokens(response_format)
-
-    def _get_max_output_tokens(self, request: FenicCompletionsRequest) -> Optional[int]:
-        """Get maximum output tokens including thinking budget.
-
-        If max_completion_tokens is not set, return None.
-
-        Conservative estimate that includes both completion tokens and
-        thinking token budget with a safety margin.
-
-        Args:
-            request: The completion request
-
-        Returns:
-            Maximum output tokens (completion + thinking budget with safety margin)
-        """
-        if request.max_completion_tokens is None:
-            return None
-        profile_config = self._profile_manager.get_profile_by_name(
-            request.model_profile
-        )
-        return request.max_completion_tokens + int(
-            1.5 * profile_config.thinking_token_budget
-        )
-
-    @cache  # noqa: B019 – builtin cache OK here.
-    def _estimate_response_schema_tokens(self, response_format: ResolvedResponseFormat) -> int:
-        """Estimate token count for a response format schema.
-
-        Uses Google's tokenizer to count tokens in a JSON schema representation
-        of the response format. Results are cached for performance.
-
-        Args:
-            response_format: Pydantic model class defining the response format
-
-        Returns:
-            Estimated token count for the response format
-        """
-        schema_str = response_format.schema_fingerprint
-        return self._token_counter.count_tokens(schema_str)
-
     def get_request_key(self, request: FenicCompletionsRequest) -> str:
         """Generate a unique key for the request.
 
@@ -196,19 +146,17 @@ def get_request_key(self, request: FenicCompletionsRequest) -> str:
     def estimate_tokens_for_request(self, request: FenicCompletionsRequest):
         """Estimate the number of tokens for a request.
 
+        If the request provides a max_completion_tokens value, use that.  Otherwise, estimate the output tokens based on the file size.
+
         Args:
             request: The request to estimate tokens for
 
         Returns:
             TokenEstimate: The estimated token usage
         """
-
-        # Count input tokens
         input_tokens = self.count_tokens(request.messages)
         input_tokens += self._count_auxiliary_input_tokens(request)
-
-        output_tokens = self._get_max_output_tokens(request) or self._model_parameters.max_output_tokens
-
+        output_tokens = self._estimate_output_tokens(request)
         return TokenEstimate(input_tokens=input_tokens, output_tokens=output_tokens)
 
     async def make_single_request(
@@ -228,7 +176,7 @@ async def make_single_request(
         """
 
         profile_config = self._profile_manager.get_profile_by_name(request.model_profile)
-        max_output_tokens = self._get_max_output_tokens(request)
+        max_output_tokens = self._get_max_output_token_request_limit(request)
 
         generation_config: GenerateContentConfigDict = {
             "temperature": request.temperature,
@@ -355,3 +303,58 @@ async def make_single_request(
         finally:
             if file_obj:
                 await delete_file(self._client, file_obj.name)
+
+    @cache  # noqa: B019 – builtin cache OK here.
+    def _estimate_response_schema_tokens(self, response_format: ResolvedResponseFormat) -> int:
+        """Estimate token count for a response format schema.
+
+        Uses Google's tokenizer to count tokens in a JSON schema representation
+        of the response format. Results are cached for performance.
+
+        Args:
+            response_format: Pydantic model class defining the response format
+
+        Returns:
+            Estimated token count for the response format
+        """
+        schema_str = response_format.schema_fingerprint
+        return self._token_counter.count_tokens(schema_str)
+
+    def _estimate_structured_output_overhead(self, response_format: ResolvedResponseFormat) -> int:
+        """Use Google-specific response schema token estimation.
+
+        Args:
+            response_format: Pydantic model class defining the response format
+
+        Returns:
+            Estimated token overhead for structured output
+        """
+        return self._estimate_response_schema_tokens(response_format)
+
+    def _estimate_output_tokens(self, request: FenicCompletionsRequest) -> int:
+        """Estimate the number of output tokens for a request."""
+        estimated_output_tokens = request.max_completion_tokens or 0
+        if request.max_completion_tokens is None and request.messages.user_file:
+            # TODO(DY): the semantic operator should dictate how the file affects the token estimate
+            estimated_output_tokens = self.token_counter.count_file_output_tokens(request.messages)
+        return estimated_output_tokens + self._get_expected_additional_reasoning_tokens(request)
+
+    def _get_max_output_token_request_limit(self, request: FenicCompletionsRequest) -> Optional[int]:
+        """Get the upper limit of output tokens for a request.
+
+        If max_completion_tokens is not set, don't apply a limit and return None.
+
+        Include the thinking token budget with a safety margin."""
+        max_output_tokens = request.max_completion_tokens or 0
+        if request.max_completion_tokens is None and request.messages.user_file:
+            # Guardrail to ensure the model uses a sane amount of output tokens.
+            # TODO(DY): the semantic operator should dictate how the file affects the token estimate
+            max_output_tokens = self.token_counter.count_file_output_tokens(request.messages) * 2
+        return max_output_tokens + self._get_expected_additional_reasoning_tokens(request)
+
+    def _get_expected_additional_reasoning_tokens(self, request: FenicCompletionsRequest) -> int:
+        """Get the expected additional reasoning tokens for a request.  Include a safety margin."""
+        profile_config = self._profile_manager.get_profile_by_name(request.model_profile)
+        return int(
+            1.5 * profile_config.thinking_token_budget
+        )
diff --git a/src/fenic/_inference/language_model.py b/src/fenic/_inference/language_model.py
@@ -22,7 +22,7 @@
 
 @dataclass
 class InferenceConfiguration:
-    # If max_output_tokens is not provided, do not include it in the request.
+    # If max_output_tokens is not provided, model_client will add a guardrail based on the estimated output tokens.
     max_output_tokens: Optional[int]
     temperature: float
     top_logprobs: Optional[int] = None
diff --git a/src/fenic/_inference/model_client.py b/src/fenic/_inference/model_client.py
@@ -245,8 +245,8 @@ def _estimate_structured_output_overhead(self, response_format: ResolvedResponse
 
 
     @abstractmethod
-    def _get_max_output_tokens(self, request: RequestT) -> int:
-        """Get conservative output token estimate. Override in subclasses for provider-specific logic."""
+    def _get_max_output_token_request_limit(self, request: RequestT) -> int:
+        """Get the upper limit of output tokens to set on a request."""
         pass
 
     #
diff --git a/src/fenic/_inference/openai/openai_batch_chat_completions_client.py b/src/fenic/_inference/openai/openai_batch_chat_completions_client.py
@@ -65,6 +65,7 @@ def __init__(
             profile_configurations=profiles,
             default_profile_name=default_profile_name,
         )
+
         self._core = OpenAIChatCompletionsCore(
             model=model,
             model_provider=ModelProvider.OPENAI,
@@ -108,7 +109,7 @@ def estimate_tokens_for_request(self, request: FenicCompletionsRequest) -> Token
         """
         return TokenEstimate(
             input_tokens=self.token_counter.count_tokens(request.messages),
-            output_tokens=self._get_max_output_tokens(request)
+            output_tokens=self._estimate_output_tokens(request)
         )
 
     def reset_metrics(self):
@@ -123,10 +124,24 @@ def get_metrics(self) -> LMMetrics:
         """
         return self._core.get_metrics()
 
-    def _get_max_output_tokens(self, request: FenicCompletionsRequest) -> int:
-        """Conservative estimate: max_completion_tokens + reasoning effort-based thinking tokens."""
-        base_tokens = request.max_completion_tokens
-
-        # Get profile-specific reasoning effort
+    def _estimate_output_tokens(self, request: FenicCompletionsRequest) -> int:
+        """Estimate the number of output tokens for a request."""
+        base_tokens = request.max_completion_tokens or 0
+        if request.max_completion_tokens is None and request.messages.user_file:
+            # TODO(DY): the semantic operator should dictate how the file affects the token estimate
+            base_tokens += self.token_counter.count_file_output_tokens(messages=request.messages)
+        return base_tokens + self._get_expected_additional_reasoning_tokens(request)
+
+    def _get_max_output_token_request_limit(self, request: FenicCompletionsRequest) -> int:
+        """Return the maximum output token limit for a request."""
+        max_output_tokens = request.max_completion_tokens or 0
+        if request.max_completion_tokens is None and request.messages.user_file:
+            # Guardrail to ensure the model uses a sane amount of output tokens.
+            # TODO(DY): the semantic operator should dictate how the file affects the token estimate
+            max_output_tokens = self.token_counter.count_file_output_tokens(request.messages) * 2
+        return max_output_tokens + self._get_expected_additional_reasoning_tokens(request)
+
+    def _get_expected_additional_reasoning_tokens(self, request: FenicCompletionsRequest) -> int:
+        """Get the expected additional reasoning tokens for a request."""
         profile_config = self._profile_manager.get_profile_by_name(request.model_profile)
-        return base_tokens + profile_config.expected_additional_reasoning_tokens
+        return profile_config.expected_additional_reasoning_tokens
diff --git a/src/fenic/_inference/openai/openai_batch_embeddings_client.py b/src/fenic/_inference/openai/openai_batch_embeddings_client.py
@@ -107,7 +107,7 @@ def get_metrics(self) -> RMMetrics:
         """
         return self._core.get_metrics()
 
-    def _get_max_output_tokens(self, request: RequestT) -> int:
+    def _get_max_output_token_request_limit(self, request: RequestT) -> int:
         return 0
 
     async def validate_api_key(self):
diff --git a/src/fenic/_inference/openrouter/openrouter_batch_chat_completions_client.py b/src/fenic/_inference/openrouter/openrouter_batch_chat_completions_client.py
@@ -94,7 +94,7 @@ async def make_single_request(
         common_params = {
                 "model": self.model,
                 "messages": convert_messages(request.messages),
-                "max_completion_tokens": self._get_max_output_tokens(request),
+                "max_completion_tokens": self._get_max_output_token_request_limit(request),
                 "n": 1,
             }
 
@@ -239,7 +239,7 @@ def estimate_tokens_for_request(
     ) -> TokenEstimate:
         return TokenEstimate(
             input_tokens=self.token_counter.count_tokens(request.messages),
-            output_tokens=self._get_max_output_tokens(request),
+            output_tokens=self.token_counter.count_tokens(request.messages) + self._get_expected_additional_reasoning_tokens(request),
         )
 
     def reset_metrics(self):
@@ -248,7 +248,14 @@ def reset_metrics(self):
     def get_metrics(self) -> LMMetrics:
         return self._metrics
 
-    def _get_max_output_tokens(self, request: FenicCompletionsRequest) -> int:
+    def _get_max_output_token_request_limit(self, request: FenicCompletionsRequest) -> int:
+        """Get the upper limit of output tokens for a request.
+
+        If max_completion_tokens is not set, don't apply a limit and return None.
+
+        Include the thinking token budget with a safety margin."""
+        if request.max_completion_tokens is None:
+            return None
         return request.max_completion_tokens + self._get_expected_additional_reasoning_tokens(request)
 
     # This is a slightly less conservative estimate than the OpenRouter documentation on how reasoning_effort is used to
diff --git a/src/fenic/_inference/token_counter.py b/src/fenic/_inference/token_counter.py
@@ -2,14 +2,17 @@
 
 import tiktoken
 
-from fenic._constants import PREFIX_TOKENS_PER_MESSAGE, TOKENS_PER_NAME
-from fenic._inference.common_openai.openai_utils import convert_messages
+from fenic._constants import PREFIX_TOKENS_PER_MESSAGE
+from fenic._inference.request_utils import get_pdf_page_count, get_pdf_text
 from fenic._inference.types import LMRequestMessages
+from fenic.core.error import InternalError
 
 Tokenizable = Union[str | LMRequestMessages]
 
 class TokenCounter(Protocol):
     def count_tokens(self, messages: Tokenizable) -> int: ...
+    def count_file_input_tokens(self, messages: LMRequestMessages) -> int: ...
+    def count_file_output_tokens(self, messages: LMRequestMessages) -> int: ...
 
 class TiktokenTokenCounter(TokenCounter):
 
@@ -23,25 +26,50 @@ def count_tokens(self, messages: Tokenizable) -> int:
         if isinstance(messages, str):
             return len(self.tokenizer.encode(messages))
         elif isinstance(messages, LMRequestMessages):
-            return self._count_message_tokens(convert_messages(messages))
+            return self._count_message_tokens(messages)
         else:
             raise TypeError(f"Expected str or LMRequestMessages, got {type(messages)}")
 
-    def _count_message_tokens(self, messages: list[dict[str, str]]) -> int:
-        num_tokens = 0
-        for message in messages:
-            if "content" in message and isinstance(message["content"], list):
-                num_tokens += self._count_message_tokens(messages=message["content"])
-                continue
-            if "type" in message and message["type"] == "file":
-                # providers count file tokens differently, so we leave that up to the client
-                continue
-            num_tokens += PREFIX_TOKENS_PER_MESSAGE  # Every message starts with <im_start>{role/name}\n{content}<im_end>\n
-            for key, value in message.items():
-                num_tokens += len(self.tokenizer.encode(value))
-                if key == "name":
-                    num_tokens -= TOKENS_PER_NAME  # Subtract one token if the 'name' field is present
+    def count_file_input_tokens(self, messages: LMRequestMessages) -> int:
+        # get file type from file extension
+        file_type = messages.user_file.path.split(".")[-1]
+        if file_type == "pdf":
+            text = get_pdf_text(messages.user_file)
+            page_count = get_pdf_page_count(messages.user_file)
+            text_tokens = self.count_tokens(text)
+            # OpenAI documentation states that they convert PDF pages into images and ingest both text and image into their VLM. 
+            # Based on experimentation, OpenAI seems to count no more than 1024 tokens per page.
+            image_tokens = page_count * 1024 
+            return text_tokens + image_tokens
+        else:
+            raise InternalError(f"File{messages.user_file.path}'s extension is not supported for llm completions.")
 
-        num_tokens += 2  # Every assistant reply is primed with <im_start>assistant
+    def count_file_output_tokens(self, messages: LMRequestMessages) -> int:
+        file_type = messages.user_file.path.split(".")[-1]
+        if file_type == "pdf":
+            # TODO: we do this twice, once for estimating input and once for estimating output.  We can cache the text in the LMFile object.
+            text = get_pdf_text(messages.user_file)
+            # Note: we currently aren't counting any text tokens for describing images, since that defaults to False.
+            # In our estimates we add buffer, both for markdown structure and in case we ask the model to describe images.
+            return self.count_tokens(text)
+        else:
+            raise InternalError(f"File{messages.user_file.path}'s extension is not supported for llm completions.")
 
+    def _count_message_tokens(self, messages: LMRequestMessages) -> int:
+        num_tokens = 0
+        message_count = 2 # system message and user parent message
+        num_tokens += self.count_tokens(messages.system)
+        if messages.user:
+            num_tokens += self.count_tokens(messages.user)
+            message_count += 1
+        for example in messages.examples:
+            num_tokens += self.count_tokens(example.user)
+            num_tokens += self.count_tokens(example.assistant)
+            message_count += 2
+        if messages.user_file:
+            num_tokens += self.count_file_input_tokens(messages)
+            message_count += 1
+        num_tokens += message_count * PREFIX_TOKENS_PER_MESSAGE
+        num_tokens += 2  # Every assistant reply is primed with <im_start>assistant
+        
         return num_tokens
diff --git a/src/fenic/core/_inference/model_catalog.py b/src/fenic/core/_inference/model_catalog.py
diff --git a/tests/_backends/local/functions/test_semantic_parse_pdf.py b/tests/_backends/local/functions/test_semantic_parse_pdf.py
diff --git a/tests/_inference/test_openai_token_counter.py b/tests/_inference/test_openai_token_counter.py
diff --git a/tests/conftest.py b/tests/conftest.py

Original file line number	Diff line number	Diff line change
`@@ -171,7 +171,7 @@ def estimate_tokens_for_request(self, request: FenicEmbeddingsRequest) -> TokenE`
`171`	`171`	`output_tokens=0`
`172`	`172`	`)`
`173`	`173`
`174`		`- def _get_max_output_tokens(self, request: FenicEmbeddingsRequest) -> int:`
	`174`	`+ def _get_max_output_token_request_limit(self, request: FenicEmbeddingsRequest) -> int:`
`175`	`175`	`"""Get maximum output tokens (always 0 for embeddings).`
`176`	`176`
`177`	`177`	`Returns:`
Original file line number	Diff line number	Diff line change
`@@ -121,7 +121,7 @@ def estimate_tokens_for_request(self, request: FenicEmbeddingsRequest) -> TokenE`
`121`	`121`	`input_tokens=self.token_counter.count_tokens(request.doc), output_tokens=0`
`122`	`122`	`)`
`123`	`123`
`124`		`- def _get_max_output_tokens(self, request: FenicEmbeddingsRequest) -> int:`
	`124`	`+ def _get_max_output_token_request_limit(self, request: FenicEmbeddingsRequest) -> int:`
`125`	`125`	`return 0`
`126`	`126`
`127`	`127`	`def reset_metrics(self):`
Original file line number	Diff line number	Diff line change
`@@ -245,8 +245,8 @@ def _estimate_structured_output_overhead(self, response_format: ResolvedResponse`
`245`	`245`
`246`	`246`
`247`	`247`	`@abstractmethod`
`248`		`- def _get_max_output_tokens(self, request: RequestT) -> int:`
`249`		`- """Get conservative output token estimate. Override in subclasses for provider-specific logic."""`
	`248`	`+ def _get_max_output_token_request_limit(self, request: RequestT) -> int:`
	`249`	`+ """Get the upper limit of output tokens to set on a request."""`
`250`	`250`	`pass`
`251`	`251`
`252`	`252`	`#`