kyegomez · krataratha · Apr 21, 2026 · Copilot · Apr 21, 2026 · Copilot
diff --git a/open_mythos/tokenizer.py b/open_mythos/tokenizer.py
@@ -6,35 +6,42 @@
 class MythosTokenizer:
     """
     HuggingFace tokenizer wrapper for OpenMythos.
-
-    Args:
-        model_id (str): The HuggingFace model ID or path to use with AutoTokenizer.
-            Defaults to "openai/gpt-oss-20b".
-
-    Attributes:
-        tokenizer: An instance of HuggingFace's AutoTokenizer.
-
-    Example:
-        >>> tok = MythosTokenizer()
-        >>> ids = tok.encode("Hello world")
-        >>> s = tok.decode(ids)
     """
 
     def __init__(self, model_id: str = DEFAULT_MODEL_ID):
-        """
-        Initialize the MythosTokenizer.
-
-        Args:
-            model_id (str): HuggingFace model identifier or path to tokenizer files.
-        """
         self.tokenizer = AutoTokenizer.from_pretrained(model_id)
 
     @property
     def vocab_size(self) -> int:
-        """
-        Return the size of the tokenizer vocabulary.
+        return self.tokenizer.vocab_size
 
-        Returns:
+    def encode(self, text: str):
+        return self.tokenizer.encode(text)
+
+    def decode(self, token_ids):
+        return self.tokenizer.decode(token_ids)
+
+    # ✅ New methods added
+    def token_count(self, text: str) -> int:
+        """Return number of tokens in text."""
+        return len(self.tokenizer.encode(text))
-        return len(self.tokenizer.encode(text))
+        return len(self.encode(text))
-        return len(self.tokenizer.encode(text))
+        return len(self.encode(text))
+
+    def batch_encode(self, texts: list[str], padding: bool = True, truncation: bool = True):
+        """Encode multiple texts at once."""
+        return self.tokenizer(
+            texts,
+            padding=padding,
+            truncation=truncation,
+            return_tensors="pt"
+        )
+
+    def get_special_tokens(self):
+        """Return special tokens used by tokenizer."""
+        return self.tokenizer.special_tokens_map
+
+    def is_within_limit(self, text: str, max_tokens: int) -> bool:
+        """Check if text fits within a token limit."""
+        return self.token_count(text) <= max_tokens        Returns:
             int: The number of unique tokens in the tokenizer vocabulary.
         """
         return self.tokenizer.vocab_size
-        return self.token_count(text) <= max_tokens        Returns:
-            int: The number of unique tokens in the tokenizer vocabulary.
-        """
-        return self.tokenizer.vocab_size
+        return self.token_count(text) <= max_tokens
-        return self.token_count(text) <= max_tokens        Returns:
-            int: The number of unique tokens in the tokenizer vocabulary.
-        """
-        return self.tokenizer.vocab_size
+        return self.token_count(text) <= max_tokens