utils

`BaseTokenizer`

Bases: BaseModel, ABC

Base tokenizer class providing unified tokenization interface.

This abstract base class defines the interface for different tokenization strategies including tiktoken and jieba tokenizers.

Source code in rm_gallery/core/utils/tokenizer.py

class BaseTokenizer(BaseModel, ABC):
    """
    Base tokenizer class providing unified tokenization interface.

    This abstract base class defines the interface for different tokenization
    strategies including tiktoken and jieba tokenizers.
    """

    name: str = Field(..., description="Name of the tokenizer")

    @abstractmethod
    def tokenize(self, text: str) -> List[str]:
        """
        Tokenize input text into a list of tokens.

        Args:
            text: Input text to tokenize

        Returns:
            List[str]: List of token strings
        """
        pass

    def preprocess_text(self, text: str, to_lower: bool = False) -> str:
        """
        Preprocess text before tokenization.

        Args:
            text: Input text
            to_lower: Whether to convert to lowercase

        Returns:
            str: Preprocessed text
        """
        text = text.strip()
        if to_lower:
            text = text.lower()
        return text

`preprocess_text(text, to_lower=False)`

Preprocess text before tokenization.

Parameters:

Name	Type	Description	Default
`text`	`str`	Input text	required
`to_lower`	`bool`	Whether to convert to lowercase	`False`

Returns:

Name	Type	Description
`str`	`str`	Preprocessed text

Source code in rm_gallery/core/utils/tokenizer.py

def preprocess_text(self, text: str, to_lower: bool = False) -> str:
    """
    Preprocess text before tokenization.

    Args:
        text: Input text
        to_lower: Whether to convert to lowercase

    Returns:
        str: Preprocessed text
    """
    text = text.strip()
    if to_lower:
        text = text.lower()
    return text

`tokenize(text)` `abstractmethod`

Tokenize input text into a list of tokens.

Parameters:

Name	Type	Description	Default
`text`	`str`	Input text to tokenize	required

Returns:

Type	Description
`List[str]`	List[str]: List of token strings

Source code in rm_gallery/core/utils/tokenizer.py

@abstractmethod
def tokenize(self, text: str) -> List[str]:
    """
    Tokenize input text into a list of tokens.

    Args:
        text: Input text to tokenize

    Returns:
        List[str]: List of token strings
    """
    pass

`JiebaTokenizer`

Bases: BaseTokenizer

Jieba-based tokenizer for Chinese text processing.

Provides Chinese word segmentation using jieba library with optional Chinese character filtering and preprocessing capabilities.

Source code in rm_gallery/core/utils/tokenizer.py

class JiebaTokenizer(BaseTokenizer):
    """
    Jieba-based tokenizer for Chinese text processing.

    Provides Chinese word segmentation using jieba library with optional
    Chinese character filtering and preprocessing capabilities.
    """

    name: str = Field(default="jieba", description="Jieba Chinese tokenizer")
    chinese_only: bool = Field(
        default=False, description="Whether to keep only Chinese characters"
    )

    def _preserve_chinese(self, text: str) -> str:
        """
        Preserve only Chinese characters.

        Args:
            text: Input text

        Returns:
            str: Text with only Chinese characters
        """
        chinese_chars = re.findall(r"[\u4e00-\u9fff]", text)
        return "".join(chinese_chars)

    def tokenize(self, text: str) -> List[str]:
        """
        Tokenize Chinese text using jieba.

        Args:
            text: Input text to tokenize

        Returns:
            List[str]: List of token strings

        Raises:
            ImportError: If jieba library is not installed
        """
        try:
            import jieba

            if self.chinese_only:
                text = self._preserve_chinese(text)
            return list(jieba.cut(text))
        except ImportError:
            raise ImportError(
                "jieba library required for Chinese tokenization: pip install jieba"
            )

`tokenize(text)`

Tokenize Chinese text using jieba.

Parameters:

Name	Type	Description	Default
`text`	`str`	Input text to tokenize	required

Returns:

Type	Description
`List[str]`	List[str]: List of token strings

Raises:

Type	Description
`ImportError`	If jieba library is not installed

Source code in rm_gallery/core/utils/tokenizer.py

def tokenize(self, text: str) -> List[str]:
    """
    Tokenize Chinese text using jieba.

    Args:
        text: Input text to tokenize

    Returns:
        List[str]: List of token strings

    Raises:
        ImportError: If jieba library is not installed
    """
    try:
        import jieba

        if self.chinese_only:
            text = self._preserve_chinese(text)
        return list(jieba.cut(text))
    except ImportError:
        raise ImportError(
            "jieba library required for Chinese tokenization: pip install jieba"
        )

`SimpleTokenizer`

Bases: BaseTokenizer

Simple whitespace-based tokenizer.

Basic tokenizer that splits text on whitespace. Used as fallback when other tokenizers are not available or fail.

Source code in rm_gallery/core/utils/tokenizer.py

class SimpleTokenizer(BaseTokenizer):
    """
    Simple whitespace-based tokenizer.

    Basic tokenizer that splits text on whitespace. Used as fallback
    when other tokenizers are not available or fail.
    """

    name: str = Field(default="simple", description="Simple whitespace tokenizer")

    def tokenize(self, text: str) -> List[str]:
        """
        Tokenize text by splitting on whitespace.

        Args:
            text: Input text to tokenize

        Returns:
            List[str]: List of token strings
        """
        return text.split()

`tokenize(text)`

Tokenize text by splitting on whitespace.

Parameters:

Name	Type	Description	Default
`text`	`str`	Input text to tokenize	required

Returns:

Type	Description
`List[str]`	List[str]: List of token strings

Source code in rm_gallery/core/utils/tokenizer.py

def tokenize(self, text: str) -> List[str]:
    """
    Tokenize text by splitting on whitespace.

    Args:
        text: Input text to tokenize

    Returns:
        List[str]: List of token strings
    """
    return text.split()

`TiktokenTokenizer`

Bases: BaseTokenizer

Tiktoken-based tokenizer supporting multilingual content.

Uses tiktoken encoding for robust tokenization of Chinese, English and other languages. Falls back to simple splitting if tiktoken fails.

Source code in rm_gallery/core/utils/tokenizer.py

class TiktokenTokenizer(BaseTokenizer):
    """
    Tiktoken-based tokenizer supporting multilingual content.

    Uses tiktoken encoding for robust tokenization of Chinese, English
    and other languages. Falls back to simple splitting if tiktoken fails.
    """

    name: str = Field(default="tiktoken", description="Tiktoken tokenizer")
    encoding_name: str = Field(
        default="cl100k_base", description="Tiktoken encoding name"
    )

    def tokenize(self, text: str) -> List[str]:
        """
        Tokenize text using tiktoken encoder.

        Args:
            text: Input text to tokenize

        Returns:
            List[str]: List of token strings
        """
        try:
            import tiktoken

            encoding = tiktoken.get_encoding(self.encoding_name)
            tokens = encoding.encode(text)
            # Convert token ids back to strings for comparison
            token_strings = [encoding.decode([token]) for token in tokens]
            return token_strings
        except Exception:
            # Fallback to simple splitting if tiktoken fails
            return text.split()

`tokenize(text)`

Tokenize text using tiktoken encoder.

Parameters:

Name	Type	Description	Default
`text`	`str`	Input text to tokenize	required

Returns:

Type	Description
`List[str]`	List[str]: List of token strings

Source code in rm_gallery/core/utils/tokenizer.py

def tokenize(self, text: str) -> List[str]:
    """
    Tokenize text using tiktoken encoder.

    Args:
        text: Input text to tokenize

    Returns:
        List[str]: List of token strings
    """
    try:
        import tiktoken

        encoding = tiktoken.get_encoding(self.encoding_name)
        tokens = encoding.encode(text)
        # Convert token ids back to strings for comparison
        token_strings = [encoding.decode([token]) for token in tokens]
        return token_strings
    except Exception:
        # Fallback to simple splitting if tiktoken fails
        return text.split()

`get_tokenizer(tokenizer_type='tiktoken', encoding_name='cl100k_base', chinese_only=False, **kwargs)`

Factory function to create tokenizer instances.

Parameters:

Name	Type	Description	Default
`tokenizer_type`	`str`	Type of tokenizer ("tiktoken", "jieba", "simple")	`'tiktoken'`
`encoding_name`	`str`	Tiktoken encoding name (for tiktoken tokenizer)	`'cl100k_base'`
`chinese_only`	`bool`	Whether to keep only Chinese characters (for jieba tokenizer)	`False`
`**kwargs`		Additional arguments for tokenizer initialization	`{}`

Returns:

Name	Type	Description
`BaseTokenizer`	`BaseTokenizer`	Tokenizer instance

Raises:

Type	Description
`ValueError`	If tokenizer_type is not supported

Source code in rm_gallery/core/utils/tokenizer.py

def get_tokenizer(
    tokenizer_type: str = "tiktoken",
    encoding_name: str = "cl100k_base",
    chinese_only: bool = False,
    **kwargs,
) -> BaseTokenizer:
    """
    Factory function to create tokenizer instances.

    Args:
        tokenizer_type: Type of tokenizer ("tiktoken", "jieba", "simple")
        encoding_name: Tiktoken encoding name (for tiktoken tokenizer)
        chinese_only: Whether to keep only Chinese characters (for jieba tokenizer)
        **kwargs: Additional arguments for tokenizer initialization

    Returns:
        BaseTokenizer: Tokenizer instance

    Raises:
        ValueError: If tokenizer_type is not supported
    """
    if tokenizer_type == "tiktoken":
        return TiktokenTokenizer(encoding_name=encoding_name, **kwargs)
    elif tokenizer_type == "jieba":
        return JiebaTokenizer(chinese_only=chinese_only, **kwargs)
    elif tokenizer_type == "simple":
        return SimpleTokenizer(**kwargs)
    else:
        raise ValueError(
            f"Unsupported tokenizer type: {tokenizer_type}. "
            f"Supported types: tiktoken, jieba, simple"
        )

utils

BaseTokenizer

preprocess_text(text, to_lower=False)

tokenize(text) abstractmethod

JiebaTokenizer

tokenize(text)

SimpleTokenizer

tokenize(text)

TiktokenTokenizer

tokenize(text)

get_tokenizer(tokenizer_type='tiktoken', encoding_name='cl100k_base', chinese_only=False, **kwargs)

`BaseTokenizer`

`preprocess_text(text, to_lower=False)`

`tokenize(text)` `abstractmethod`

`JiebaTokenizer`

`tokenize(text)`

`SimpleTokenizer`

`tokenize(text)`

`TiktokenTokenizer`

`tokenize(text)`

`get_tokenizer(tokenizer_type='tiktoken', encoding_name='cl100k_base', chinese_only=False, **kwargs)`