ai_v/venv/Lib/site-packages/charset_normalizer/utils.py

from __future__ import annotations

import importlib
import logging
import unicodedata
from codecs import IncrementalDecoder
from encodings.aliases import aliases
from functools import lru_cache
from re import findall
from typing import Generator

from _multibytecodec import (  # type: ignore[import-not-found,import]
    MultibyteIncrementalDecoder,
)

from .constant import (
    ENCODING_MARKS,
    IANA_SUPPORTED_SIMILAR,
    RE_POSSIBLE_ENCODING_INDICATION,
    UNICODE_RANGES_COMBINED,
    UNICODE_SECONDARY_RANGE_KEYWORD,
    UTF8_MAXIMAL_ALLOCATION,
    COMMON_CJK_CHARACTERS,
)


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_accentuated(character: str) -> bool:
    try:
        description: str = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False
    return (
        "WITH GRAVE" in description
        or "WITH ACUTE" in description
        or "WITH CEDILLA" in description
        or "WITH DIAERESIS" in description
        or "WITH CIRCUMFLEX" in description
        or "WITH TILDE" in description
        or "WITH MACRON" in description
        or "WITH RING ABOVE" in description
    )


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def remove_accent(character: str) -> str:
    decomposed: str = unicodedata.decomposition(character)
    if not decomposed:
        return character

    codes: list[str] = decomposed.split(" ")

    return chr(int(codes[0], 16))


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def unicode_range(character: str) -> str | None:
    """
    Retrieve the Unicode range official name from a single character.
    """
    character_ord: int = ord(character)

    for range_name, ord_range in UNICODE_RANGES_COMBINED.items():
        if character_ord in ord_range:
            return range_name

    return None


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_latin(character: str) -> bool:
    try:
        description: str = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False
    return "LATIN" in description


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_punctuation(character: str) -> bool:
    character_category: str = unicodedata.category(character)

    if "P" in character_category:
        return True

    character_range: str | None = unicode_range(character)

    if character_range is None:
        return False

    return "Punctuation" in character_range


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_symbol(character: str) -> bool:
    character_category: str = unicodedata.category(character)

    if "S" in character_category or "N" in character_category:
        return True

    character_range: str | None = unicode_range(character)

    if character_range is None:
        return False

    return "Forms" in character_range and character_category != "Lo"


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_emoticon(character: str) -> bool:
    character_range: str | None = unicode_range(character)

    if character_range is None:
        return False

    return "Emoticons" in character_range or "Pictographs" in character_range


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_separator(character: str) -> bool:
    if character.isspace() or character in {"｜", "+", "<", ">"}:
        return True

    character_category: str = unicodedata.category(character)

    return "Z" in character_category or character_category in {"Po", "Pd", "Pc"}


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_case_variable(character: str) -> bool:
    return character.islower() != character.isupper()


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_cjk(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "CJK" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_hiragana(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "HIRAGANA" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_katakana(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "KATAKANA" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_hangul(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "HANGUL" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_thai(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "THAI" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_arabic(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "ARABIC" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_arabic_isolated_form(character: str) -> bool:
    try:
        character_name = unicodedata.name(character)
    except ValueError:  # Defensive: unicode database outdated?
        return False

    return "ARABIC" in character_name and "ISOLATED FORM" in character_name


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_cjk_uncommon(character: str) -> bool:
    return character not in COMMON_CJK_CHARACTERS


@lru_cache(maxsize=len(UNICODE_RANGES_COMBINED))
def is_unicode_range_secondary(range_name: str) -> bool:
    return any(keyword in range_name for keyword in UNICODE_SECONDARY_RANGE_KEYWORD)


@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
def is_unprintable(character: str) -> bool:
    return (
        character.isspace() is False  # includes \n \t \r \v
        and character.isprintable() is False
        and character != "\x1a"  # Why? Its the ASCII substitute character.
        and character != "\ufeff"  # bug discovered in Python,
        # Zero Width No-Break Space located in 	Arabic Presentation Forms-B, Unicode 1.1 not acknowledged as space.
    )


def any_specified_encoding(sequence: bytes, search_zone: int = 8192) -> str | None:
    """
    Extract using ASCII-only decoder any specified encoding in the first n-bytes.
    """
    if not isinstance(sequence, bytes):
        raise TypeError

    seq_len: int = len(sequence)

    results: list[str] = findall(
        RE_POSSIBLE_ENCODING_INDICATION,
        sequence[: min(seq_len, search_zone)].decode("ascii", errors="ignore"),
    )

    if len(results) == 0:
        return None

    for specified_encoding in results:
        specified_encoding = specified_encoding.lower().replace("-", "_")

        encoding_alias: str
        encoding_iana: str

        for encoding_alias, encoding_iana in aliases.items():
            if encoding_alias == specified_encoding:
                return encoding_iana
            if encoding_iana == specified_encoding:
                return encoding_iana

    return None


@lru_cache(maxsize=128)
def is_multi_byte_encoding(name: str) -> bool:
    """
    Verify is a specific encoding is a multi byte one based on it IANA name
    """
    return name in {
        "utf_8",
        "utf_8_sig",
        "utf_16",
        "utf_16_be",
        "utf_16_le",
        "utf_32",
        "utf_32_le",
        "utf_32_be",
        "utf_7",
    } or issubclass(
        importlib.import_module(f"encodings.{name}").IncrementalDecoder,
        MultibyteIncrementalDecoder,
    )


def identify_sig_or_bom(sequence: bytes) -> tuple[str | None, bytes]:
    """
    Identify and extract SIG/BOM in given sequence.
    """

    for iana_encoding in ENCODING_MARKS:
        marks: bytes | list[bytes] = ENCODING_MARKS[iana_encoding]

        if isinstance(marks, bytes):
            marks = [marks]

        for mark in marks:
            if sequence.startswith(mark):
                return iana_encoding, mark

    return None, b""


def should_strip_sig_or_bom(iana_encoding: str) -> bool:
    return iana_encoding not in {"utf_16", "utf_32"}


def iana_name(cp_name: str, strict: bool = True) -> str:
    """Returns the Python normalized encoding name (Not the IANA official name)."""
    cp_name = cp_name.lower().replace("-", "_")

    encoding_alias: str
    encoding_iana: str

    for encoding_alias, encoding_iana in aliases.items():
        if cp_name in [encoding_alias, encoding_iana]:
            return encoding_iana

    if strict:
        raise ValueError(f"Unable to retrieve IANA for '{cp_name}'")

    return cp_name


def cp_similarity(iana_name_a: str, iana_name_b: str) -> float:
    if is_multi_byte_encoding(iana_name_a) or is_multi_byte_encoding(iana_name_b):
        return 0.0

    decoder_a = importlib.import_module(f"encodings.{iana_name_a}").IncrementalDecoder
    decoder_b = importlib.import_module(f"encodings.{iana_name_b}").IncrementalDecoder

    id_a: IncrementalDecoder = decoder_a(errors="ignore")
    id_b: IncrementalDecoder = decoder_b(errors="ignore")

    character_match_count: int = 0

    for i in range(255):
        to_be_decoded: bytes = bytes([i])
        if id_a.decode(to_be_decoded) == id_b.decode(to_be_decoded):
            character_match_count += 1

    return character_match_count / 254


def is_cp_similar(iana_name_a: str, iana_name_b: str) -> bool:
    """
    Determine if two code page are at least 80% similar. IANA_SUPPORTED_SIMILAR dict was generated using
    the function cp_similarity.
    """
    return (
        iana_name_a in IANA_SUPPORTED_SIMILAR
        and iana_name_b in IANA_SUPPORTED_SIMILAR[iana_name_a]
    )


def set_logging_handler(
    name: str = "charset_normalizer",
    level: int = logging.INFO,
    format_string: str = "%(asctime)s | %(levelname)s | %(message)s",
) -> None:
    logger = logging.getLogger(name)
    logger.setLevel(level)

    handler = logging.StreamHandler()
    handler.setFormatter(logging.Formatter(format_string))
    logger.addHandler(handler)


def cut_sequence_chunks(
    sequences: bytes,
    encoding_iana: str,
    offsets: range,
    chunk_size: int,
    bom_or_sig_available: bool,
    strip_sig_or_bom: bool,
    sig_payload: bytes,
    is_multi_byte_decoder: bool,
    decoded_payload: str | None = None,
) -> Generator[str, None, None]:
    if decoded_payload and is_multi_byte_decoder is False:
        for i in offsets:
            chunk = decoded_payload[i : i + chunk_size]
            if not chunk:
                break
            yield chunk
    else:
        for i in offsets:
            chunk_end = i + chunk_size
            if chunk_end > len(sequences) + 8:
                continue

            cut_sequence = sequences[i : i + chunk_size]

            if bom_or_sig_available and strip_sig_or_bom is False:
                cut_sequence = sig_payload + cut_sequence

            chunk = cut_sequence.decode(
                encoding_iana,
                errors="ignore" if is_multi_byte_decoder else "strict",
            )

            # multi-byte bad cutting detector and adjustment
            # not the cleanest way to perform that fix but clever enough for now.
            if is_multi_byte_decoder and i > 0:
                chunk_partial_size_chk: int = min(chunk_size, 16)

                if (
                    decoded_payload
                    and chunk[:chunk_partial_size_chk] not in decoded_payload
                ):
                    for j in range(i, i - 4, -1):
                        cut_sequence = sequences[j:chunk_end]

                        if bom_or_sig_available and strip_sig_or_bom is False:
                            cut_sequence = sig_payload + cut_sequence

                        chunk = cut_sequence.decode(encoding_iana, errors="ignore")

                        if chunk[:chunk_partial_size_chk] in decoded_payload:
                            break

            yield chunk
-												feat(api): 实现图像生成及后台同步功能

- 新增图像生成接口，支持试用、积分和自定义API Key模式
- 实现生成图片结果异步上传至MinIO存储，带重试机制
- 优化积分预扣除和异常退还逻辑，保障用户积分准确
- 添加获取生成历史记录接口，支持时间范围和分页
- 提供本地字典配置接口，支持模型、比例、提示模板和尺寸
- 实现图片批量上传接口，支持S3兼容对象存储

feat(admin): 增加管理员角色管理与权限分配接口

- 实现角色列表查询、角色创建、更新及删除功能
- 增加权限列表查询接口
- 实现用户角色分配接口，便于统一管理用户权限
- 增加系统字典增删查改接口，支持分类过滤和排序
- 权限控制全面覆盖管理接口，保证安全访问

feat(auth): 完善用户登录注册及权限相关接口与页面

- 实现手机号验证码发送及校验功能，保障注册安全
- 支持手机号注册、登录及退出接口，集成日志记录
- 增加修改密码功能，验证原密码后更新
- 提供动态导航菜单接口，基于权限展示不同菜单
- 实现管理界面路由及日志、角色、字典管理页面访问权限控制
- 添加系统日志查询接口，支持关键词和等级筛选

feat(app): 初始化Flask应用并配置蓝图与数据库

- 创建应用程序工厂，加载配置，初始化数据库和Redis客户端
- 注册认证、API及管理员蓝图，整合路由
- 根路由渲染主页模板
- 应用上下文中自动创建数据库表，保证运行环境准备完毕

feat(database): 提供数据库创建与迁移支持脚本

- 新增数据库创建脚本，支持自动检测是否已存在
- 添加数据库表初始化脚本，支持创建和删除所有表
- 实现RBAC权限初始化，包含基础权限和角色创建
- 新增字段手动修复脚本，添加用户API Key和积分字段
- 强制迁移脚本支持清理连接和修复表结构，初始化默认数据及角色分配

feat(config): 新增系统配置参数

- 配置数据库、Redis、Session和MinIO相关参数
- 添加AI接口地址及试用Key配置
- 集成阿里云短信服务配置及开发模式相关参数

feat(extensions): 初始化数据库、Redis和MinIO客户端

- 创建全局SQLAlchemy数据库实例和Redis客户端
- 配置基于boto3的MinIO兼容S3客户端

chore(logs): 添加示例系统日志文件

- 记录用户请求、验证码发送成功与失败的日志信息

											
										
										
											2026-01-12 00:53:31 +08:00
+								from __future__ import annotations
 								import importlib
 								import logging
 								import unicodedata
 								from codecs import IncrementalDecoder
 								from encodings.aliases import aliases
 								from functools import lru_cache
 								from re import findall
 								from typing import Generator
 								from _multibytecodec import (  # type: ignore[import-not-found,import]
 								    MultibyteIncrementalDecoder,
 								)
 								from .constant import (
 								    ENCODING_MARKS,
 								    IANA_SUPPORTED_SIMILAR,
 								    RE_POSSIBLE_ENCODING_INDICATION,
 								    UNICODE_RANGES_COMBINED,
 								    UNICODE_SECONDARY_RANGE_KEYWORD,
 								    UTF8_MAXIMAL_ALLOCATION,
 								    COMMON_CJK_CHARACTERS,
 								)
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_accentuated(character: str) -> bool:
 								    try:
 								        description: str = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return (
 								        "WITH GRAVE" in description
 								        or "WITH ACUTE" in description
 								        or "WITH CEDILLA" in description
 								        or "WITH DIAERESIS" in description
 								        or "WITH CIRCUMFLEX" in description
 								        or "WITH TILDE" in description
 								        or "WITH MACRON" in description
 								        or "WITH RING ABOVE" in description
 								    )
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def remove_accent(character: str) -> str:
 								    decomposed: str = unicodedata.decomposition(character)
 								    if not decomposed:
 								        return character
 								    codes: list[str] = decomposed.split(" ")
 								    return chr(int(codes[0], 16))
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def unicode_range(character: str) -> str | None:
 								    """
 								    Retrieve the Unicode range official name from a single character.
 								    """
 								    character_ord: int = ord(character)
 								    for range_name, ord_range in UNICODE_RANGES_COMBINED.items():
 								        if character_ord in ord_range:
 								            return range_name
 								    return None
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_latin(character: str) -> bool:
 								    try:
 								        description: str = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "LATIN" in description
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_punctuation(character: str) -> bool:
 								    character_category: str = unicodedata.category(character)
 								    if "P" in character_category:
 								        return True
 								    character_range: str | None = unicode_range(character)
 								    if character_range is None:
 								        return False
 								    return "Punctuation" in character_range
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_symbol(character: str) -> bool:
 								    character_category: str = unicodedata.category(character)
 								    if "S" in character_category or "N" in character_category:
 								        return True
 								    character_range: str | None = unicode_range(character)
 								    if character_range is None:
 								        return False
 								    return "Forms" in character_range and character_category != "Lo"
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_emoticon(character: str) -> bool:
 								    character_range: str | None = unicode_range(character)
 								    if character_range is None:
 								        return False
 								    return "Emoticons" in character_range or "Pictographs" in character_range
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_separator(character: str) -> bool:
 								    if character.isspace() or character in {"｜", "+", "<", ">"}:
 								        return True
 								    character_category: str = unicodedata.category(character)
 								    return "Z" in character_category or character_category in {"Po", "Pd", "Pc"}
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_case_variable(character: str) -> bool:
 								    return character.islower() != character.isupper()
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_cjk(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "CJK" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_hiragana(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "HIRAGANA" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_katakana(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "KATAKANA" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_hangul(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "HANGUL" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_thai(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "THAI" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_arabic(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "ARABIC" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_arabic_isolated_form(character: str) -> bool:
 								    try:
 								        character_name = unicodedata.name(character)
 								    except ValueError:  # Defensive: unicode database outdated?
 								        return False
 								    return "ARABIC" in character_name and "ISOLATED FORM" in character_name
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_cjk_uncommon(character: str) -> bool:
 								    return character not in COMMON_CJK_CHARACTERS
 								@lru_cache(maxsize=len(UNICODE_RANGES_COMBINED))
 								def is_unicode_range_secondary(range_name: str) -> bool:
 								    return any(keyword in range_name for keyword in UNICODE_SECONDARY_RANGE_KEYWORD)
 								@lru_cache(maxsize=UTF8_MAXIMAL_ALLOCATION)
 								def is_unprintable(character: str) -> bool:
 								    return (
 								        character.isspace() is False  # includes \n \t \r \v
 								        and character.isprintable() is False
 								        and character != "\x1a"  # Why? Its the ASCII substitute character.
 								        and character != "\ufeff"  # bug discovered in Python,
 								        # Zero Width No-Break Space located in 	Arabic Presentation Forms-B, Unicode 1.1 not acknowledged as space.
 								    )
 								def any_specified_encoding(sequence: bytes, search_zone: int = 8192) -> str | None:
 								    """
 								    Extract using ASCII-only decoder any specified encoding in the first n-bytes.
 								    """
 								    if not isinstance(sequence, bytes):
 								        raise TypeError
 								    seq_len: int = len(sequence)
 								    results: list[str] = findall(
 								        RE_POSSIBLE_ENCODING_INDICATION,
 								        sequence[: min(seq_len, search_zone)].decode("ascii", errors="ignore"),
 								    )
 								    if len(results) == 0:
 								        return None
 								    for specified_encoding in results:
 								        specified_encoding = specified_encoding.lower().replace("-", "_")
 								        encoding_alias: str
 								        encoding_iana: str
 								        for encoding_alias, encoding_iana in aliases.items():
 								            if encoding_alias == specified_encoding:
 								                return encoding_iana
 								            if encoding_iana == specified_encoding:
 								                return encoding_iana
 								    return None
 								@lru_cache(maxsize=128)
 								def is_multi_byte_encoding(name: str) -> bool:
 								    """
 								    Verify is a specific encoding is a multi byte one based on it IANA name
 								    """
 								    return name in {
 								        "utf_8",
 								        "utf_8_sig",
 								        "utf_16",
 								        "utf_16_be",
 								        "utf_16_le",
 								        "utf_32",
 								        "utf_32_le",
 								        "utf_32_be",
 								        "utf_7",
 								    } or issubclass(
 								        importlib.import_module(f"encodings.{name}").IncrementalDecoder,
 								        MultibyteIncrementalDecoder,
 								    )
 								def identify_sig_or_bom(sequence: bytes) -> tuple[str | None, bytes]:
 								    """
 								    Identify and extract SIG/BOM in given sequence.
 								    """
 								    for iana_encoding in ENCODING_MARKS:
 								        marks: bytes | list[bytes] = ENCODING_MARKS[iana_encoding]
 								        if isinstance(marks, bytes):
 								            marks = [marks]
 								        for mark in marks:
 								            if sequence.startswith(mark):
 								                return iana_encoding, mark
 								    return None, b""
 								def should_strip_sig_or_bom(iana_encoding: str) -> bool:
 								    return iana_encoding not in {"utf_16", "utf_32"}
 								def iana_name(cp_name: str, strict: bool = True) -> str:
 								    """Returns the Python normalized encoding name (Not the IANA official name)."""
 								    cp_name = cp_name.lower().replace("-", "_")
 								    encoding_alias: str
 								    encoding_iana: str
 								    for encoding_alias, encoding_iana in aliases.items():
 								        if cp_name in [encoding_alias, encoding_iana]:
 								            return encoding_iana
 								    if strict:
 								        raise ValueError(f"Unable to retrieve IANA for '{cp_name}'")
 								    return cp_name
 								def cp_similarity(iana_name_a: str, iana_name_b: str) -> float:
 								    if is_multi_byte_encoding(iana_name_a) or is_multi_byte_encoding(iana_name_b):
 								        return 0.0
 								    decoder_a = importlib.import_module(f"encodings.{iana_name_a}").IncrementalDecoder
 								    decoder_b = importlib.import_module(f"encodings.{iana_name_b}").IncrementalDecoder
 								    id_a: IncrementalDecoder = decoder_a(errors="ignore")
 								    id_b: IncrementalDecoder = decoder_b(errors="ignore")
 								    character_match_count: int = 0
 								    for i in range(255):
 								        to_be_decoded: bytes = bytes([i])
 								        if id_a.decode(to_be_decoded) == id_b.decode(to_be_decoded):
 								            character_match_count += 1
 								    return character_match_count / 254
 								def is_cp_similar(iana_name_a: str, iana_name_b: str) -> bool:
 								    """
 								    Determine if two code page are at least 80% similar. IANA_SUPPORTED_SIMILAR dict was generated using
 								    the function cp_similarity.
 								    """
 								    return (
 								        iana_name_a in IANA_SUPPORTED_SIMILAR
 								        and iana_name_b in IANA_SUPPORTED_SIMILAR[iana_name_a]
 								    )
 								def set_logging_handler(
 								    name: str = "charset_normalizer",
 								    level: int = logging.INFO,
 								    format_string: str = "%(asctime)s | %(levelname)s | %(message)s",
 								) -> None:
 								    logger = logging.getLogger(name)
 								    logger.setLevel(level)
 								    handler = logging.StreamHandler()
 								    handler.setFormatter(logging.Formatter(format_string))
 								    logger.addHandler(handler)
 								def cut_sequence_chunks(
 								    sequences: bytes,
 								    encoding_iana: str,
 								    offsets: range,
 								    chunk_size: int,
 								    bom_or_sig_available: bool,
 								    strip_sig_or_bom: bool,
 								    sig_payload: bytes,
 								    is_multi_byte_decoder: bool,
 								    decoded_payload: str | None = None,
 								) -> Generator[str, None, None]:
 								    if decoded_payload and is_multi_byte_decoder is False:
 								        for i in offsets:
 								            chunk = decoded_payload[i : i + chunk_size]
 								            if not chunk:
 								                break
 								            yield chunk
 								    else:
 								        for i in offsets:
 								            chunk_end = i + chunk_size
 								            if chunk_end > len(sequences) + 8:
 								                continue
 								            cut_sequence = sequences[i : i + chunk_size]
 								            if bom_or_sig_available and strip_sig_or_bom is False:
 								                cut_sequence = sig_payload + cut_sequence
 								            chunk = cut_sequence.decode(
 								                encoding_iana,
 								                errors="ignore" if is_multi_byte_decoder else "strict",
 								            )
 								            # multi-byte bad cutting detector and adjustment
 								            # not the cleanest way to perform that fix but clever enough for now.
 								            if is_multi_byte_decoder and i > 0:
 								                chunk_partial_size_chk: int = min(chunk_size, 16)
 								                if (
 								                    decoded_payload
 								                    and chunk[:chunk_partial_size_chk] not in decoded_payload
 								                ):
 								                    for j in range(i, i - 4, -1):
 								                        cut_sequence = sequences[j:chunk_end]
 								                        if bom_or_sig_available and strip_sig_or_bom is False:
 								                            cut_sequence = sig_payload + cut_sequence
 								                        chunk = cut_sequence.decode(encoding_iana, errors="ignore")
 								                        if chunk[:chunk_partial_size_chk] in decoded_payload:
 								                            break
 								            yield chunk