编解码器注册表和支持函数 — Python 文档
编解码器注册和支持功能
- int PyCodec_Register(PyObject *search_function)
注册新的编解码器搜索功能。
作为副作用,这会尝试加载
encodings
包(如果尚未完成),以确保它始终位于搜索功能列表中的第一个位置。
- int PyCodec_Unregister(PyObject *search_function)
取消注册编解码器搜索功能并清除注册表的缓存。 如果未注册搜索功能,则什么也不做。 成功返回 0。 引发异常并在出错时返回 -1。
3.10 版中的新功能。
- int PyCodec_KnownEncoding(const char *encoding)
- 返回
1
或0
,具体取决于是否为给定的 encoding 注册了编解码器。 此功能总是成功。
- PyObject *PyCodec_Encode(PyObject *object, const char *encoding, const char *errors)
基于通用编解码器的编码 API。
object 使用由 errors 定义的错误处理方法,通过为给定的 encoding 找到的编码器函数传递。 errors 可能是
NULL
以使用为编解码器定义的默认方法。 如果找不到编码器,则引发 LookupError。
- PyObject *PyCodec_Decode(PyObject *object, const char *encoding, const char *errors)
基于通用编解码器的解码 API。
object 使用由 errors 定义的错误处理方法,通过为给定的 encoding 找到的解码器函数传递。 errors 可能是
NULL
以使用为编解码器定义的默认方法。 如果找不到编码器,则引发 LookupError。
编解码器查找 API
在以下函数中,encoding 字符串被查找转换为所有小写字符,这使得通过该机制查找的编码有效地不区分大小写。 如果未找到编解码器,则设置 KeyError 并返回 NULL
。
- PyObject *PyCodec_Encoder(const char *encoding)
- 获取给定 encoding 的编码器函数。
- PyObject *PyCodec_Decoder(const char *encoding)
- 获取给定 encoding 的解码器函数。
- PyObject *PyCodec_IncrementalEncoder(const char *encoding, const char *errors)
- 获取给定 encoding 的 IncrementalEncoder 对象。
- PyObject *PyCodec_IncrementalDecoder(const char *encoding, const char *errors)
- 获取给定 encoding 的 IncrementalDecoder 对象。
- 获取给定 编码 的 StreamReader 工厂函数。
- 获取给定 编码 的 StreamWriter 工厂函数。
用于 Unicode 编码错误处理程序的注册表 API
- int PyCodec_RegisterError(const char *name, PyObject *error)
在给定的 name 下注册错误处理回调函数 error。 当编解码器遇到不可编码的字符/不可解码的字节并且在调用编码/解码函数时将 name 指定为错误参数时,该回调函数将被编解码器调用。
回调获取一个参数,一个 UnicodeEncodeError、UnicodeDecodeError 或 UnicodeTranslateError 的实例,其中包含有关有问题的字符或字节序列及其在原始文件中的偏移量的信息字符串(有关提取此信息的函数,请参阅 Unicode 异常对象 )。 回调必须要么引发给定的异常,要么返回一个包含有问题序列的替换的二项元组,以及一个整数,给出原始字符串中应恢复编码/解码的偏移量。
成功返回
0
,错误返回-1
。
- PyObject *PyCodec_LookupError(const char *name)
- 查找注册在name下的错误处理回调函数。 作为特殊情况
NULL
可以传递,在这种情况下,“strict”的错误处理回调将被返回。
- 提高 exc 作为例外。
- 忽略 unicode 错误,跳过错误的输入。
- 将 unicode 编码错误替换为
?
或U+FFFD
。
- 用 XML 字符引用替换 unicode 编码错误。
- 将 unicode 编码错误替换为反斜杠转义(
\x
、\u
和\U
)。