32.2. AST — 抽象语法树

源代码： :source:`Lib/ast.py`

ast 模块帮助 Python 应用程序处理 Python 抽象语法语法树。抽象语法本身可能会随着每个 Python 版本而改变；该模块有助于以编程方式找出当前语法的样子。

可以通过将 ast.PyCF_ONLY_AST 作为标志传递给 compile() 内置函数，或使用本文中提供的 parse() 助手来生成抽象语法树模块。结果将是一个对象树，其类都继承自 ast.AST。可以使用内置的 compile() 函数将抽象语法树编译成 Python 代码对象。

32.2.1. 节点类

class ast.AST

这是所有 AST 节点类的基础。实际的节点类派生自 Parser/Python.asdl 文件，该文件在下面复制。它们在 _ast C 模块中定义并在 ast 中重新导出。

为抽象语法中的每个左侧符号定义了一个类（例如，ast.stmt 或 ast.expr）。此外，右侧为每个构造函数定义了一个类；这些类继承自左侧树的类。例如，ast.BinOp 继承自 ast.expr。对于带有替代项（又名“总和”）的产生式规则，左侧的类是抽象的：只创建特定构造函数节点的实例。

_fields

每个具体类都有一个属性 _fields，它给出了所有子节点的名称。

具体类的每个实例的每个子节点都有一个属性，其类型在语法中定义。例如，ast.BinOp 实例具有 ast.expr 类型的属性 left。

如果这些属性在语法中标记为可选（使用问号），则值可能是 None。如果属性可以有零个或多个值（用星号标记），则这些值表示为 Python 列表。使用 compile() 编译 AST 时，所有可能的属性都必须存在并具有有效值。

lineno col_offset: ast.expr 和 ast.stmt 子类的实例具有 lineno 和 col_offset 属性。 lineno 是源文本的行号（1-indexed 所以第一行是第 1 行），col_offset 是生成第一个标记的 UTF-8 字节偏移量节点。记录 UTF-8 偏移量是因为解析器在内部使用 UTF-8。

类 ast.T 的构造函数解析其参数如下：

如果有位置参数，则必须与T._fields中的项一样多；它们将被分配为这些名称的属性。
如果有关键字参数，它们会将同名的属性设置为给定的值。

例如，要创建和填充 ast.UnaryOp 节点，您可以使用

node = ast.UnaryOp()
node.op = ast.USub()
node.operand = ast.Num()
node.operand.n = 5
node.operand.lineno = 0
node.operand.col_offset = 0
node.lineno = 0
node.col_offset = 0

或者更紧凑

node = ast.UnaryOp(ast.USub(), ast.Num(5, lineno=0, col_offset=0),
                   lineno=0, col_offset=0)

32.2.2. 抽象语法

抽象语法目前定义如下：

-- ASDL's 7 builtin types are:
-- identifier, int, string, bytes, object, singleton, constant
--
-- singleton: None, True or False
-- constant can be None, whereas None means "no value" for object.

module Python
{
    mod = Module(stmt* body)
        | Interactive(stmt* body)
        | Expression(expr body)

        -- not really an actual node but useful in Jython's typesystem.
        | Suite(stmt* body)

    stmt = FunctionDef(identifier name, arguments args,
                       stmt* body, expr* decorator_list, expr? returns)
          | AsyncFunctionDef(identifier name, arguments args,
                             stmt* body, expr* decorator_list, expr? returns)

          | ClassDef(identifier name,
             expr* bases,
             keyword* keywords,
             stmt* body,
             expr* decorator_list)
          | Return(expr? value)

          | Delete(expr* targets)
          | Assign(expr* targets, expr value)
          | AugAssign(expr target, operator op, expr value)
          -- 'simple' indicates that we annotate simple name without parens
          | AnnAssign(expr target, expr annotation, expr? value, int simple)

          -- use 'orelse' because else is a keyword in target languages
          | For(expr target, expr iter, stmt* body, stmt* orelse)
          | AsyncFor(expr target, expr iter, stmt* body, stmt* orelse)
          | While(expr test, stmt* body, stmt* orelse)
          | If(expr test, stmt* body, stmt* orelse)
          | With(withitem* items, stmt* body)
          | AsyncWith(withitem* items, stmt* body)

          | Raise(expr? exc, expr? cause)
          | Try(stmt* body, excepthandler* handlers, stmt* orelse, stmt* finalbody)
          | Assert(expr test, expr? msg)

          | Import(alias* names)
          | ImportFrom(identifier? module, alias* names, int? level)

          | Global(identifier* names)
          | Nonlocal(identifier* names)
          | Expr(expr value)
          | Pass | Break | Continue

          -- XXX Jython will be different
          -- col_offset is the byte offset in the utf8 string the parser uses
          attributes (int lineno, int col_offset)

          -- BoolOp() can use left & right?
    expr = BoolOp(boolop op, expr* values)
         | BinOp(expr left, operator op, expr right)
         | UnaryOp(unaryop op, expr operand)
         | Lambda(arguments args, expr body)
         | IfExp(expr test, expr body, expr orelse)
         | Dict(expr* keys, expr* values)
         | Set(expr* elts)
         | ListComp(expr elt, comprehension* generators)
         | SetComp(expr elt, comprehension* generators)
         | DictComp(expr key, expr value, comprehension* generators)
         | GeneratorExp(expr elt, comprehension* generators)
         -- the grammar constrains where yield expressions can occur
         | Await(expr value)
         | Yield(expr? value)
         | YieldFrom(expr value)
         -- need sequences for compare to distinguish between
         -- x < 4 < 3 and (x < 4) < 3
         | Compare(expr left, cmpop* ops, expr* comparators)
         | Call(expr func, expr* args, keyword* keywords)
         | Num(object n) -- a number as a PyObject.
         | Str(string s) -- need to specify raw, unicode, etc?
         | FormattedValue(expr value, int? conversion, expr? format_spec)
         | JoinedStr(expr* values)
         | Bytes(bytes s)
         | NameConstant(singleton value)
         | Ellipsis
         | Constant(constant value)

         -- the following expression can appear in assignment context
         | Attribute(expr value, identifier attr, expr_context ctx)
         | Subscript(expr value, slice slice, expr_context ctx)
         | Starred(expr value, expr_context ctx)
         | Name(identifier id, expr_context ctx)
         | List(expr* elts, expr_context ctx)
         | Tuple(expr* elts, expr_context ctx)

          -- col_offset is the byte offset in the utf8 string the parser uses
          attributes (int lineno, int col_offset)

    expr_context = Load | Store | Del | AugLoad | AugStore | Param

    slice = Slice(expr? lower, expr? upper, expr? step)
          | ExtSlice(slice* dims)
          | Index(expr value)

    boolop = And | Or

    operator = Add | Sub | Mult | MatMult | Div | Mod | Pow | LShift
                 | RShift | BitOr | BitXor | BitAnd | FloorDiv

    unaryop = Invert | Not | UAdd | USub

    cmpop = Eq | NotEq | Lt | LtE | Gt | GtE | Is | IsNot | In | NotIn

    comprehension = (expr target, expr iter, expr* ifs, int is_async)

    excepthandler = ExceptHandler(expr? type, identifier? name, stmt* body)
                    attributes (int lineno, int col_offset)

    arguments = (arg* args, arg? vararg, arg* kwonlyargs, expr* kw_defaults,
                 arg? kwarg, expr* defaults)

    arg = (identifier arg, expr? annotation)
           attributes (int lineno, int col_offset)

    -- keyword arguments supplied to call (NULL identifier for **kwargs)
    keyword = (identifier? arg, expr value)

    -- import name with optional 'as' alias.
    alias = (identifier name, identifier? asname)

    withitem = (expr context_expr, expr? optional_vars)
}

32.2.3. AST 帮手

除了节点类之外，ast 模块定义了这些用于遍历抽象语法树的实用函数和类：

ast.parse(source, filename='<unknown>', mode='exec'): 将源解析为 AST 节点。相当于 compile(source, filename, mode, ast.PyCF_ONLY_AST)。

警告

由于 Python 的 AST 编译器中的堆栈深度限制，有可能使用足够大/复杂的字符串使 Python 解释器崩溃。

ast.literal_eval(node_or_string)

安全地计算包含 Python 文字或容器显示的表达式节点或字符串。提供的字符串或节点只能由以下 Python 文字结构组成：字符串、字节、数字、元组、列表、字典、集合、布尔值和 None。

这可用于安全地评估包含来自不受信任来源的 Python 值的字符串，而无需自己解析这些值。它不能评估任意复杂的表达式，例如涉及运算符或索引。

警告

由于 Python 的 AST 编译器中的堆栈深度限制，有可能使用足够大/复杂的字符串使 Python 解释器崩溃。

3.2 版更改：现在允许字节和设置文字。

ast.get_docstring(node, clean=True): 返回给定节点（必须是 FunctionDef、ClassDef 或 Module 节点）的文档字符串，如果是 None没有文档字符串。如果 clean 为真，则使用 inspect.cleandoc() 清理文档字符串的缩进。

ast.fix_missing_locations(node): 当您使用 compile() 编译节点树时，编译器期望每个支持它们的节点具有 lineno 和 col_offset 属性。填充生成的节点相当繁琐，因此该助手通过将这些属性设置为父节点的值，在尚未设置的地方递归添加这些属性。它从节点开始递归地工作。

ast.increment_lineno(node, n=1): 将树中从 node 开始的每个节点的行号增加 n。这对于将代码“移动”到文件中的不同位置很有用。

ast.copy_location(new_node, old_node): 如果可能，将源位置（lineno 和 col_offset）从 old_node 复制到 new_node，并返回 new_node。

ast.iter_fields(node): 为节点上存在的 node._fields 中的每个字段生成一个 (fieldname, value) 元组。

ast.iter_child_nodes(node): 生成 node 的所有直接子节点，即作为节点的所有字段和作为节点列表的所有字段项。

ast.walk(node): 递归生成树中从 node 开始的所有后代节点（包括 node 本身），没有指定的顺序。如果您只想就地修改节点而不关心上下文，这将非常有用。

class ast.NodeVisitor

一个节点访问者基类，它遍历抽象语法树并为找到的每个节点调用一个访问者函数。此函数可能会返回一个值，该值由 visit() 方法转发。

此类旨在被子类化，子类添加访问者方法。

visit(node): 访问一个节点。默认实现调用名为 self.visit_classname 的方法，其中 classname 是节点类的名称，如果该方法不存在，则调用 generic_visit()。

generic_visit(node)

此访问者在节点的所有子节点上调用 visit()。

请注意，除非访问者调用 generic_visit() 或自己访问它们，否则不会访问具有自定义访问者方法的节点的子节点。

如果要在遍历期间对节点应用更改，请不要使用 NodeVisitor。为此，存在一个允许修改的特殊访问者 (NodeTransformer)。

class ast.NodeTransformer

NodeVisitor 子类，它遍历抽象语法树并允许修改节点。

NodeTransformer 将遍历 AST 并使用访问者方法的返回值来替换或删除旧节点。如果visitor方法的返回值为None，节点会从其所在位置移除，否则用返回值替换。返回值可能是原始节点，在这种情况下不会发生替换。

这是一个示例转换器，它将所有出现的名称查找 (foo) 重写为 data['foo']：

class RewriteName(NodeTransformer):

    def visit_Name(self, node):
        return copy_location(Subscript(
            value=Name(id='data', ctx=Load()),
            slice=Index(value=Str(s=node.id)),
            ctx=node.ctx
        ), node)

请记住，如果您正在操作的节点具有子节点，则您必须自己转换子节点或首先为该节点调用 generic_visit() 方法。

对于作为语句集合的一部分（适用于所有语句节点）的节点，访问者还可以返回节点列表而不仅仅是单个节点。

通常你像这样使用变压器：

node = YourTransformer().visit(node)

ast.dump(node, annotate_fields=True, include_attributes=False): 返回节点中树的格式化转储。这主要用于调试目的。返回的字符串将显示字段的名称和值。这使得代码无法评估，因此如果需要评估 annotate_fields 必须设置为 False。默认情况下不会转储行号和列偏移等属性。如果需要，可以将 include_attributes 设置为 True。

也可以看看

Green Tree Snakes 是一个外部文档资源，其中包含有关使用 Python AST 的详细信息。

32.2. ast — 抽象语法树 — Python 文档

目录

32.2. AST — 抽象语法树

32.2.1. 节点类

32.2.2. 抽象语法

32.2.3. AST 帮手