Python 代码是什么？—— 从字节到执行的完整解析

admin2个月前 (05-22)PYTHON88

Python 是一门以简洁优雅著称的编程语言，但"简洁"的背后隐藏着一套精密的执行机制。本文将深入剖析 Python 代码的本质：它从文本文件到最终执行，经历了怎样的旅程？为什么 Python 被称为"解释型语言"却又存在 .pyc 文件？让我们从源码层面揭开 Python 代码的神秘面纱。

一、Python 代码的本质：文本还是字节码？

1.1 你写的 Python 代码是什么？

当你创建一个 hello.py 文件，写下：

Python

复制

def greet(name):
    return f"Hello, {name}!"print(greet("Python"))

这本质上是一个纯文本文件，包含符合 Python 语法规则的字符序列。CPU 无法直接执行这些字符——它需要经过多层转换，最终变成机器能理解的指令。

1.2 Python 代码的两种形态

表格

形态	文件扩展名	内容	人类可读性
源代码	`.py`	ASCII/UTF-8 文本	✅ 完全可读
字节码	`.pyc`	二进制字节序列	❌ 不可直接阅读

Python 代码的执行过程，就是从源代码到字节码，再到机器码的转换过程。

二、Python 代码的执行全流程

plain

复制

┌─────────────┐     ┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   源代码     │ ──▶ │   词法分析   │ ──▶ │   语法分析   │ ──▶ │   编译器     │
│   .py 文件   │     │  (Tokenizer) │     │   (Parser)   │     │  (Compiler)  │
└─────────────┘     └─────────────┘     └─────────────┘     └──────┬──────┘
                                                                    │
                                                                    ▼
┌─────────────┐     ┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   机器码     │ ◀── │    CPU      │ ◀── │   解释器     │ ◀── │   字节码     │
│  (二进制)    │     │  (执行)     │     │  (PVM/VM)   │     │  .pyc 文件   │
└─────────────┘     └─────────────┘     └─────────────┘     └─────────────┘

2.1 第一步：词法分析（Lexical Analysis）

Python 解释器首先将源代码字符流切分为词法单元（Token）：

Python

复制

# 源代码x = 1 + 2# 词法分析结果（Token 序列）[
    Token(NAME, 'x'),
    Token(OP, '='),
    Token(NUMBER, '1'),
    Token(OP, '+'),
    Token(NUMBER, '2'),
    Token(NEWLINE, '\n'),
    Token(ENDMARKER, '')]

你可以用 Python 标准库 tokenize 模块亲眼见证这个过程：

Python

复制

import tokenizeimport io

code = 'x = 1 + 2'# 将字符串转换为文件对象reader = io.BytesIO(code.encode('utf-8'))# 词法分析for token in tokenize.tokenize(reader.readline):
    print(f"{token.type:12} {token.string!r:10} 行{token.start[0]} 列{token.start[1]}")

输出：

plain

复制

ENCODING     'utf-8'    行0 列0
NAME         'x'        行1 列0
OP           '='        行1 列2
NUMBER       '1'        行1 列4
OP           '+'        行1 列6
NUMBER       '2'        行1 列8
NEWLINE      '\n'       行1 列9
ENDMARKER    ''         行2 列0

2.2 第二步：语法分析（Syntax Analysis / Parsing）

词法单元被送入解析器（Parser），按照 Python 语法规则构建抽象语法树（AST, Abstract Syntax Tree）。

AST 是源代码的结构化表示，以树形结构描述代码的逻辑关系：

Python

复制

# 源代码if x > 0:
    print("positive")# 对应的 AST（简化表示）Module(
    body=[
        If(
            test=Compare(
                left=Name(id='x', ctx=Load()),
                ops=[Gt()],
                comparators=[Constant(value=0)]
            ),
            body=[
                Expr(
                    value=Call(
                        func=Name(id='print', ctx=Load()),
                        args=[Constant(value='positive')],
                        keywords=[]
                    )
                )
            ],
            orelse=[]
        )
    ])

你可以用 ast 模块查看任何代码的 AST：

Python

复制

import ast

code = '''
def factorial(n):
    if n <= 1:
        return 1
    return n * factorial(n - 1)
'''tree = ast.parse(code)print(ast.dump(tree, indent=2))

2.3 第三步：编译为字节码（Compilation）

AST 被送入编译器（Compiler），生成字节码（Bytecode）。字节码是平台无关的中间代码，类似于 Java 的 .class 文件或 .NET 的 IL 代码。

Python 字节码是基于栈的虚拟机指令，每条指令占用 2 字节（操作码 + 参数）。

Python

复制

import disdef greet(name):
    return f"Hello, {name}!"# 查看函数的字节码dis.dis(greet)

输出：

plain

复制

  2           0 LOAD_CONST               1 ('Hello, ')
              2 LOAD_FAST                0 (name)
              4 FORMAT_VALUE             0
              6 BUILD_STRING             2
              8 RETURN_VALUE

指令解析：

表格

偏移	指令	参数	含义
0	`LOAD_CONST`	1	将常量 `'Hello, '` 压入栈
2	`LOAD_FAST`	0	将局部变量 `name` 压入栈
4	`FORMAT_VALUE`	0	格式化栈顶值（f-string）
6	`BUILD_STRING`	2	从栈顶取 2 个值拼接为字符串
8	`RETURN_VALUE`	-	将栈顶值作为返回值

2.4 第四步：虚拟机执行（PVM - Python Virtual Machine）

字节码最终由 Python 虚拟机（PVM） 执行。PVM 是一个基于栈的虚拟机，核心是一个巨大的 switch 语句（在 CPython 实现中），根据操作码分派执行对应的 C 函数。

复制

// CPython 核心执行循环（简化版）// Python/ceval.cfor (;;) {
    opcode = NEXTOP();
    switch (opcode) {
        case TARGET(LOAD_CONST): {
            PyObject *value = GETITEM(consts, oparg);
            Py_INCREF(value);
            PUSH(value);
            DISPATCH();
        }
        
        case TARGET(BINARY_ADD): {
            PyObject *right = POP();
            PyObject *left = TOP();
            PyObject *sum = PyNumber_Add(left, right);
            Py_DECREF(left);
            Py_DECREF(right);
            SET_TOP(sum);
            DISPATCH();
        }
        
        case TARGET(RETURN_VALUE): {
            retval = POP();
            goto exiting;
        }
        // ... 数百个 case
    }}

关键点：CPython（标准 Python 实现）的解释器是用 C 语言 编写的，字节码最终通过 C 函数调用操作系统 API，再转换为机器码执行。

三、CPython 的编译缓存机制：`.pyc` 文件揭秘

3.1 为什么存在 `.pyc` 文件？

很多人误以为 Python 是纯解释型语言，但实际上 CPython 会在首次导入模块时自动编译源码为字节码，并缓存到 .pyc 文件中。

目的：避免每次导入都重新编译，加速模块加载。

3.2 `.pyc` 文件生成流程

plain

复制

首次导入模块 hello.py
        │
        ▼
┌─────────────────┐
│ 1. 检查 hello.pyc  │
│    是否存在且未过期？ │
└────────┬────────┘
         │
    ┌────┴────┐
    ▼         ▼
  不存在    存在且新鲜
  或已过期   (mtime 匹配)
    │         │
    ▼         ▼
  重新编译   直接加载
  生成 .pyc  字节码
    │
    ▼
┌─────────────────┐
│ 2. 写入 __pycache__/ │
│    hello.cpython-311.pyc │
└─────────────────┘

3.3 查看和验证 `.pyc` 文件

Python

复制

import py_compileimport marshalimport structimport time# 手动编译生成 .pycpy_compile.compile('hello.py', doraise=True)# 读取 .pyc 文件结构with open('__pycache__/hello.cpython-311.pyc', 'rb') as f:
    # 魔数（标识 Python 版本）
    magic = f.read(4)
    # 时间戳/哈希
    timestamp = struct.unpack('<I', f.read(4))[0]
    print(f"魔数: {magic.hex()}")
    print(f"编译时间: {time.ctime(timestamp)}")
    
    # 跳过其他头部信息（PEP 552）
    # 加载字节码对象
    f.seek(16)  # Python 3.7+ 头部为 16 字节
    code_object = marshal.load(f)
    
    print(f"\n代码对象类型: {type(code_object)}")
    print(f"常量表: {code_object.co_consts}")
    print(f"变量名: {code_object.co_varnames}")
    print(f"文件名: {code_object.co_filename}")

3.4 `.pyc` 文件格式（PEP 552）

表格

字段	大小	说明
Magic Number	4 字节	Python 版本标识（如 3.11 为 `0x610d0d0a`）
Padding	4 字节	保留字段
时间戳/哈希	4 字节	用于判断源文件是否变更
文件大小	4 字节	源文件大小（可选）
字节码对象	变长	`marshal` 序列化的 Code Object

四、Python 代码的底层数据结构

4.1 Code Object：字节码的载体

每个 Python 函数、类、模块都对应一个 Code Object（代码对象），它是编译后的核心数据结构：

Python

复制

def example(a, b):
    c = a + b    return c * 2code = example.__code__print(f"co_name: {code.co_name}")           # 函数名: exampleprint(f"co_argcount: {code.co_argcount}")   # 参数个数: 2print(f"co_nlocals: {code.co_nlocals}")     # 局部变量数: 3 (a, b, c)print(f"co_varnames: {code.co_varnames}")   # 变量名: ('a', 'b', 'c')print(f"co_consts: {code.co_consts}")       # 常量: (None, 2)print(f"co_code: {code.co_code}")           # 原始字节码: b'|\x00|\x01\x17\x00}\x02|\x02d\x01\x14\x00S\x00'print(f"co_code hex: {code.co_code.hex()}") # 十六进制表示

4.2 Frame Object：运行时执行环境

当函数被调用时，Python 会创建一个 Frame Object（栈帧），它是函数执行的运行时上下文：

Python

复制

import sysdef trace_calls(frame, event, arg):
    """追踪函数调用"""
    if event == 'call':
        code = frame.f_code        print(f"[CALL] {code.co_name} at {code.co_filename}:{frame.f_lineno}")
        print(f"       locals: {list(frame.f_locals.keys())}")
    elif event == 'return':
        print(f"[RETURN] value={arg}")
    return trace_callsdef factorial(n):
    if n <= 1:
        return 1
    return n * factorial(n - 1)# 设置追踪函数sys.settrace(trace_calls)factorial(3)sys.settrace(None)

输出：

plain

复制

[CALL] factorial at <stdin>:14
       locals: ['n']
[CALL] factorial at <stdin>:14
       locals: ['n']
[CALL] factorial at <stdin>:14
       locals: ['n']
[RETURN] value=1
[RETURN] value=2
[RETURN] value=6

Frame Object 的关键属性：

表格

属性	说明
`f_code`	对应的 Code Object
`f_locals`	局部变量字典
`f_globals`	全局变量字典
`f_builtins`	内置函数字典
`f_back`	上一个栈帧（调用者）
`f_lineno`	当前执行行号
`f_stack`	运行时操作数栈

五、Python 的 GIL：代码执行的"全局锁"

5.1 什么是 GIL？

GIL（Global Interpreter Lock，全局解释器锁） 是 CPython 的一个核心机制：它确保同一时刻只有一个线程在执行 Python 字节码。

Python

复制

import threadingimport timedef cpu_bound_task():
    """纯 CPU 计算任务"""
    count = 0
    for i in range(50_000_000):
        count += i    return count# 单线程执行start = time.time()cpu_bound_task()cpu_bound_task()print(f"单线程耗时: {time.time() - start:.2f}s")# 多线程执行（受 GIL 限制，不会更快！）start = time.time()t1 = threading.Thread(target=cpu_bound_task)t2 = threading.Thread(target=cpu_bound_task)t1.start(); t2.start()t1.join(); t2.join()print(f"多线程耗时: {time.time() - start:.2f}s")

典型结果：

plain

复制

单线程耗时: 3.50s
多线程耗时: 3.80s  ← 更慢！因为线程切换有开销

5.2 为什么需要 GIL？

GIL 的存在是为了简化 CPython 的内存管理：

引用计数：Python 使用引用计数管理内存，多线程同时修改引用计数会导致数据竞争
C 扩展兼容性：大量 C 扩展库（如 NumPy）不是线程安全的，GIL 保护了它们

5.3 绕过 GIL 的方案

表格

方案	原理	适用场景
多进程	每个进程独立 GIL	CPU 密集型任务
C 扩展释放 GIL	C 代码执行时释放 GIL	调用 NumPy、IO 操作
`nogil` 分支	无 GIL 的 Python 实验版本	未来可能的方向
其他实现	Jython（JVM）、IronPython（.NET）无 GIL	特定生态

Python

复制

# 多进程绕过 GILfrom multiprocessing import Poolimport timedef cpu_bound(n):
    return sum(range(n))if __name__ == '__main__':
    start = time.time()
    with Pool(4) as p:
        p.map(cpu_bound, [50_000_000] * 4)
    print(f"多进程耗时: {time.time() - start:.2f}s")

六、Python 代码的执行模型：一切皆对象

6.1 对象模型

Python 代码中的一切——数字、字符串、函数、类、模块——都是 PyObject 结构体的实例：

复制

// Include/object.htypedef struct _object {
    _PyObject_HEAD_EXTRA  // 双向链表指针（用于垃圾回收）
    Py_ssize_t ob_refcnt; // 引用计数
    PyTypeObject *ob_type; // 类型指针} PyObject;

关键洞察：Python 代码的执行，本质上是 PyObject 之间的消息传递。

6.2 函数调用的本质

当你写下 len("hello")，Python 内部发生了什么？

Python

复制

s = "hello"# 以下三种写法在底层等价：len(s)              # 直接调用内置函数s.__len__()         # 调用对象的特殊方法type(s).__len__(s)  # 通过类型对象调用# 验证print(len(s))           # 5print(s.__len__())      # 5print(str.__len__(s))   # 5

执行流程：

解析 len(s)，识别为函数调用
在栈上创建参数：s（字符串对象）
查找 len 内置函数（实际是 PyBuiltinFunctionObject）
调用 len 的 C 实现：PyObject_Size(s)
PyObject_Size 查找 s 的类型表，找到 str.__len__
执行 str.__len__，返回整数 5

七、Python 代码的内存管理

7.1 引用计数 + 垃圾回收

Python 代码创建的对象通过引用计数管理生命周期：

Python

复制

import sys

a = [1, 2, 3]print(sys.getrefcount(a))  # 2（a 引用 + getrefcount 参数引用）b = aprint(sys.getrefcount(a))  # 3del bprint(sys.getrefcount(a))  # 2# 循环引用问题a = []b = []a.append(b)  # b 的引用计数 +1b.append(a)  # a 的引用计数 +1del adel b# 此时 a 和 b 的引用计数各为 1，但已无法访问 → 内存泄漏！# Python 使用分代垃圾回收（GC）解决循环引用import gc
gc.collect()  # 强制触发垃圾回收

7.2 内存池机制

Python 对小对象（< 512 字节）使用内存池（pymalloc），避免频繁的系统调用：

Python

复制

import tracemalloc

tracemalloc.start()# 分配大量小对象data = [i for i in range(100000)]snapshot = tracemalloc.take_snapshot()top_stats = snapshot.statistics('lineno')print("[内存分配 Top 5]")for stat in top_stats[:5]:
    print(f"{stat.size / 1024:.1f} KiB: {stat.traceback.format()[-1]}")

八、总结：Python 代码是什么？

表格

层级	Python 代码的表现形式	本质
最上层	`.py` 源文件	人类可读的文本，遵循 Python 语法
编译层	AST + Code Object	语法树和字节码，平台无关的中间表示
执行层	`.pyc` 字节码文件	缓存的字节码，加速模块加载
虚拟机	PVM 指令执行	基于栈的虚拟机，操作 PyObject
最底层	C 函数 + 机器码	CPython 解释器将字节码翻译为机器指令

Python 代码的核心特征：

它是解释执行的——没有独立的编译步骤，源码直接运行
但它又是有编译的——自动编译为字节码，只是对用户透明
它是动态类型的——变量类型在运行时确定，存储在对象头部
它是单线程执行的——GIL 保证了解释器状态的一致性
它是面向对象的——一切皆对象，所有操作都是对象间消息传递

理解 Python 代码的本质，不仅能帮助你写出更高效的代码，还能让你在遇到性能瓶颈、内存泄漏、并发问题时，知道该从哪个层面入手解决。Python 的简洁是设计上的优雅，而非实现上的简单——这正是它成为世界上最流行编程语言之一的原因。

返回列表

上一篇：淘宝指定店铺商品销量与价格数据监控实战指南

下一篇：Python 获取 1688 关键词搜索商品与价格接口实战指南

一文通，第三方接口如何实现批量上货，主流平台[淘宝|京东|1688|抖音）和跨境平台

一、国内主流平台批量上货接口1. 淘宝 / 天猫（TOP 开放平台）淘宝官方提供了完整的商品生命周期管理 API，支持从发布到上架的全流程自动化。表格核心接口功能说明taobao.item.add发布...

万邦api博客

Python 代码是什么？—— 从字节到执行的完整解析

一、Python 代码的本质：文本还是字节码？

1.1 你写的 Python 代码是什么？

1.2 Python 代码的两种形态

二、Python 代码的执行全流程

2.1 第一步：词法分析（Lexical Analysis）

2.2 第二步：语法分析（Syntax Analysis / Parsing）

2.3 第三步：编译为字节码（Compilation）

2.4 第四步：虚拟机执行（PVM - Python Virtual Machine）

三、CPython 的编译缓存机制：`.pyc` 文件揭秘

3.1 为什么存在 `.pyc` 文件？

3.2 `.pyc` 文件生成流程

3.3 查看和验证 `.pyc` 文件

3.4 `.pyc` 文件格式（PEP 552）

四、Python 代码的底层数据结构

4.1 Code Object：字节码的载体

4.2 Frame Object：运行时执行环境

五、Python 的 GIL：代码执行的"全局锁"

5.1 什么是 GIL？

5.2 为什么需要 GIL？

5.3 绕过 GIL 的方案

六、Python 代码的执行模型：一切皆对象

6.1 对象模型

6.2 函数调用的本质

七、Python 代码的内存管理

7.1 引用计数 + 垃圾回收

7.2 内存池机制

八、总结：Python 代码是什么？

相关文章

一文通，第三方接口如何实现批量上货，主流平台[淘宝|京东|1688|抖音）和跨境平台

发表评论

Copyright Your WebSite.Some Rights Reserved.

Powered By Z-BlogPHP. Theme by TOYEAN.

万邦api博客

Python 代码是什么？—— 从字节到执行的完整解析

一、Python 代码的本质：文本还是字节码？

1.1 你写的 Python 代码是什么？

1.2 Python 代码的两种形态

二、Python 代码的执行全流程

2.1 第一步：词法分析（Lexical Analysis）

2.2 第二步：语法分析（Syntax Analysis / Parsing）

2.3 第三步：编译为字节码（Compilation）

2.4 第四步：虚拟机执行（PVM - Python Virtual Machine）

三、CPython 的编译缓存机制：.pyc 文件揭秘

3.1 为什么存在 .pyc 文件？

3.2 .pyc 文件生成流程

3.3 查看和验证 .pyc 文件

3.4 .pyc 文件格式（PEP 552）

四、Python 代码的底层数据结构

4.1 Code Object：字节码的载体

4.2 Frame Object：运行时执行环境

五、Python 的 GIL：代码执行的"全局锁"

5.1 什么是 GIL？

5.2 为什么需要 GIL？

5.3 绕过 GIL 的方案

六、Python 代码的执行模型：一切皆对象

6.1 对象模型

6.2 函数调用的本质

七、Python 代码的内存管理

7.1 引用计数 + 垃圾回收

7.2 内存池机制

八、总结：Python 代码是什么？

相关文章

一文通，第三方接口如何实现批量上货，主流平台[淘宝|京东|1688|抖音）和跨境平台

发表评论 取消回复

Copyright Your WebSite.Some Rights Reserved.

Powered By Z-BlogPHP. Theme by TOYEAN.

三、CPython 的编译缓存机制：`.pyc` 文件揭秘

3.1 为什么存在 `.pyc` 文件？

3.2 `.pyc` 文件生成流程

3.3 查看和验证 `.pyc` 文件

3.4 `.pyc` 文件格式（PEP 552）

发表评论