21.1. 音频操作 — 处理原始音频数据

audioop 模块包含一些对声音片段有用的操作。它对由 8、16 或 32 位宽的有符号整数样本组成的声音片段进行操作，这些样本存储在 Python 字符串中。这与 al 和 sunaudiodev 模块使用的格式相同。除非另有说明，否则所有标量项都是整数。

该模块支持 a-LAW、u-LAW 和 Intel/DVI ADPCM 编码。

一些更复杂的操作只需要 16 位样本，否则样本大小（以字节为单位）始终是操作的参数。

该模块定义了以下变量和函数：

exception audioop.error: 所有错误都会引发此异常，例如每个样本的字节数未知等。

audioop.add(fragment1, fragment2, width): 返回一个片段，它是作为参数传递的两个样本的相加。 width 是以字节为单位的样本宽度，1、2 或 4。两个片段应该具有相同的长度。在溢出的情况下截断样本。

audioop.adpcm2lin(adpcmfragment, width, state): 将 Intel/DVI ADPCM 编码片段解码为线性片段。有关 ADPCM 编码的详细信息，请参阅 lin2adpcm() 的说明。返回一个元组 (sample, newstate)，其中样本具有 width 中指定的宽度。

audioop.alaw2lin(fragment, width): 将 a-LAW 编码的声音片段转换为线性编码的声音片段。 a-LAW 编码总是使用 8 位样本，所以这里的 width 仅指输出片段的样本宽度。

2.5 版中的新功能。

audioop.avg(fragment, width): 返回片段中所有样本的平均值。

audioop.avgpp(fragment, width): 返回片段中所有样本的平均峰峰值。没有进行过滤，所以这个例程的用处值得怀疑。

audioop.bias(fragment, width, bias): 返回一个片段，该片段是原始片段，每个样本都添加了偏差。样品环绕以防溢出。

audioop.cross(fragment, width): 返回作为参数传递的片段中的零交叉数。

audioop.findfactor(fragment, reference)

返回一个因子 F 使得 rms(add(fragment, mul(reference, -F))) 最小，即返回你应该乘以 reference 以使其与 尽可能匹配的因子片段。这些片段都应该包含 2 字节的样本。

此例程所用的时间与 len(fragment) 成正比。

audioop.findfit(fragment, reference): 尝试将 reference 尽可能匹配到 fragment（应该是较长的片段）的一部分。这是（概念上）通过从 fragment 中取出切片，使用 findfactor() 计算最佳匹配并最小化结果来完成的。这些片段都应该包含 2 字节的样本。返回一个元组 (offset, factor)，其中 offset 是 fragment 的（整数）偏移量，其中最佳匹配开始，factor 是（浮点数） ) 因子根据 findfactor()。

audioop.findmax(fragment, length)

在 fragment 中搜索具有最大能量的长度为 length 样本（不是字节！）的切片，即返回 i 其中 rms(fragment[i*2:(i+length)*2]) 是最大的. 这些片段都应该包含 2 字节的样本。

该例程花费的时间与 len(fragment) 成正比。

audioop.getsample(fragment, width, index): 从片段返回样本 index 的值。

audioop.lin2adpcm(fragment, width, state)

将样本转换为 4 位 Intel/DVI ADPCM 编码。 ADPCM 编码是一种自适应编码方案，其中每 4 位数字是一个样本和下一个样本之间的差异，除以（变化的）步长。 IMA 选择了 Intel/DVI ADPCM 算法，因此它很可能成为标准。

state 是一个包含编码器状态的元组。编码器返回一个元组 (adpcmfrag, newstate)，并且 newstate 应该传递给 lin2adpcm() 的下一次调用。在初始调用中，None 可以作为状态传递。 adpcmfrag 是每字节 2 个 4 位值的 ADPCM 编码片段。

audioop.lin2alaw(fragment, width): 将音频片段中的样本转换为 a-LAW 编码并将其作为 Python 字符串返回。 a-LAW 是一种音频编码格式，仅使用 8 位样本即可获得大约 13 位的动态范围。它由 Sun 音频硬件等使用。

2.5 版中的新功能。

audioop.lin2lin(fragment, width, newwidth)

在 1、2 和 4 字节格式之间转换样本。

笔记

在某些音频格式中，例如 .WAV 文件，16 位和 32 位样本是有符号的，但 8 位样本是无符号的。因此，当为这些格式转换为 8 位宽的样本时，您还需要将 128 添加到结果中：

new_frames = audioop.lin2lin(frames, old_width, 1)
new_frames = audioop.bias(new_frames, 1, 128)

当从 8 位宽度样本转换为 16 位或 32 位宽度样本时，必须反过来应用相同的方法。

audioop.lin2ulaw(fragment, width): 将音频片段中的样本转换为 u-LAW 编码并将其作为 Python 字符串返回。 u-LAW 是一种音频编码格式，仅使用 8 位样本即可获得大约 14 位的动态范围。它由 Sun 音频硬件等使用。

audioop.max(fragment, width): 返回片段中所有样本的 绝对值 的最大值。

audioop.maxpp(fragment, width): 返回声音片段中的最大峰峰值。

audioop.minmax(fragment, width): 返回由声音片段中所有样本的最小值和最大值组成的元组。

audioop.mul(fragment, width, factor): 返回一个片段，其中原始片段中的所有样本都乘以浮点值因子。在溢出的情况下截断样本。

audioop.ratecv(fragment, width, nchannels, inrate, outrate, state[, weightA[, weightB]])

转换输入片段的帧率。

state 是一个包含转换器状态的元组。转换器返回一个元组 (newfragment, newstate)，并且 newstate 应该传递给 ratecv() 的下一次调用。初始调用应通过 None 作为状态。

weightA 和 weightB 参数是简单数字滤波器的参数，分别默认为 1 和 0。

audioop.reverse(fragment, width): 反转片段中的样本并返回修改后的片段。

audioop.rms(fragment, width)

返回片段的均方根，即 sqrt(sum(S_i^2)/n)。

这是音频信号中功率的量度。

audioop.tomono(fragment, width, lfactor, rfactor): 将立体声片段转换为单声道片段。左声道乘以lfactor，右声道乘以rfactor，然后将两个声道相加得到单声道信号。

audioop.tostereo(fragment, width, lfactor, rfactor): 从单声道片段生成立体声片段。立体声片段中的每对样本都是从单声道样本中计算出来的，其中左声道样本乘以 lfactor，右声道样本乘以 rfactor。

audioop.ulaw2lin(fragment, width): 将 u-LAW 编码的声音片段转换为线性编码的声音片段。 u-LAW 编码总是使用 8 位样本，所以这里的 width 仅指输出片段的样本宽度。

请注意，诸如 mul() 或 max() 之类的操作不区分单声道和立体声片段，即所有样品都被平等对待。如果这是一个问题，立体声片段应首先拆分为两个单声道片段，然后再重新组合。以下是如何执行此操作的示例：

def mul_stereo(sample, width, lfactor, rfactor):
    lsample = audioop.tomono(sample, width, 1, 0)
    rsample = audioop.tomono(sample, width, 0, 1)
    lsample = audioop.mul(lsample, width, lfactor)
    rsample = audioop.mul(rsample, width, rfactor)
    lsample = audioop.tostereo(lsample, width, 1, 0)
    rsample = audioop.tostereo(rsample, width, 0, 1)
    return audioop.add(lsample, rsample, width)

如果您使用 ADPCM 编码器构建网络数据包，并且您希望您的协议是无状态的（即为了能够容忍丢包），您不仅应该传输数据，还应该传输状态。请注意，您应该将 initial 状态（您传递给 lin2adpcm() 的状态）发送到解码器，而不是最终状态（由编码器返回）。如果您想使用 struct.Struct 以二进制形式存储状态，您可以将第一个元素（预测值）编码为 16 位，将第二个（增量索引）编码为 8。

ADPCM 编码器从未与其他 ADPCM 编码器进行过对比，只是与它们自己进行过对比。很可能是我误解了标准，在这种情况下，它们将无法与相应的标准互操作。

find*() 程序乍一看可能有点滑稽。它们主要用于消除回声。一个相当快的方法是选择输出样本中最有活力的部分，在输入样本中找到它，然后从输入样本中减去整个输出样本：

def echocancel(outputdata, inputdata):
    pos = audioop.findmax(outputdata, 800)    # one tenth second
    out_test = outputdata[pos*2:]
    in_test = inputdata[pos*2:]
    ipos, factor = audioop.findfit(in_test, out_test)
    # Optional (for better cancellation):
    # factor = audioop.findfactor(in_test[ipos*2:ipos*2+len(out_test)],
    #              out_test)
    prefill = '\0'*(pos+ipos)*2
    postfill = '\0'*(len(inputdata)-len(prefill)-len(outputdata))
    outputdata = prefill + audioop.mul(outputdata, 2, -factor) + postfill
    return audioop.add(inputdata, outputdata, 2)

21.1. audioop — 处理原始音频数据 — Python 文档

21.1. 音频操作 — 处理原始音频数据