struct — 패킹 된 바이너리 데이터로 바이트열을 해석¶
소스 코드: Lib/struct.py
이 모듈은 Python 값과 Python bytes\로 표현되는 C 구조체 사이의 변환을 수행합니다. 간결한 format strings\는 Python 값과의 의도된 변환을 설명합니다. 이 모듈의 함수와 객체는 두 가지 크게 다른 응용 분야에 사용될 수 있습니다: 외부 소스(파일 또는 네트워크 연결)와의 데이터 교환, 또는 Python 애플리케이션과 C 계층 간의 데이터 전송입니다.
참고
접두사 문자가 지정되지 않은 경우, native 모드가 기본값입니다. 이는 Python 인터프리터가 빌드된 플랫폼 및 컴파일러를 기반으로 데이터를 패킹하거나 언패킹합니다. 주어진 C 구조체를 패킹한 결과에는 관련 C형에 대한 적절한 정렬을 유지하는 패드 바이트가 포함됩니다. 마찬가지로, 언패킹할 때도 정렬이 고려됩니다. 대조적으로, 외부 소스 간에 데이터를 통신할 때는 프로그래머가 요소 간의 바이트 순서 및 패딩을 정의할 책임이 있습니다. 자세한 내용은 바이트 순서, 크기 및 정렬\를 참조하십시오.
여러 struct\ 함수(그리고 Struct\의 메서드)는 buffer\ 인자를 취합니다. 이는 버퍼 프로토콜\를 구현하고 읽기 가능하거나 읽고 쓸 수 있는 버퍼를 제공하는 객체를 나타냅니다. 이 목적으로 사용되는 가장 일반적인 형은 bytes\와 bytearray\이지만, 바이트 배열로 간주될 수 있는 많은 다른 형이 버퍼 프로토콜을 구현하므로, bytes\ 객체에서 추가 복사 없이 읽고 채울 수 있습니다.
함수와 예외¶
이 모듈은 다음과 같은 예외와 함수를 정의합니다:
- exception struct.error¶
여러 상황에서 발생하는 예외; 인자는 무엇이 잘못되었는지 설명하는 문자열입니다.
- struct.pack(format, v1, v2, ...)¶
v1, v2, … 값을 포함하고 포맷 문자열 format에 따라 패킹 된 바이트열 객체를 반환합니다. 인자는 포맷이 요구하는 값과 정확히 일치해야 합니다.
- struct.pack_into(format, buffer, offset, v1, v2, ...)¶
포맷 문자열 format에 따라 값 v1, v2, … 를 패킹하고 패킹 된 바이트열을 쓰기 가능한 버퍼 buffer에 offset 위치에서부터 씁니다. offset은 필수 인자임에 유의하십시오.
- struct.unpack(format, buffer)¶
포맷 문자열 format에 따라 버퍼 buffer(아마도
pack(format, ...)으로 패킹 된)에서 언 패킹 합니다. 정확히 하나의 항목을 포함하더라도 결과는 튜플입니다. 바이트 단위의 버퍼 크기는 (calcsize()에 의해 반영되는) 포맷이 요구하는 크기와 일치해야 합니다.
- struct.unpack_from(format, /, buffer, offset=0)¶
포맷 문자열 format에 따라, offset 위치에서 시작하여 buffer에서 언 패킹 합니다. 정확히 하나의 항목을 포함하더라도 결과는 튜플입니다. offset 위치에서 시작하여 바이트 단위로 측정한 버퍼 크기는 (
calcsize()에 의해 반영되는) 포맷이 요구하는 크기 이상이어야 합니다.
- struct.iter_unpack(format, buffer)¶
포맷 문자열 format에 따라 버퍼 buffer에서 이터레이션을 통해 언 패킹 합니다. 이 함수는 모든 내용이 소비될 때까지 버퍼에서 같은 크기의 청크를 읽는 이터레이터를 반환합니다. 바이트 단위의 버퍼 크기는 (
calcsize()에 의해 반영되는) 포맷이 요구하는 크기의 배수여야 합니다.각 이터레이션은 포맷 문자열에 지정된 대로 튜플을 산출합니다.
Added in version 3.4.
- struct.calcsize(format)¶
포맷 문자열 format에 해당하는 구조체(
pack(format, ...)에 의해 생성되는 바이트열 객체)의 크기를 반환합니다.
포맷 문자열¶
포맷 문자열은 데이터를 패킹하고 언패킹할 때 데이터 배치를 설명합니다. 이들은 패킹/언패킹되는 데이터형을 지정하는 type codes\로부터 구축됩니다. 또한, 특수 문자는 byte order, size and alignment\을 제어합니다. 각 포맷 문자열은 데이터의 전반적인 속성을 설명하는 선택적 접두사 문자와 실제 데이터 값 및 패딩을 설명하는 하나 이상의 포맷 문자로 구성됩니다.
바이트 순서, 크기 및 정렬¶
기본적으로, C형은 기계의 네이티브 형식과 바이트 순서로 표현되며, 필요하면 (C 컴파일러에서 사용하는 규칙에 따라) 패드 바이트로 건너뛰어 적절하게 정렬됩니다. 이 동작은 패킹된 구조체의 바이트가 해당 C 구조체의 메모리 배치와 정확히 일치하도록 선택되었습니다. 네이티브 바이트 순서와 패딩을 사용할지 아니면 표준 포맷을 사용할지는 응용 프로그램에 달려 있습니다.
또는, 다음 표에 따라, 포맷 문자열의 첫 번째 문자를 사용하여 패킹 된 데이터의 바이트 순서, 크기 및 정렬을 표시할 수 있습니다:
문자 |
바이트 순서 |
크기 |
정렬 |
|---|---|---|---|
|
네이티브 |
네이티브 |
네이티브 |
|
네이티브 |
표준 |
none |
|
리틀 엔디안 |
표준 |
none |
|
빅 엔디안 |
표준 |
none |
|
네트워크 (= 빅 엔디안) |
표준 |
none |
첫 번째 문자가 이들 중 하나가 아니면, '@'로 가정합니다.
참고
숫자 1023 (16진수에서는 0x3ff)은 다음의 바이트 표현을 갖습니다:
빅 엔디안(
>)에서03 ff리틀 엔디안(
<``에서 ``ff 03
파이썬 예제:
>>> import struct
>>> struct.pack('>h', 1023)
b'\x03\xff'
>>> struct.pack('<h', 1023)
b'\xff\x03'
네이티브 바이트 순서는 호스트 시스템에 따라 빅 엔디안이나 리틀 엔디안입니다. 예를 들어, 인텔 x86, AMD64 (x86-64) 및 애플 M1은 리틀 엔디안입니다; IBM z 와 많은 레거시 아키텍처는 빅 엔디안입니다. 시스템의 엔디안을 확인하려면 sys.byteorder를 사용하십시오.
네이티브 크기와 정렬은 C 컴파일러의 sizeof 표현식을 사용하여 결정됩니다. 이것은 항상 네이티브 바이트 순서와 결합합니다.
표준 크기는 타입 코드에만 의존합니다; 타입 코드\ 섹션의 표를 참조하십시오.
'@'과 '='의 차이점에 유의하십시오; 둘 다 네이티브 바이트 순서를 사용하지만, 후자는 크기와 정렬이 표준화됩니다.
'!' 형식은 IETF RFC 1700에 정의된 대로 항상 빅 엔디안인 네트워크 바이트 순서를 나타냅니다.
네이티브가 아닌 바이트 순서(강제 바이트 스와핑)를 표시하는 방법은 없습니다; '<'나 '>'를 적절히 선택하십시오.
노트:
패딩은 연속되는 구조체 멤버 간에만 자동으로 추가됩니다. 인코딩된 구조체의 시작이나 끝에는 패딩이 추가되지 않습니다.
네이티브가 아닌 크기와 정렬을 사용할 때는 패딩이 추가되지 않습니다, 예를 들어 ‘<’, ‘>’, ‘=’ 및 ‘!’ 에서.
구조체의 끝을 특정 형의 정렬 요구 사항에 맞추려면, 반복 횟수가 0인 해당 형의 코드로 포맷을 끝내십시오. 예를 참조하십시오.
타입 코드¶
타입 코드는 (또는 포맷 코드는) 다음과 같은 의미를 가집니다. C와 파이썬 값 사이의 변환은 해당 타입을 알면 명확해야 합니다. ‘표준 크기’ 열은 표준 크기를 사용할 때 패킹된 값의 크기를 바이트 단위로 나타냅니다. 즉, 포맷 문자열이 '<', '>', '!' 또는 '=' 중 하나로 시작할 때를 말합니다. 네이티브 크기를 사용할 경우, 패킹된 값의 크기는 플랫폼에 따라 다릅니다.
포맷 |
C형 |
파이썬 형 |
표준 크기 |
노트 |
|---|---|---|---|---|
|
패드 바이트 |
값이 없습니다 |
(7) |
|
|
char |
길이가 1인 bytes |
1 |
|
|
signed char |
int |
1 |
(2) |
|
unsigned char |
int |
1 |
(2) |
|
_Bool |
bool |
1 |
(1) |
|
short |
int |
2 |
(2) |
|
unsigned short |
int |
2 |
(2) |
|
int |
int |
4 |
(2) |
|
unsigned int |
int |
4 |
(2) |
|
long |
int |
4 |
(2) |
|
unsigned long |
int |
4 |
(2) |
|
long long |
int |
8 |
(2) |
|
unsigned long long |
int |
8 |
(2) |
|
|
int |
(2), (3) |
|
|
|
int |
(2), (3) |
|
|
_Float16 |
float |
2 |
(4), (6) |
|
float |
float |
4 |
(4) |
|
double |
float |
8 |
(4) |
|
float complex |
복소수 |
8 |
(10) |
|
double complex |
복소수 |
16 |
(10) |
|
float complex |
복소수 |
8 |
(10) |
|
double complex |
복소수 |
16 |
(10) |
|
char[] |
bytes |
(9) |
|
|
char[] |
bytes |
(8) |
|
|
void* |
int |
(2), (5) |
버전 3.3에서 변경: 'n'과 'N' 포맷에 대한 지원이 추가되었습니다.
버전 3.6에서 변경: 'e' 포맷에 대한 지원이 추가되었습니다.
버전 3.14에서 변경: 'F' 및 'D' 포맷에 대한 지원이 추가되었습니다.
버전 3.15에서 변경: 'Zf' 및 'Zd' 포맷에 대한 지원이 추가되었습니다.
더 보기
array 및 ctypes 모듈과, 또한 `numpy <https://numpy.org/doc/stable/reference/arrays.interface.html#object.__array_interface__>`와 같은 외부 모듈들도 유사하지만 약간 다른 타입 코드를 사용합니다.
노트:
'?'변환 코드는 C99 이후의 C 표준이 정의한 _Bool 형에 해당합니다. 표준 모드에서는, 1바이트로 표현됩니다.정수 변환 코드 중 하나를 사용하여 정수가 아닌 값을 패킹하려고 할 때, 정수가 아닌 값에
__index__()메서드가 있으면 패킹 전에 해당 메서드가 호출되어 인자를 정수로 변환합니다.버전 3.2에서 변경: 정수가 아닌 값에서
__index__()메서드를 사용하는 것을 추가했습니다.'n'과'N'변환 코드는 (기본값이나'@'바이트 순서 문자로 선택된) 네이티브 크기에만 사용할 수 있습니다. 표준 크기의 경우, 응용 프로그램에 맞는 다른 정수 포맷을 사용할 수 있습니다.'f','d'및'e'변환 코드의 경우, 패킹 된 표현은 플랫폼에서 사용하는 부동 소수점 형식과 관계없이 IEEE 754 binary32, binary64 또는 binary16 형식을 사용합니다 (각각'f','d'또는'e').'P'타입 코드는 네이티브 바이트 순서(기본값으로 선택되거나'@'바이트 순서 문자로 지정됨)에서만 사용할 수 있습니다. 바이트 순서 문자'='``는 호스트 시스템을 기반으로 리틀 엔디안 또는 빅 엔디안 순서를 사용하도록 선택합니다. struct 모듈은 이를 네이티브 순서로 해석하지 않기 때문에, ``'P'형식은 사용할 수 없습니다.IEEE 754 binary16 “반 정밀도” 타입은 2008년 IEEE 754 표준 개정판에서 도입되었습니다. 이 타입은 부호 비트, 5비트 지수 및 11비트 정밀도(10비트가 명시적으로 저장됨)를 가지며, 전체 정밀도에서 대략
6.1e-05\와6.5e+04사이의 숫자를 표현할 수 있습니다. 이 타입은 C 컴파일러에서 광범위하게 지원되지 않습니다: 컴파일러가 C23 표준의 Annex H를 지원한다면 _Float16 타입으로 사용할 수 있습니다. 일반적인 머신에서는 unsigned short를 저장에 사용할 수 있지만, 수학 연산에는 사용할 수 없습니다. 자세한 내용은 half-precision floating-point format\의 Wikipedia 페이지를 참조하십시오.패킹할 때,
'x'은 하나의 NUL 바이트를 삽입합니다.'p'타입 코드는 “파스칼 문자열”을 인코딩하며, 이는 카운트가 지정하는 고정된 바이트 수 에 저장되는 짧은 가변 길이 문자열을 의미합니다. 저장되는 첫 번째 바이트는 문자열의 길이 또는 255 중 더 작은 값입니다. 문자열의 바이트가 그 뒤에 이어집니다.pack()에 전달된 바이트 문자열이 너무 길 경우 (카운트 빼기 1보다 긴 경우), 문자열의 선두count-1바이트만 저장됩니다. 바이트 문자열이count-1보다 짧은 경우, 정확히 count 바이트가 될 때까지 널 바이트로 채워집니다. 참고로,unpack()의 경우,'p'타입 코드가count바이트를 소비하지만, 반환되는bytes객체는 255바이트를 초과할 수 없습니다. 패킹할 때는bytes및bytearray타입의 인수가 허용됩니다.'s'타입 코드의 경우, 카운트는 다른 타입 코드와 같은 반복 횟수가 아니라 바이트 문자열의 길이로 해석됩니다. 예를 들어,'10s'는 단일 10바이트 문자열이거나, 단일 파이썬 바이트 문자열로부터 매핑되는 것이고,'10c'는 10개의 개별 바이트 문자 요소(예:cccccccccccc)가거나 10개의 서로 다른 파이썬 바이트 객체로부터 매핑되는 것을 의미합니다. (차이점에 대한 구체적인 시연은 예 를 참조하세요.) 카운트를 지정하지 않으면 기본값은 1입니다. 패킹의 경우, 바이트 문자열이 적절하게 잘리거나 널 바이트로 채워져서 맞게 됩니다. 언패킹의 경우, 결과bytes객체는 항상 정확히 지정된 바이트 수를 가집니다. 특별한 경우로,'0s'는 단일, 빈 바이트 문자열을 의미하며 (반면에'0c'는 0문자를 의미합니다). 패킹할 때는bytes및bytearray타입의 인수가 허용됩니다.'F'및'D'타입 코드의 경우, 패킹된 표현은 플랫폼에서 사용되는 부동 소수점 형식과 관계없이 복소수의 구성 요소에 대해 IEEE 754 binary32 및 binary64 형식을 사용합니다. 복소수 타입(F/Zf및D/Zd)은 C에서 선택적 기능임에도 불구하고 무조건 사용할 수 있다는 점에 주목하십시오. C11 표준에서 명시했듯이, 각 복소수 타입은 각각 실수부와 허수부를 포함하는 두 개의 요소로 구성된 C 배열로 표현됩니다.
타입 코드는 정수 반복 횟수가 앞에 올 수 있습니다. 예를 들어, 형식 문자열 '4h' 는 'hhhh' 와 정확히 같습니다.
포맷 사이의 공백 문자는 무시됩니다; 횟수와 형식 사이에는 공백이 없어야 합니다.
정수 형식 ('b', 'B', 'h', 'H', 'i', 'I', 'l', 'L', 'q', 'Q') 중 하나를 사용하여 값 x를 패킹할 때, x가 해당 포맷의 유효한 범위를 벗어나면 struct.error가 발생합니다.
버전 3.1에서 변경: 이전에는, 일부 정수 포맷은 범위를 벗어난 값을 래핑하고 struct.error 대신 DeprecationWarning을 발생시켰습니다.
For the '?' type code, the return value is either True or
False. When packing, the truth value of the argument object is used.
Either 0 or 1 in the native or standard bool representation will be packed, and
any non-zero value will be True when unpacking.
예¶
참고
네이티브 바이트 순서 예제 ('@' 형식 접두사 또는 어떤 접두사 문자도 없는 경우)는 독자 기계에서 생성하는 값과 일치하지 않을 수 있습니다. 이는 플랫폼 및 컴파일러에 따라 달라지기 때문입니다.
세 가지 다른 크기의 정수 패킹 및 언패킹 예제:
>>> from struct import *
>>> pack(">bhl", 1, 2, 3)
b'\x01\x00\x02\x00\x00\x00\x03'
>>> unpack('>bhl', b'\x01\x00\x02\x00\x00\x00\x03')
(1, 2, 3)
>>> calcsize('>bhl')
7
지정된 필드보다 너무 큰 정수를 패킹하려고 시도하는 경우:
>>> pack(">h", 99999)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
struct.error: 'h' format requires -32768 <= number <= 32767
's'``와 ``'c' 형식 문자의 차이점 시연:
>>> pack("@ccc", b'1', b'2', b'3')
b'123'
>>> pack("@3s", b'123')
b'123'
언 패킹 된 필드는 변수에 대입하거나 결과를 네임드 튜플로 감싸서 이름을 붙일 수 있습니다:
>>> record = b'raymond \x32\x12\x08\x01\x08'
>>> name, serialnum, school, gradelevel = unpack('<10sHHb', record)
>>> from collections import namedtuple
>>> Student = namedtuple('Student', 'name serialnum school gradelevel')
>>> Student._make(unpack('<10sHHb', record))
Student(name=b'raymond ', serialnum=4658, school=264, gradelevel=8)
타입 코드의 순서는 패딩이 암시적이기 때문에 네이티브 모드에서 크기에 영향을 줄 수 있습니다. 표준 모드에서는 사용자가 원하는 패딩을 삽입할 책임이 있습니다. 아래 첫 번째 pack 호출에서 세 개의 NUL 바이트가 뒤에 추가되어 다음 정수를 4바이트 경계에 맞추었음에 유의하십시오. 이 예제에서 출력은 리틀 엔디안 기계에서 생성되었습니다.
>>> pack('@ci', b'#', 0x12131415)
b'#\x00\x00\x00\x15\x14\x13\x12'
>>> pack('@ic', 0x12131415, b'#')
b'\x15\x14\x13\x12#'
>>> calcsize('@ci')
8
>>> calcsize('@ic')
5
다음 포맷 'llh0l'는 플랫폼의 long이 4바이트 경계에 정렬된다고 가정할 때 끝에 2개의 패드 바이트를 추가합니다:
>>> pack('@llh0l', 1, 2, 3)
b'\x00\x00\x00\x01\x00\x00\x00\x02\x00\x03\x00\x00'
응용¶
struct 모듈에는 두 가지 주요 응용 프로그램이 존재합니다. 애플리케이션 내부 또는 동일한 컴파일러로 컴파일된 다른 애플리케이션 간의 Python 및 C 코드 데이터 교환( native formats), 그리고 합의된 데이터 레이아웃을 사용하는 애플리케이션 간의 데이터 교환( standard formats)입니다. 일반적으로 이 두 영역을 위해 구성된 형식 문자열은 다릅니다.
네이티브 포맷¶
네이티브 레이아웃을 모방하는 형식 문자열을 구성할 때, 컴파일러와 머신 아키텍처가 바이트 순서 및 패딩을 결정합니다. 이런 경우, @ 형식 문자를 사용하여 네이티브 바이트 순서와 데이터 크기를 지정해야 합니다. 내부 패드 바이트는 일반적으로 자동으로 삽입됩니다. 적절한 정렬을 위해 연속된 데이터 청크를 올림하려면 형식 문자열의 끝에 0회 반복 타입 코드가 필요할 수 있습니다.
이 두 가지 간단한 예제를 고려하십시오 (64비트, 리틀 엔디안 머신에서):
>>> calcsize('@lhl')
24
>>> calcsize('@llh')
18
두 번째 형식 문자열의 끝에서 추가 패딩을 사용하지 않으면 데이터가 8바이트 경계에 패딩되지 않습니다. 0회 반복 형식 코드가 이 문제를 해결합니다:
>>> calcsize('@llh0l')
24
'x' 타입 코드는 반복을 지정하는 데 사용될 수 있지만, 네이티브 형식의 경우 '0l' 과 같은 0회 반복 형식을 사용하는 것이 더 좋습니다.
기본적으로 네이티브 바이트 순서와 정렬이 사용되지만, 명시적으로 사용하고 '@' 접두사 문자를 사용하는 것이 좋습니다.
표준 포맷¶
네트워킹이나 스토리지와 같이 프로세스를 넘어 데이터를 교환할 때는 정확해야 합니다. 정확한 바이트 순서, 크기 및 정렬을 지정하십시오. 특정 기계의 네이티브 순서와 일치한다고 가정하지 마십시오. 예를 들어, 네트워크 바이트 순서는 빅 엔디안인 반면, 많은 인기 있는 CPU는 리틀 엔디안입니다. 이를 명시적으로 정의함으로써 사용자는 코드가 실행되는 플랫폼의 세부 사항에 신경 쓸 필요가 없습니다. 첫 번째 문자는 일반적으로 < 또는 > (또는 !)여야 합니다(또는 < 또는 >`). 패딩은 프로그래머의 책임입니다. 0회 반복 형식 문자는 작동하지 않습니다. 대신, 사용자는 필요한 곳에 명시적으로 'x' 패드 바이트를 추가해야 합니다. 이전 섹션의 예제를 다시 검토하면 다음과 같습니다:
>>> calcsize('<qh6xq')
24
>>> pack('<qh6xq', 1, 2, 3) == pack('@lhl', 1, 2, 3)
True
>>> calcsize('@llh')
18
>>> pack('@llh', 1, 2, 3) == pack('<qqh', 1, 2, 3)
True
>>> calcsize('<qqh6x')
24
>>> calcsize('@llh0l')
24
>>> pack('@llh0l', 1, 2, 3) == pack('<qqh6x', 1, 2, 3)
True
위 결과 (64비트 머신에서 실행됨)는 다른 머신에서 실행될 때 일치한다고 보장할 수 없습니다. 예를 들어, 아래 예제는 32비트 머신에서 실행되었습니다:
>>> calcsize('<qqh6x')
24
>>> calcsize('@llh0l')
12
>>> pack('@llh0l', 1, 2, 3) == pack('<qqh6x', 1, 2, 3)
False
클래스¶
struct 모듈은 다음 타입도 정의합니다:
- class struct.Struct(format)¶
포맷 문자열 format에 따라 바이너리 데이터를 쓰고 읽는 새 Struct 객체를 반환합니다.
Struct객체를 한 번 만들고 메서드를 호출하는 것은 포맷 문자열이 한 번만 컴파일 되기 때문에 같은 포맷으로 모듈 수준 함수를 호출하는 것보다 효율적입니다.참고
모듈 수준 함수에 전달된 최신 포맷 문자열의 컴파일된 버전이 캐시 되므로, 몇 가지 포맷 문자열만 사용하는 프로그램은 단일
Struct인스턴스 재사용에 대해 신경 쓸 필요가 없습니다.컴파일된 Struct 객체는 다음 메서드와 어트리뷰트를 지원합니다:
- pack_into(buffer, offset, v1, v2, ...)¶
pack_into()함수와 동일하고, 컴파일된 포맷을 사용합니다.
- unpack_from(buffer, offset=0)¶
unpack_from()함수와 동일하고, 컴파일된 포맷을 사용합니다. offset 위치에서 시작하는 바이트 단위의 버퍼 크기는size이상이어야 합니다.
- iter_unpack(buffer)¶
iter_unpack()함수와 동일하고, 컴파일된 포맷을 사용합니다. 바이트 단위의 버퍼 크기는size의 배수이어야 합니다.Added in version 3.4.
- format¶
이 Struct 객체를 구성하는 데 사용된 포맷 문자열.
버전 3.13에서 변경: Struct의 repr() 이 변경되었습니다. 이제 다음과 같습니다:
>>> Struct('i') Struct('i')