codecs — 코덱 레지스트리와 베이스 클래스¶
소스 코드: Lib/codecs.py
이 모듈은 표준 파이썬 코덱(인코더와 디코더)의 베이스 클래스를 정의하고, 코덱과 에러 처리 조회 프로세스를 관리하는 내부 파이썬 코덱 레지스트리에 대한 액세스를 제공합니다. 대부분의 표준 코덱은 텍스트를 바이트열로 인코딩하는 (그리고 바이트열을 텍스트로 디코딩하는) 텍스트 인코딩이지만, 텍스트를 텍스트로 인코딩하고 바이트열을 바이트열로 인코딩하는 코덱도 제공됩니다. 사용자 정의 코덱은 임의 형 간에 인코딩과 디코딩 할 수 있지만, 일부 모듈 기능은 텍스트 인코딩이나 bytes로 인코딩하는 코덱과 함께 사용하도록 특별히 제한됩니다.
이 모듈은 임의의 코덱으로 인코딩과 디코딩하는 다음 함수를 정의합니다:
- codecs.encode(obj, encoding='utf-8', errors='strict')¶
encoding을 위해 등록된 코덱을 사용하여 obj를 인코딩합니다.
원하는 에러 처리 방식을 설정하기 위해 errors가 주어질 수 있습니다. 기본 에러 처리기는
'strict'이며 인코딩 에러가ValueError(또는UnicodeEncodeError와 같은 더 많은 코덱 관련 서브 클래스)를 발생시킨다는 뜻입니다. 코덱 에러 처리에 대한 자세한 내용은 코덱 베이스 클래스를 참조하십시오.
- codecs.decode(obj, encoding='utf-8', errors='strict')¶
encoding을 위해 등록된 코덱을 사용하여 obj를 디코딩합니다.
원하는 에러 처리 방식을 설정하기 위해 errors가 주어질 수 있습니다. 기본 에러 처리기는
'strict'이며 디코딩 에러가ValueError(또는UnicodeDecodeError와 같은 더 많은 코덱 관련 서브 클래스)를 발생시킨다는 뜻입니다. 코덱 에러 처리에 대한 자세한 내용은 코덱 베이스 클래스를 참조하십시오.
- codecs.charmap_build(string)¶
사용자 정의 단일 바이트 인코딩으로 인코딩하기에 적합한 매핑을 반환합니다. 디코딩 테이블을 나타내는 최대 256자의
str문자열 이 주어지면, 간결한 내부 매핑 객체인EncodingMap또는 문자 코드를 바이트 값으로 매핑하는dictionary를 반환합니다. 잘못된 입력의 경우TypeError를 발생시킵니다.
각 코덱에 대한 자세한 내용도 직접 확인할 수 있습니다:
- codecs.lookup(encoding, /)¶
파이썬 코덱 레지스트리에서 코덱 정보를 조회하고 아래 정의된
CodecInfo객체를 반환합니다.이 함수는 먼저 encoding 을 정규화합니다. 모든 ASCII 문자는 소문자로 변환되고 공백은 하이픈으로 대체됩니다. 그런 다음 레지스트리 캐시에서 인코딩을 조회합니다. 찾지 못할 경우 등록된 검색 함수 리스트를 탐색합니다.
CodecInfo객체를 찾지 못하면LookupError를 발생시킵니다. 그 외의 경우,CodecInfo객체가 캐시에 저장되고 호출자에게 반환됩니다.버전 3.9에서 변경: ASCII 문자, 숫자, 마침표를 제외한 모든 문자가 밑줄로 변환됩니다.
버전 3.15에서 변경: 더 이상 어떤 문자도 밑줄로 변환되지 않습니다. 공백은 하이픈으로 변환됩니다.
- class codecs.CodecInfo(encode, decode, streamreader=None, streamwriter=None, incrementalencoder=None, incrementaldecoder=None, name=None)¶
코덱 레지스트리를 조회할 때의 코덱 세부 정보. 생성자 인자는 같은 이름의 어트리뷰트에 저장됩니다:
- name¶
인코딩의 이름.
- encode¶
- decode¶
상태 없는 인코딩과 디코딩 함수. 이들은 코덱 인스턴스의
encode()와decode()메서드와 같은 인터페이스를 갖는 함수나 메서드여야 합니다 (코덱 인터페이스를 참조하십시오). 함수나 메서드는 상태 없는 모드로 작동할 것으로 기대됩니다.
- incrementalencoder¶
- incrementaldecoder¶
증분형 인코더와 디코더 클래스 또는 팩토리 함수. 이들은 각각 베이스 클래스
IncrementalEncoder와IncrementalDecoder가 정의하는 인터페이스를 제공해야 합니다. 증분 코덱은 상태를 유지할 수 있습니다.
- streamwriter¶
- streamreader¶
스트림 기록기와 판독기 클래스 또는 팩토리 함수. 이들은 각각 베이스 클래스
StreamWriter와StreamReader가 정의하는 인터페이스를 제공해야 합니다. 스트림 코덱은 상태를 유지할 수 있습니다.
다양한 코덱 구성 요소에 대한 액세스를 단순화하기 위해, 이 모듈은 코덱 조회에 lookup()을 사용하는 다음과 같은 추가 함수를 제공합니다:
- codecs.getencoder(encoding)¶
주어진 인코딩에 대한 코덱을 찾아서 해당 인코더 함수를 반환합니다.
인코딩을 찾을 수 없는 경우
LookupError를 발생시킵니다.
- codecs.getdecoder(encoding)¶
주어진 인코딩에 대한 코덱을 찾아서 해당 디코더 함수를 반환합니다.
인코딩을 찾을 수 없는 경우
LookupError를 발생시킵니다.
- codecs.getincrementalencoder(encoding)¶
주어진 인코딩에 대한 코덱을 찾아서 증분 인코더 클래스나 팩토리 함수를 반환합니다.
인코딩을 찾을 수 없거나 코덱이 증분 인코더를 지원하지 않는 경우
LookupError를 발생시킵니다.
- codecs.getincrementaldecoder(encoding)¶
주어진 인코딩에 대한 코덱을 찾아서 증분 디코더 클래스나 팩토리 함수를 반환합니다.
인코딩을 찾을 수 없거나 코덱이 증분 디코더를 지원하지 않는 경우
LookupError를 발생시킵니다.
- codecs.getreader(encoding)¶
주어진 인코딩의 코덱을 찾아서
StreamReader클래스나 팩토리 함수를 반환합니다.인코딩을 찾을 수 없는 경우
LookupError를 발생시킵니다.
- codecs.getwriter(encoding)¶
주어진 인코딩의 코덱을 찾아서
StreamWriter클래스나 팩토리 함수를 반환합니다.인코딩을 찾을 수 없는 경우
LookupError를 발생시킵니다.
적합한 코덱 검색 함수를 등록하여 사용자 정의 코덱을 사용할 수 있도록 합니다:
- codecs.register(search_function, /)¶
코덱 검색 함수를 등록합니다. 검색 함수는 모든 문자가 소문자이고 공백이 하이픈으로 변환된 인코딩 이름 하나를 인자로 받아
CodecInfo객체를 반환해야 합니다. 검색 함수가 주어진 인코딩을 찾지 못할 경우None을 반환해야 합니다.
- codecs.unregister(search_function, /)¶
코덱 검색 함수를 등록 취소하고 레지스트리 캐시를 비웁니다. 해당 검색 함수가 등록되어 있지 않으면 아무 작업도 수행하지 않습니다.
Added in version 3.10.
내장 open()과 관련 io 모듈은 인코딩된 텍스트 파일 작업에 권장되는 접근 방법이지만, 이 모듈은 바이너리 파일로 작업할 때 더 넓은 범위의 코덱을 사용할 수 있도록 하는 추가 유틸리티 함수와 클래스를 제공합니다:
- codecs.open(filename, mode='r', encoding=None, errors='strict', buffering=-1)¶
주어진 mode를 사용하여 인코딩된 파일을 열고 투명한 인코딩/디코딩을 제공하는
StreamReaderWriter의 인스턴스를 반환합니다. 기본 파일 모드는'r'이고, 파일을 읽기 모드로 연다는 뜻입니다.참고
encoding이
None이 아니면, 하부 인코딩된 파일은 항상 바이너리 모드로 열립니다. 읽기와 쓰기 시'\n'의 자동 변환이 수행되지 않습니다. mode 인자는 내장open()함수에 허용되는 모든 바이너리 모드일 수 있습니다;'b'가 자동으로 추가됩니다.encoding은 파일에 사용될 인코딩을 지정합니다. 바이트열에서 인코딩하고 바이트열로 디코딩하는 모든 인코딩이 허용되며, 파일 메서드가 지원하는 데이터형은 사용된 코덱에 따라 다릅니다.
에러 처리를 정의하기 위해 errors가 제공될 수 있습니다. 기본값은
'strict'이고 인코딩 에러가 발생하면ValueError가 발생합니다.buffering은 내장
open()함수에서와 같은 의미입니다. 기본값은 -1이며 기본 버퍼 크기가 사용됨을 의미합니다.버전 3.11에서 변경:
'U'모드가 삭제되었습니다.버전 3.14부터 폐지됨:
codecs.open()이(가)open()으로 대체되었습니다.
- codecs.EncodedFile(file, data_encoding, file_encoding=None, errors='strict')¶
투명한 트랜스코딩을 제공하는 file의 래핑 된 버전인
StreamRecoder인스턴스를 반환합니다. 래핑 된 버전이 닫힐 때 원본 파일이 닫힙니다.래핑 된 파일에 기록된 데이터는 주어진 data_encoding에 따라 디코딩된 다음 file_encoding을 사용하여 바이트열로 원본 파일에 기록됩니다. 원본 파일에서 읽은 바이트열은 file_encoding에 따라 디코딩되며, 결과는 data_encoding을 사용하여 인코딩됩니다.
file_encoding이 제공되지 않으면, 기본값은 data_encoding입니다.
에러 처리를 정의하기 위해 errors가 제공될 수 있습니다. 기본값은
'strict'이며, 인코딩 에러가 발생하면ValueError가 발생합니다.
- codecs.iterencode(iterator, encoding, errors='strict', **kwargs)¶
iterator 가 제공하는 입력을 점진적 인코더를 사용하여 반복적으로 인코딩합니다. iterator 는
str객체를 생성해야 합니다. 이 함수는 generator 입니다. errors 인자(및 기타 키워드 인자)는 점진적 인코더로 전달됩니다.이 함수를 사용하려면 코덱에서 인코딩할 텍스트
str객체를 허용해야 합니다. 따라서base64_codec과 같은 바이트열-바이트열 인코더는 지원하지 않습니다.
- codecs.iterdecode(iterator, encoding, errors='strict', **kwargs)¶
iterator 가 제공하는 입력을 점진적 디코더를 사용하여 반복적으로 디코딩합니다. iterator 는
bytes객체를 생성해야 합니다. 이 함수는 generator 입니다. errors 인자(및 기타 키워드 인자)는 점진적 디코더로 전달됩니다.이 함수를 사용하려면 코덱에서 디코딩할
bytes객체를 허용해야 합니다. 따라서rot_13이iterencode()로 동등하게 사용될 수 있지만,rot_13과 같은 텍스트-텍스트 인코더는 지원하지 않습니다.
- codecs.readbuffer_encode(buffer, errors=None, /)¶
buffer 의 원시 바이트, buffer-compatible object 또는
str(처리 전 UTF-8로 인코딩됨) 및 그 바이트 길이를 포함하는tuple을 반환합니다.errors 인자는 무시됩니다.
>>> codecs.readbuffer_encode(b"Zito") (b'Zito', 4)
이 모듈은 또한 플랫폼 종속 파일을 읽고 쓰는 데 유용한 다음 상수를 제공합니다:
- codecs.BOM¶
- codecs.BOM_BE¶
- codecs.BOM_LE¶
- codecs.BOM_UTF8¶
- codecs.BOM_UTF16¶
- codecs.BOM_UTF16_BE¶
- codecs.BOM_UTF16_LE¶
- codecs.BOM_UTF32¶
- codecs.BOM_UTF32_BE¶
- codecs.BOM_UTF32_LE¶
이 상수는 여러 인코딩에서 유니코드 바이트 순서 표시(BOM)인 다양한 바이트 시퀀스를 정의합니다. UTF-16과 UTF-32 데이터 스트림에서 사용된 바이트 순서를 나타내는 데 사용되며, UTF-8에서 유니코드 서명으로 사용됩니다.
BOM_UTF16은 플랫폼의 네이티브 바이트 순서에 따라BOM_UTF16_BE나BOM_UTF16_LE이며,BOM은BOM_UTF16의 별칭,BOM_LE는BOM_UTF16_LE의 별칭,BOM_BE는BOM_UTF16_BE의 별칭입니다. 다른 것은 UTF-8과 UTF-32 인코딩에서 BOM을 나타냅니다.
코덱 베이스 클래스¶
codecs 모듈은 코덱 객체와 상호작용하기 위한 인터페이스를 정의하는 일련의 베이스 클래스를 정의하며, 사용자 정의 코덱 구현을 위한 기초로도 사용할 수 있습니다.
각 코덱은 파이썬에서 코덱으로 사용할 수 있도록 네 가지 인터페이스를 정의해야 합니다: 상태 없는 인코더, 상태 없는 디코더, 스트림 판독기 및 스트림 기록기. 스트림 판독기와 기록기는 일반적으로 상태 없는 인코더/디코더를 재사용하여 파일 프로토콜을 구현합니다. 코덱 작성자는 코덱에서 인코딩과 디코딩 에러를 처리하는 방법도 정의해야 합니다.
에러 처리기¶
에러 처리를 단순화하고 표준화하기 위해, 코덱은 errors 문자열 인자를 받아들여 다른 에러 처리 체계를 구현할 수 있습니다:
>>> 'German ß, ♬'.encode(encoding='ascii', errors='backslashreplace')
b'German \\xdf, \\u266c'
>>> 'German ß, ♬'.encode(encoding='ascii', errors='xmlcharrefreplace')
b'German ß, ♬'
다음 에러 처리기는 모든 파이썬 표준 인코딩과 함께 사용할 수 있습니다:
값 |
의미 |
|---|---|
|
|
|
잘못된 데이터를 무시하고 추가 통지 없이 계속 진행합니다. |
|
교체 마커로 교체합니다. 인코딩 시, |
|
역슬래시 이스케이프 시퀀스로 대체합니다. 인코딩 시에는 유니코드 코드 포인트의 16진수 형태를 사용하며 형식은 |
|
디코딩 시, 바이트를 |
다음 에러 처리기는 인코딩에만 적용됩니다 (텍스트 인코딩 내):
값 |
의미 |
|---|---|
|
|
|
|
또한, 다음 에러 처리기는 지정된 코덱에만 적용됩니다:
값 |
코덱 |
의미 |
|---|---|---|
|
utf-8, utf-16, utf-32, utf-16-be, utf-16-le, utf-32-be, utf-32-le |
서로게이트 코드 포인트 ( |
Added in version 3.1: 'surrogateescape'와 'surrogatepass' 에러 처리기.
버전 3.4에서 변경: 'surrogatepass' 에러 처리기는 이제 utf-16* 와 utf-32* 코덱에서 작동합니다.
Added in version 3.5: 'namereplace' 에러 처리기.
버전 3.5에서 변경: 'backslashreplace' 에러 처리기는 이제 디코딩과 변환(translating)에서 작동합니다.
새 이름으로 에러 처리기를 등록하여 허용되는 값 집합을 확장할 수 있습니다:
- codecs.register_error(name, error_handler, /)¶
에러 처리 함수 error_handler를 name이라는 이름으로 등록합니다. error_handler 인자는 name이 errors 매개 변수로 지정될 때, 인코딩과 디코딩 중에 에러가 있으면 호출됩니다.
인코딩의 경우, 에러 위치에 대한 정보가 포함된
UnicodeEncodeError인스턴스와 함께 error_handler가 호출됩니다. 에러 처리기는 이 예외나 다른 예외를 발생시키거나, 입력의 인코딩할 수 없는 부분의 대체 값과 인코딩을 계속할 위치를 담은 튜플을 반환해야 합니다. 대체 값은str이나bytes일 수 있습니다. 대체 값이 바이트열이면, 인코더는 이를 단순히 출력 버퍼에 복사합니다. 대체 값이 문자열이면, 인코더는 대체 값을 인코딩합니다. 지정된 위치에서 원래 입력으로 인코딩이 계속됩니다. 음수 위칫값은 입력 문자열의 끝을 기준으로 처리됩니다. 결과 위치가 범위를 벗어나면IndexError가 발생합니다.UnicodeDecodeError나UnicodeTranslateError가 처리기로 전달되고 에러 처리기의 대체 값을 출력에 직접 넣는다는 점을 제외하면, 디코딩과 변환(translating)은 비슷하게 작동합니다.
이전에 등록된 에러 처리기(표준 에러 처리기를 포함하여)는 이름으로 조회할 수 있습니다:
- codecs.lookup_error(name, /)¶
name이라는 이름으로 이전에 등록된 에러 처리기를 반환합니다.
처리기를 찾을 수 없으면
LookupError를 발생시킵니다.
다음과 같은 표준 에러 처리기가 모듈 수준 함수로 제공됩니다:
- codecs.strict_errors(exception)¶
'strict'에러 처리를 구현합니다.각 인코딩이나 디코딩 에러는
UnicodeError를 발생시킵니다.
- codecs.ignore_errors(exception)¶
'ignore'에러 처리를 구현합니다.잘못된 형식의 데이터는 무시됩니다; 추가 통지 없이 인코딩이나 디코딩이 계속됩니다.
- codecs.replace_errors(exception)¶
'replace'에러 처리를 구현합니다.인코딩 오류의 경우
?(ASCII 문자), 디코딩 오류의 경우�(U+FFFD, 공식 대체 문자)로 대체합니다.
- codecs.backslashreplace_errors(exception)¶
'backslashreplace'에러 처리를 구현합니다.손상된 데이터는 역슬래시 이스케이프 시퀀스로 대체됩니다. 인코딩 시에는 유니코드 코드 포인트의 16진수 형태를 사용하며 형식은
\xhh,\uxxxx,\Uxxxxxxxx`입니다. 디코딩 시에는 바이트 값의 16진수 형태인 :samp:\x{hh}`를 사용합니다.버전 3.5에서 변경: 디코딩과 변환(translating)에서 작동합니다.
상태 없는 인코딩과 디코딩¶
기본 Codec 클래스는 다음과 같은 메서드를 정의하는데, 상태 없는 인코더와 디코더의 함수 인터페이스를 정의하기도 합니다:
- class codecs.Codec¶
- encode(input, errors='strict')¶
객체 input을 인코딩하고 튜플(출력 객체, 소비한 길이)을 반환합니다. 예를 들어, 텍스트 인코딩은 특정 문자 집합 인코딩 (예를 들어,
cp1252나iso-8859-1)을 사용하여 문자열 객체를 바이트열 객체로 변환합니다.errors 인자는 적용할 에러 처리를 정의합니다. 기본값은
'strict'처리입니다.이 메서드는
Codec인스턴스에 상태를 저장하지 않을 수 있습니다. 인코딩 효율을 높이기 위해 상태를 유지해야 하는 코덱에서는StreamWriter를 사용하십시오.인코더는 길이가 0인 입력을 처리하고 이 상황에서는 출력 객체 형의 빈 객체를 반환할 수 있어야 합니다.
- decode(input, errors='strict')¶
객체 input을 디코딩하고 튜플 (출력 객체, 소비한 길이)를 반환합니다. 예를 들어, 텍스트 인코딩의 경우, 디코딩은 특정 문자 집합 인코딩을 사용하여 인코딩된 바이트열 객체를 문자열 객체로 변환합니다.
텍스트 인코딩과 바이트열-바이트열 코덱의 경우, input은 바이트열 객체이거나 읽기 전용 버퍼 인터페이스를 제공하는 객체여야 합니다 – 예를 들어, 버퍼 객체와 및 메모리 맵핑 파일.
errors 인자는 적용할 에러 처리를 정의합니다. 기본값은
'strict'처리입니다.이 메서드는
Codec인스턴스에 상태를 저장하지 않을 수 있습니다. 디코딩 효율을 높이기 위해 상태를 유지해야 하는 코덱에서는StreamReader를 사용하십시오.디코더는 길이가 0인 입력을 처리하고 이 상황에서 출력 객체 형의 빈 객체를 반환할 수 있어야 합니다.
증분 인코딩과 디코딩¶
IncrementalEncoder와 IncrementalDecoder 클래스는 증분 인코딩과 디코딩을 위한 기본 인터페이스를 제공합니다. 입력을 인코딩/디코딩하는 것이 상태 없는 인코더/디코더 함수를 한 번 호출하는 것이 아니라, 증분 인코더/디코더의 encode()/decode() 메서드를 여러 번 호출하여 수행됩니다. 증분 인코더/디코더는 메서드 호출 중에 인코딩/디코딩 프로세스를 추적합니다.
encode()/decode() 메서드에 대한 호출의 연결된 출력은 모든 단일 입력을 하나로 결합하여 상태 없는 인코더/디코더로 인코딩/디코딩되는 것과 같습니다.
IncrementalEncoder 객체¶
IncrementalEncoder 클래스는 여러 단계로 입력을 인코딩하는 데 사용됩니다. 파이썬 코덱 레지스트리와 호환되도록 모든 증분 인코더가 정의해야 하는 다음 메서드를 정의합니다.
- class codecs.IncrementalEncoder(errors='strict')¶
IncrementalEncoder인스턴스의 생성자.모든 증분 인코더는 이 생성자 인터페이스를 제공해야 합니다. 추가 키워드 인자를 자유롭게 추가할 수 있지만, 여기에 정의된 키워드 인자만 파이썬 코덱 레지스트리에서 사용됩니다.
IncrementalEncoder는 errors 키워드 인자를 제공하여 다른 에러 처리 체계를 구현할 수 있습니다. 가능한 값은 에러 처리기를 참조하십시오.errors 인자는 같은 이름의 어트리뷰트에 대입됩니다. 이 어트리뷰트에 대입하면
IncrementalEncoder객체의 수명 동안 다른 에러 처리 전략 간에 전환할 수 있습니다.- encode(object, final=False)¶
object를 (인코더의 현재 상태를 고려하여) 인코딩하고 결과 인코딩된 객체를 반환합니다. 이것이
encode()에 대한 마지막 호출이면 final은 참이어야 합니다 (기본값은 거짓).
- reset()¶
인코더를 초기 상태로 재설정합니다. 출력은 버려집니다: 인코더를 재설정하고 출력을 얻으려면, 필요하면 빈 바이트열이나 텍스트 문자열을 전달하여,
.encode(object, final=True)를 호출하십시오.
- getstate()¶
인코더의 현재 상태를 반환하는데, 정수여야 합니다. 구현은
0이 가장 흔한 상태가 되도록 해야 합니다. (정수보다 복잡한 상태는 상태를 마샬링/피클링하고 결과 문자열의 바이트열을 정수로 인코딩하여 정수로 변환할 수 있습니다.)
- setstate(state)¶
인코더 상태를 state로 설정합니다. state는
getstate()가 반환한 인코더 상태여야 합니다.
IncrementalDecoder 객체¶
IncrementalDecoder 클래스는 여러 단계로 입력을 디코딩하는 데 사용됩니다. 파이썬 코덱 레지스트리와 호환되도록 모든 증분 디코더에서 정의해야 하는 다음 메서드를 정의합니다.
- class codecs.IncrementalDecoder(errors='strict')¶
IncrementalDecoder인스턴스의 생성자.모든 증분 디코더는 이 생성자 인터페이스를 제공해야 합니다. 추가 키워드 인자를 자유롭게 추가할 수 있지만, 여기에 정의된 키워드 인자만 파이썬 코덱 레지스트리에서 사용됩니다.
IncrementalDecoder는 errors 키워드 인자를 제공하여 다른 에러 처리 체계를 구현할 수 있습니다. 가능한 값은 에러 처리기를 참조하십시오.errors 인자는 같은 이름의 어트리뷰트에 대입됩니다. 이 어트리뷰트에 대입하면
IncrementalDecoder객체의 수명 동안 다른 에러 처리 전략 간에 전환할 수 있습니다.- decode(object, final=False)¶
object를 디코딩하고 (디코더의 현재 상태를 고려하여) 결과 디코딩된 객체를 반환합니다. 이것이
decode()에 대한 마지막 호출이면 final은 참이어야 합니다 (기본값은 거짓). final이 참이면 디코더는 입력을 완전히 디코딩해야 하며 모든 버퍼를 플러시 해야 합니다. 이것이 가능하지 않으면 (예를 들어 입력 끝의 불완전한 바이트 시퀀스로 인해), 상태 없는 경우와 같이 에러 처리를 시작해야 합니다 (예외가 발생시킬 수 있습니다).
- reset()¶
디코더를 초기 상태로 재설정합니다.
- getstate()¶
디코더의 현재 상태를 반환합니다. 두 항목이 있는 튜플이어야 하며, 첫 번째는 여전히 디코딩되지 않은 입력을 포함하는 버퍼여야 합니다. 두 번째는 정수여야 하며 추가 상태 정보일 수 있습니다. (구현은
0이 가장 흔한 추가 상태 정보가 되도록 해야 합니다.) 이 추가 상태 정보가0이면, 입력 버퍼가 없고 추가 상태 정보가0인 상태로 디코더를 설정할 수 있어서, 이전에 버퍼링 된 입력을 디코더에 공급하면 출력을 생성하지 않고 이전 상태로 되돌아갈 수 있어야 합니다. (정수보다 복잡한 추가 상태 정보는 정보를 마샬링/피클링하고 결과 문자열의 바이트를 정수로 인코딩하여 정수로 변환할 수 있습니다.)
- setstate(state)¶
디코더의 상태를 state로 설정합니다. state는
getstate()가 반환한 디코더 상태여야 합니다.
스트림 인코딩과 디코딩¶
StreamWriter와 StreamReader 클래스는 새로운 인코딩 서브 모듈을 매우 쉽게 구현하는 데 사용할 수 있는 범용 작업 인터페이스를 제공합니다. 이를 수행하는 방법에 대한 예는 encodings.utf_8을 참조하십시오.
StreamWriter 객체¶
StreamWriter 클래스는 Codec의 서브 클래스이며 파이썬 코덱 레지스트리와 호환되도록 모든 스트림 기록기가 정의해야 하는 다음 메서드를 정의합니다.
- class codecs.StreamWriter(stream, errors='strict')¶
StreamWriter인스턴스의 생성자.모든 스트림 기록기는 이 생성자 인터페이스를 제공해야 합니다. 추가 키워드 인자를 자유롭게 추가할 수 있지만, 여기에 정의된 키워드 인자만 파이썬 코덱 레지스트리에서 사용됩니다.
stream 인자는 특정 코덱에 적합하도록 텍스트나 바이너리 데이터를 쓰기 위해 열린 파일류 객체여야 합니다.
StreamWriter는 errors 키워드 인자를 제공하여 다른 에러 처리 체계를 구현할 수 있습니다. 하부 스트림 코덱이 지원할 수 있는 표준 에러 처리기에 대해서는 에러 처리기를 참조하십시오.errors 인자는 같은 이름의 어트리뷰트에 대입됩니다. 이 어트리뷰트에 대입하면
StreamWriter객체의 수명 동안 다른 에러 처리 전략 간에 전환할 수 있습니다.- write(object)¶
스트림에 인코딩된 객체의 내용을 씁니다.
- writelines(list)¶
이어붙인 문자열의 이터러블을 스트림에 씁니다 (
write()메서드를 재사용할 수 있습니다). 무한하거나 아주 큰 이터러블은 지원되지 않습니다. 표준 바이트열-바이트열 코덱은 이 메서드를 지원하지 않습니다.
- reset()¶
내부 상태를 유지하는 데 사용되는 코덱 버퍼를 재설정합니다.
이 메서드를 호출하면 출력의 데이터가 깨끗한 상태가 되어 상태를 복구하기 위해 전체 스트림을 다시 스캔하지 않고도 새로운 최신 데이터를 추가할 수 있도록 합니다.
위의 메서드 외에도, StreamWriter는 하부 스트림에서 온 다른 모든 메서드와 어트리뷰트를 상속해야 합니다.
StreamReader 객체¶
StreamReader 클래스는 Codec의 서브 클래스이며 파이썬 코덱 레지스트리와 호환되도록 모든 스트림 판독기가 정의해야 하는 다음 메서드를 정의합니다.
- class codecs.StreamReader(stream, errors='strict')¶
StreamReader인스턴스의 생성자.모든 스트림 판독기는 이 생성자 인터페이스를 제공해야 합니다. 추가 키워드 인자를 자유롭게 추가할 수 있지만, 여기에 정의된 키워드 인자만 파이썬 코덱 레지스트리에서 사용됩니다.
stream 인자는 특정 코덱에 적합하게 텍스트나 바이너리 데이터를 읽기 위해 열린 파일류 객체여야 합니다.
StreamReader는 errors 키워드 인자를 제공하여 다른 에러 처리 체계를 구현할 수 있습니다. 하부 스트림 코덱이 지원할 수 있는 표준 에러 처리기에 대해서는 에러 처리기를 참조하십시오.errors 인자는 같은 이름의 어트리뷰트에 대입됩니다. 이 어트리뷰트에 대입하면
StreamReader객체의 수명 동안 다른 에러 처리 전략 간에 전환할 수 있습니다.errors 인자에 허용되는 값 집합은
register_error()로 확장될 수 있습니다.- read(size=-1, chars=-1, firstline=False)¶
스트림에서 데이터를 디코딩하고 결과 객체를 반환합니다.
chars 인자는 반환할 디코딩 된 코드 포인트나 바이트의 수를 나타냅니다.
read()메서드는 요청된 것보다 더 많은 데이터를 반환하지 않지만, 사용 가능한 것이 충분하지 않으면 더 적게 반환할 수 있습니다.size 인자는 디코딩을 위해 읽을 인코딩 된 바이트나 코드 포인트의 대략적인 최대 수를 나타냅니다. 디코더는 이 설정을 적절하게 수정할 수 있습니다. 기본값 -1은 가능한 한 많이 읽고 디코딩함을 나타냅니다. 이 매개 변수는 커다란 파일을 한 번에 디코딩하지 않도록 하기 위한 것입니다.
firstline 플래그는 이후 줄에 디코딩 에러가 있으면 첫 번째 줄만 반환해도 충분함을 나타냅니다.
이 메서드는 탐욕스러운(greedy) 읽기 전략을 사용해야 합니다. 즉, 인코딩 정의와 주어진 size 내에서 허용되는 만큼 많은 데이터를 읽어야 합니다. 예를 들어 스트림에 선택적 인코딩 종료나 상태 마커가 있으면, 이것도 읽어야 합니다.
- readline(size=None, keepends=True)¶
입력 스트림에서 한 줄을 읽고 디코딩된 데이터를 반환합니다.
주어지면, size는 스트림의
read()메서드에 size 인자로 전달됩니다.keepends가 거짓이면 줄 종료가 반환된 줄에서 제거됩니다.
- readlines(sizehint=None, keepends=True)¶
입력 스트림에서 사용 가능한 모든 줄을 읽고 줄의 리스트로 반환합니다.
줄 종료는 코덱의
decode()메서드를 사용하여 구현되며 keepends가 참이면 리스트 항목에 포함됩니다.주어지면, sizehint는 스트림의
read()메서드에 size 인자로 전달됩니다.
- reset()¶
내부 상태를 유지하는 데 사용되는 코덱 버퍼를 재설정합니다.
스트림 위치 변경이 발생하지 않아야 함에 유의하십시오. 이 메서드는 주로 디코딩 에러에서 복구할 수 있도록 하기 위한 것입니다.
위의 메서드 외에도 StreamReader는 하부 스트림에서 다른 모든 메서드와 어트리뷰트를 상속해야 합니다.
StreamReaderWriter 객체¶
StreamReaderWriter 는 읽기와 쓰기 모드 모두에서 작동하는 스트림을 래핑하도록 하는 편의 클래스입니다.
lookup() 함수가 반환한 팩토리 함수를 사용하여 인스턴스를 구성할 수 있도록 설계되었습니다.
- class codecs.StreamReaderWriter(stream, Reader, Writer, errors='strict')¶
StreamReaderWriter인스턴스를 만듭니다. stream은 파일류 객체여야 합니다. Reader와 Writer는 각각StreamReader와StreamWriter인터페이스를 제공하는 팩토리 함수나 클래스여야 합니다. 에러 처리는 스트림 판독기와 기록기에 정의된 것과 같은 방식으로 수행됩니다.
StreamReaderWriter 인스턴스는 StreamReader와 StreamWriter 클래스가 결합한 인터페이스를 정의합니다. 하부 스트림에서 다른 모든 메서드와 어트리뷰트를 상속합니다.
StreamRecoder 객체¶
StreamRecoder는 한 인코딩에서 다른 인코딩으로 데이터를 변환하는데, 이는 때때로 다른 인코딩 환경을 다룰 때 유용합니다.
lookup() 함수가 반환한 팩토리 함수를 사용하여 인스턴스를 구성할 수 있도록 설계되었습니다.
- class codecs.StreamRecoder(stream, encode, decode, Reader, Writer, errors='strict')¶
양방향 변환을 구현하는
StreamRecoder인스턴스를 만듭니다: encode와 decode는 프런트 엔드에 작동합니다 -read()와write()를 호출하는 코드가 보는 데이터, 반면에 Reader와 Writer는 백 엔드에 작동합니다 - stream의 데이터.이러한 객체를 사용하여 투명한 트랜스코딩을 수행 할 수 있습니다, 예를 들어, Latin-1 에서 UTF-8로 또는 그 반대로.
stream 인자는 파일류 객체여야 합니다.
encode와 decode 인자는
Codec인터페이스를 준수해야 합니다. Reader와 Writer는 각각StreamReader와StreamWriter인터페이스의 객체를 제공하는 팩토리 함수나 클래스여야 합니다.에러 처리는 스트림 판독기와 기록기에 정의된 것과 같은 방식으로 수행됩니다.
StreamRecoder 인스턴스는 StreamReader와 StreamWriter 클래스가 결합한 인터페이스를 정의합니다. 하부 스트림에서 다른 모든 메서드와 어트리뷰트를 상속합니다.
인코딩과 유니코드¶
문자열은 U+0000–U+10FFFF 범위의 코드 포인트 시퀀스로 내부적으로 저장됩니다. (구현에 대한 자세한 내용은 PEP 393을 참조하십시오.) 일단 문자열 객체가 CPU와 메모리 외부에서 사용되면, 엔디안(endianness)과 이러한 배열이 바이트열로 저장되는 방식이 문제가 됩니다. 다른 코덱과 마찬가지로, 문자열을 바이트 시퀀스로 직렬화하는 것을 인코딩이라고 하며, 바이트 시퀀스에서 문자열을 다시 만드는 것을 디코딩이라고 합니다. 다양한 텍스트 직렬화 코덱이 있으며, 이를 집합적으로 텍스트 인코딩이라고 합니다.
가장 간단한 텍스트 인코딩('latin-1' 또는 'iso-8859-1'이라고 합니다)은 코드 포인트 0–255를 바이트 0x0–0xff로 매핑합니다. 이것은 U+00FF 위의 코드 포인트를 포함하는 문자열 객체는 이 코덱으로 인코딩할 수 없음을 뜻합니다. 그렇게 하면 다음과 유사한 UnicodeEncodeError 가 발생합니다 (에러 메시지의 세부 사항은 다를 수 있습니다): UnicodeEncodeError: 'latin-1' codec can't encode character '\u1234' in position 3: ordinal not in range(256).
모든 유니코드 코드 포인트의 다른 부분 집합과 이러한 코드 포인트가 바이트 0x0–0xff에 매핑되는 방식을 선택하는 또 다른 인코딩 그룹(소위 charmap 인코딩)이 있습니다. 이 작업을 수행하는 방법을 보려면 간단히 예를 들어 encodings/cp1252.py(윈도우에서 주로 사용되는 인코딩)를 열어보십시오. 어떤 문자가 어떤 바이트 값에 매핑되는지를 나타내는 256개의 문자로 구성된 문자열 상수가 있습니다.
이 인코딩들은 모두 유니코드에 정의된 1114112개 코드 포인트 중 256개만 인코딩할 수 있습니다. 각 유니코드 코드 포인트를 저장할 수 있는 간단하고 명확한 방법은 각 코드를 4개의 연속된 바이트로 저장하는 것입니다. 여기에는 두 가지 가능성이 있습니다. 바이트를 빅 엔디안 또는 리틀 엔디안 순서로 저장하는 것입니다. 이 두 인코딩은 각각 UTF-32-BE 및 UTF-32-LE 라고 불립니다. 단점은 예를 들어 리틀 엔디안 기계에서 UTF-32-BE 를 사용하면 인코딩 및 디코딩 시 항상 바이트 순서를 바꿔야 한다는 것입니다. 파이썬의 UTF-16 및 UTF-32 코덱은 BOM이 없는 경우 플랫폼의 네이티브 바이트 순서를 사용하여 이 문제를 피합니다. 파이썬은 일반적인 플랫폼 관행을 따르므로, 유니코드 표준이 바이트 순서가 지정되지 않았을 때 빅 엔디안을 기본값으로 하더라도 네이티브 엔디안 데이터는 불필요한 바이트 교환 없이 왕복(round-trip) 처리됩니다. 그러나 이러한 바이트를 엔디언이 다른 CPU에서 읽을 때는 바이트 순서를 바꿔야 합니다. UTF-16 또는 UTF-32 바이트 시퀀스의 엔디언을 감지하기 위해 BOM(“Byte Order Mark”)이 사용됩니다. 이것은 유니코드 문자 U+FEFF 입니다. 이 문자는 모든 UTF-16 또는 UTF-32 바이트 시퀀스 앞에 추가될 수 있습니다. 이 문자의 바이트가 뒤바뀐 버전인 0xFFFE 는 유니코드 텍스트에 나타날 수 없는 불법적인 문자입니다. 따라서 UTF-16 또는 UTF-32 바이트 시퀀스의 첫 번째 문자가 U+FFFE 일 경우, 디코딩 시 바이트 순서를 바꿔야 합니다.
안타깝게도 U+FEFF 문자는 ZERO WIDTH NO-BREAK SPACE 로서의 두 번째 용도가 있었습니다. 이는 너비가 없으며 단어가 분리되지 않도록 하는 문자입니다. 예를 들어 리거처(ligature) 알고리즘에 힌트를 제공하는 데 사용될 수 있습니다. Unicode 4.0부터 U+FEFF 를 ZERO WIDTH NO-BREAK SPACE 로 사용하는 것은 더 이상 권장되지 않으며(이 역할을 U+2060 (WORD JOINER)이 대신함), 그럼에도 불구하고 Unicode 소프트웨어는 두 가지 역할 모두에서 U+FEFF 를 처리할 수 있어야 합니다. BOM으로서의 기능은 인코딩된 바이트의 저장 레이아웃을 결정하는 장치이며, 바이트 시퀀스가 문자열로 디코딩되면 사라집니다. ZERO WIDTH NO-BREAK SPACE 로서의 역할은 다른 어떤 문자와 동일하게 디코딩되는 일반적인 문자입니다.
유니코드 문자의 전체 범위를 인코딩 할 수 있는 또 다른 인코딩이 있습니다: UTF-8. UTF-8은 8비트 인코딩입니다. UTF-8에서는 바이트 순서에 관한 문제가 없음을 의미합니다. UTF-8 바이트 시퀀스의 각 바이트는 두 부분으로 구성됩니다: 마커 비트(최상위 비트)와 페이로드 비트. 마커 비트는 0에서 4개의 1 비트와 그 뒤에 0비트가 오는 시퀀스입니다. 유니코드 문자는 다음과 같이 인코딩됩니다 (x는 페이로드 비트이며, 이어 붙이면 유니코드 문자가 됩니다):
범위 |
인코딩 |
|---|---|
|
0xxxxxxx |
|
110xxxxx 10xxxxxx |
|
1110xxxx 10xxxxxx 10xxxxxx |
|
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
유니코드 문자의 최하위 비트는 가장 오른쪽에 있는 x 비트입니다.
UTF-8은 8비트 인코딩이라서 BOM이 필요하지 않으며 디코딩된 문자열의 모든 U+FEFF 문자(첫 번째 문자라 할지라도)는 ZERO WIDTH NO-BREAK SPACE로 처리됩니다.
외부 정보 없이 문자열 인코딩에 사용된 인코딩을 신뢰성 있게 결정하는 것은 불가능합니다. 각 charmap 인코딩은 모든 임의의 바이트 시퀀스를 디코딩 할 수 있습니다. 그러나 UTF-8에서는 그렇지 않습니다, UTF-8 바이트 시퀀스는 임의의 바이트 시퀀스를 허용하지 않는 구조를 갖기 때문입니다. UTF-8 인코딩 감지의 신뢰성을 높이기 위해, Microsoft는 메모장(Notepad) 프로그램을 위해 UTF-8의 변형을 발명했습니다 (파이썬에서 "utf-8-sig"라고 부릅니다): 유니코드 문자를 파일에 쓰기 전에, UTF-8 인코딩된 BOM(다음과 같은 바이트 시퀀스로 표시됩니다: 0xef, 0xbb, 0xbf)이 기록됩니다. 모든 charmap 인코딩된 파일이 이러한 바이트 값으로 시작한다는 것은 다소 불가능하기 때문에 (예를 들어 iso-8859-1 에서 다음과 같은 것으로 매핑됩니다
LATIN SMALL LETTER I WITH DIAERESISRIGHT-POINTING DOUBLE ANGLE QUOTATION MARKINVERTED QUESTION MARK
), 바이트 시퀀스에서 utf-8-sig 인코딩을 정확하게 추측할 수 있는 가능성을 높입니다. 따라서 여기서 BOM은 바이트 시퀀스를 생성하는 데 사용되는 바이트 순서를 결정할 수 있도록 하는데 사용되지는 않지만, 인코딩을 추측하는 데 도움이 되는 서명으로 사용됩니다. 인코딩할 때 utf-8-sig 코덱은 0xef, 0xbb, 0xbf를 파일의 처음 3바이트로 기록합니다. 디코딩할 때 utf-8-sig는 파일에서 처음 3바이트에 등장하면 이 3바이트를 건너뜁니다. UTF-8에서는, BOM 사용을 권장하지 않으며 일반적으로 피해야 합니다.
표준 인코딩¶
Python은 C 함수로 구현되거나 매핑 테이블을 위한 딕셔너리를 사용하는 여러 내장 코덱을 제공합니다. 다음 표는 코덱 이름을 목록화하고, 몇 가지 일반적인 별칭 및 해당 인코딩이 사용될 가능성이 높은 언어들을 함께 나열합니다. 별칭 목록이나 언어 목록이 모든 사례를 포함하는 것은 아닙니다. 대소문자 차이만 있거나, 밑줄 대신 공백 또는 하이픈을 사용하는 철자 변형도 예를 들어, `()’utf-8’은 ``'utf_8' 코덱의 유효한 별칭입니다.
참고
아래 표는 가장 일반적인 별칭을 나열하며, 전체 목록은 소스 aliases.py 파일을 참조하십시오.
Windows에서는 모든 코드 페이지에 대해 cpXXX 코덱을 사용할 수 있습니다. 그러나 다음 표에 나열된 코덱만이 다른 플랫폼에서도 존재함이 보장됩니다.
일부 공통 인코딩은 코덱 조회 메커니즘을 우회하여 성능을 향상할 수 있습니다. 이러한 최적화 기회는 CPython에서만 제한된 (대소 문자를 구분하는) 별칭 집합에 대해서 인식됩니다: utf-8, utf8, latin-1, latin1, iso-8859-1, iso8859-1, mbcs (윈도우 전용), ascii, us-ascii, utf-16, utf16, utf-32, utf32 및 대시 대신 밑줄을 사용한 것들. 이러한 인코딩에 대체 대안 별칭을 사용하면 실행 속도가 느려질 수 있습니다.
버전 3.6에서 변경: us-ascii에서 최적화 기회가 인식됩니다.
많은 문자 집합이 같은 언어를 지원합니다. 개별 문자(예를 들어 EURO SIGN 지원 여부)와 코드 위치에 문자를 대입하는 것에서 다릅니다. 특히 유럽 언어의 경우, 일반적으로 다음과 같은 변형이 있습니다:
ISO 8859 코드 집합
Microsoft 윈도우 코드 페이지, 일반적으로 8859 코드 집합에서 파생되지만, 제어 문자를 추가 그래픽 문자로 대체합니다
IBM EBCDIC 코드 페이지
IBM PC 코드 페이지, ASCII와 호환됩니다
코덱 |
별칭 |
언어 |
|---|---|---|
ascii |
646, us-ascii |
영어 |
big5 |
big5-tw, csbig5 |
중국어 번체 |
big5hkscs |
big5-hkscs, hkscs |
중국어 번체 |
cp037 |
IBM037, IBM039 |
영어 |
cp273 |
273, IBM273, csIBM273 |
독일어 Added in version 3.4. |
cp424 |
EBCDIC-CP-HE, IBM424 |
히브리어 |
cp437 |
437, IBM437 |
영어 |
cp500 |
EBCDIC-CP-BE, EBCDIC-CP-CH, IBM500 |
서유럽어 |
cp720 |
아랍어 |
|
cp737 |
그리스어 |
|
cp775 |
IBM775 |
발트어 |
cp850 |
850, IBM850 |
서유럽어 |
cp852 |
852, IBM852 |
중부와 동유럽어 |
cp855 |
855, IBM855 |
벨라루스어, 불가리아어, 마케도니아어, 러시아어, 세르비아어 |
cp856 |
히브리어 |
|
cp857 |
857, IBM857 |
터키어 |
cp858 |
858, IBM00858 |
서유럽어 |
cp860 |
860, IBM860 |
포르투갈어 |
cp861 |
861, CP-IS, IBM861 |
아이슬란드어 |
cp862 |
862, IBM862 |
히브리어 |
cp863 |
863, IBM863 |
캐나다어 |
cp864 |
IBM864 |
아랍어 |
cp865 |
865, IBM865 |
덴마크어, 노르웨이어 |
cp866 |
866, IBM866 |
러시아어 |
cp869 |
869, CP-GR, IBM869 |
그리스어 |
cp874 |
태국어 |
|
cp875 |
그리스어 |
|
cp932 |
932, ms932, mskanji, ms-kanji, windows-31j |
일본어 |
cp949 |
949, ms949, uhc |
한국어 |
cp950 |
950, ms950 |
중국어 번체 |
cp1006 |
우르두어 |
|
cp1026 |
ibm1026 |
터키어 |
cp1125 |
1125, ibm1125, cp866u, ruscii |
우크라이나어 Added in version 3.4. |
cp1140 |
IBM01140 |
서유럽어 |
cp1250 |
windows-1250 |
중부와 동유럽어 |
cp1251 |
windows-1251 |
벨라루스어, 불가리아어, 마케도니아어, 러시아어, 세르비아어 |
cp1252 |
windows-1252 |
서유럽어 |
cp1253 |
windows-1253 |
그리스어 |
cp1254 |
windows-1254 |
터키어 |
cp1255 |
windows-1255 |
히브리어 |
cp1256 |
windows-1256 |
아랍어 |
cp1257 |
windows-1257 |
발트어 |
cp1258 |
windows-1258 |
베트남어 |
euc_jp |
eucjp, ujis, u-jis |
일본어 |
euc_jis_2004 |
jisx0213, eucjis2004 |
일본어 |
euc_jisx0213 |
eucjisx0213 |
일본어 |
euc_kr |
euckr, korean, ksc5601, ks_c-5601, ks_c-5601-1987, ksx1001, ks_x-1001 |
한국어 |
gb2312 |
chinese, csiso58gb231280, euc-cn, euccn, eucgb2312-cn, gb2312-1980, gb2312-80, iso-ir-58 |
중국어 간체 |
gbk |
936, cp936, ms936 |
통합 중국어 |
gb18030 |
gb18030-2000 |
통합 중국어 |
hz |
hzgb, hz-gb, hz-gb-2312 |
중국어 간체 |
iso2022_jp |
csiso2022jp, iso2022jp, iso-2022-jp |
일본어 |
iso2022_jp_1 |
iso2022jp-1, iso-2022-jp-1 |
일본어 |
iso2022_jp_2 |
iso2022jp-2, iso-2022-jp-2 |
일본어, 한국어, 중국어 간체, 서유럽어, 그리스어 |
iso2022_jp_2004 |
iso2022jp-2004, iso-2022-jp-2004 |
일본어 |
iso2022_jp_3 |
iso2022jp-3, iso-2022-jp-3 |
일본어 |
iso2022_jp_ext |
iso2022jp-ext, iso-2022-jp-ext |
일본어 |
iso2022_kr |
csiso2022kr, iso2022kr, iso-2022-kr |
한국어 |
latin_1 |
iso-8859-1, iso8859-1, 8859, cp819, latin, latin1, L1 |
서유럽어 |
iso8859_2 |
iso-8859-2, latin2, L2 |
중부와 동유럽어 |
iso8859_3 |
iso-8859-3, latin3, L3 |
에스페란토어, 몰타어 |
iso8859_4 |
iso-8859-4, latin4, L4 |
북유럽 |
iso8859_5 |
iso-8859-5, cyrillic |
벨라루스어, 불가리아어, 마케도니아어, 러시아어, 세르비아어 |
iso8859_6 |
iso-8859-6, arabic |
아랍어 |
iso8859_7 |
iso-8859-7, greek, greek8 |
그리스어 |
iso8859_8 |
iso-8859-8, hebrew |
히브리어 |
iso8859_9 |
iso-8859-9, latin5, L5 |
터키어 |
iso8859_10 |
iso-8859-10, latin6, L6 |
북유럽어 |
iso8859_11 |
iso-8859-11, thai |
태국어 |
iso8859_13 |
iso-8859-13, latin7, L7 |
발트어 |
iso8859_14 |
iso-8859-14, latin8, L8 |
켈틱어 |
iso8859_15 |
iso-8859-15, latin9, L9 |
서유럽어 |
iso8859_16 |
iso-8859-16, latin10, L10 |
남유럽어 |
johab |
cp1361, ms1361 |
한국어 |
koi8_r |
러시아어 |
|
koi8_t |
타지크어 Added in version 3.5. |
|
koi8_u |
우크라이나어 |
|
kz1048 |
kz_1048, strk1048_2002, rk1048 |
카자흐어 Added in version 3.5. |
mac_cyrillic |
maccyrillic |
벨라루스어, 불가리아어, 마케도니아어, 러시아어, 세르비아어 |
mac_greek |
macgreek |
그리스어 |
mac_iceland |
maciceland |
아이슬란드어 |
mac_latin2 |
maclatin2, maccentraleurope, mac_centeuro |
중부와 동유럽어 |
mac_roman |
macroman, macintosh |
서유럽어 |
mac_turkish |
macturkish |
터키어 |
ptcp154 |
csptcp154, pt154, cp154, cyrillic-asian |
카자흐어 |
shift_jis |
csshiftjis, shiftjis, sjis, s_jis |
일본어 |
shift_jis_2004 |
shiftjis2004, sjis_2004, sjis2004 |
일본어 |
shift_jisx0213 |
shiftjisx0213, sjisx0213, s_jisx0213 |
일본어 |
utf_32 |
U32, utf32 |
모든 언어 |
utf_32_be |
UTF-32BE |
모든 언어 |
utf_32_le |
UTF-32LE |
모든 언어 |
utf_16 |
U16, utf16 |
모든 언어 |
utf_16_be |
UTF-16BE |
모든 언어 |
utf_16_le |
UTF-16LE |
모든 언어 |
utf_7 |
U7, unicode-1-1-utf-7 |
모든 언어 |
utf_8 |
U8, UTF, utf8, cp65001 |
모든 언어 |
utf_8_sig |
utf8-sig |
모든 언어 |
버전 3.4에서 변경: utf-16* 과 utf-32* 인코더는 더는 서로게이트 코드 포인트(U+D800–U+DFFF)를 인코딩할 수 없습니다. utf-32* 디코더는 더는 서로게이트 코드 포인트에 해당하는 바이트 시퀀스를 디코딩하지 않습니다.
버전 3.8에서 변경: cp65001은 이제 utf_8의 별칭입니다.
버전 3.14에서 변경: Windows에서 이제 모든 코드 페이지에 대해 cpXXX 코덱을 사용할 수 있습니다.
파이썬 특정 인코딩¶
사전 정의된 많은 코덱이 파이썬에만 해당하여, 코덱 이름은 파이썬 외부에서 의미가 없습니다. 예상되는 입력과 출력형에 따라 아래 표에 나열되어 있습니다 (텍스트 인코딩은 코덱의 가장 일반적인 사용 사례이지만, 하부 코덱 인프라는 단지 텍스트 인코딩이 아닌 임의의 데이터 변환을 지원합니다). 비대칭 코덱의 경우, 언급된 의미는 인코딩 방향을 설명합니다.
텍스트 인코딩¶
다음 코덱은 유니코드 텍스트 인코딩과 유사하게, str에서 bytes로의 인코딩과 바이트열류 객체에서 str로의 디코딩을 제공합니다.
코덱 |
별칭 |
의미 |
|---|---|---|
idna |
RFC 3490을 구현합니다. |
|
mbcs |
ansi, dbcs |
윈도우 전용: ANSI 코드 페이지(CP_ACP)에 따라 피연산자를 인코딩합니다. |
oem |
윈도우 전용: OEM 코드 페이지(CP_OEMCP)에 따라 피연산자를 인코딩합니다. Added in version 3.6. |
|
palmos |
PalmOS 3.5의 인코딩. |
|
punycode |
RFC 3492를 구현합니다. 상태 있는 코덱은 지원되지 않습니다. 경고 디코딩 및 인코딩 알고리즘의 확장성이 좋지 않으므로 신뢰할 수 없는 입력의 길이를 제한하십시오. |
|
raw_unicode_escape |
다른 코드 포인트를 위해 |
|
undefined |
이 코덱은 테스트 목적으로만 사용해야 합니다. 모든 변환에 대해 예외를 발생시킵니다, 빈 문자열조차. 에러 처리기는 무시됩니다. |
|
unicode_escape |
따옴표가 이스케이프 되지 않는 것을 제외하고, ASCII로 인코딩된 파이썬 소스 코드에서 유니코드 리터럴 내용으로 적합한 인코딩. Latin-1 소스 코드에서 디코딩합니다. 파이썬 소스 코드는 실제로는 기본적으로 UTF-8을 사용합니다. |
버전 3.8에서 변경: “unicode_internal” 코덱이 제거되었습니다.
바이너리 변환¶
다음 코덱은 바이너리 변환을 제공합니다: 바이트열류 객체에서 bytes로의 매핑. (str 출력만 생성하는) bytes.decode()에서는 지원되지 않습니다.
코덱 |
별칭 |
의미 |
인코더 / 디코더 |
|---|---|---|---|
base64_codec [1] |
base64, base_64 |
피연산자를 여러 줄 MIME base64로 변환합니다 (결과에는 항상 후행 버전 3.4에서 변경: 인코딩과 디코딩을 위해 모든 바이트열류 객체를 입력으로 받아들입니다. |
|
bz2_codec |
bz2 |
bz2를 사용하여 피연산자를 압축합니다. |
|
hex_codec |
hex |
바이트 당 두 자리 숫자를 사용하여, 피연산자를 16진 표현으로 변환합니다. |
|
quopri_codec |
quopri, quotedprintable, quoted_printable |
피연산자를 MIME quoted printable로 변환합니다. |
|
uu_codec |
uu |
uuencode를 사용하여 피연산자를 변환합니다. |
|
zlib_codec |
zip, zlib |
gzip을 사용하여 피연산자를 압축합니다. |
Added in version 3.2: 바이너리 변환의 복원.
버전 3.4에서 변경: 바이너리 변환에 대한 별칭의 복원.
독립형 코덱 함수¶
다음 함수들은 코덱과 유사한 인코딩 및 디코딩 기능을 제공하지만, codecs.encode() 또는 codecs.decode() 를 통해 이름이 지정된 코덱으로 사용할 수는 없습니다. 이 함수들은 내부적으로(예: pickle) 사용되며 Python 3에서 제거된 string_escape 코덱과 유사하게 동작합니다.
텍스트 변환¶
다음 코덱은 텍스트 변환을 제공합니다: str에서 str로의 매핑. (bytes 출력만 생성하는) str.encode()에서는 지원되지 않습니다.
코덱 |
별칭 |
의미 |
|---|---|---|
rot_13 |
rot13 |
피연산자의 시저 암호(Caesar-cypher) 암호화를 반환합니다. |
Added in version 3.2: rot_13 텍스트 변환 복원.
버전 3.4에서 변경: rot13 별칭 복원.
encodings — 인코딩 패키지¶
이 모듈은 다음 함수들을 구현합니다:
- encodings.normalize_encoding(encoding)¶
encoding 인코딩 이름을 정규화합니다.
정규화는 다음과 같이 작동합니다. Python 패키지 이름에 사용되는 점(.)을 제외한 모든 비영문/비숫자 문자가 하나로 통합되고 단일 밑줄로 대체되며, 앞뒤의 밑줄은 제거됩니다. 예를 들어,
' -;#'은'_'이 됩니다.encoding 은 ASCII 문자로만 구성되어야 함에 유의하십시오.
참고
다음 함수들은 테스트 목적 외에는 직접 사용해서는 안 되며, 대신 codecs.lookup() 을 사용해야 합니다.
- encodings.search_function(encoding)¶
주어진 인코딩 이름 encoding 에 해당하는 코덱 모듈을 검색합니다.
이 함수는 먼저
normalize_encoding`을 사용하여 *encoding*을 정규화한 다음, 해당 별칭을 찾습니다. 그런 다음 별칭 또는 정규화된 이름을 사용하여 encodings 패키지에서 코덱 모듈을 가져오려고 시도합니다. 모듈을 찾고 유효한 ``getregentry()`()함수가 정의되어 있으며 이 함수가codecs.CodecInfo객체를 반환하는 경우, 해당 코덱이 캐시되고 반환됩니다.코덱 모듈이
getaliases()함수를 정의하는 경우, 반환되는 모든 별칭이 향후 사용을 위해 등록됩니다.
- encodings.win32_code_page_search_function(encoding)¶
cpXXXX형태의 Windows 코드 페이지 인코딩 encoding 을 검색합니다.해당 코드 페이지가 유효하고 지원되는 경우, 그에 대한
codecs.CodecInfo객체를 반환합니다.가용성: Windows.
Added in version 3.14.
이 모듈은 다음 예외를 정의합니다:
- exception encodings.CodecRegistryError¶
코덱이 유효하지 않거나 호환되지 않을 때 발생합니다.
encodings.idna — 응용 프로그램에서의 국제화된 도메인 이름¶
이 모듈은 RFC 3490(Internationalized Domain Names in Applications)과 RFC 3492(Nameprep: A Stringprep Profile for Internationalized Domain Names (IDN))를 구현합니다. punycode 인코딩과 stringprep을 기반으로 합니다.
RFC 5891 및 RFC 5895 의 IDNA 2008 표준이 필요한 경우, 서드파티인 idna 모듈을 사용하십시오.
이 RFC는 함께 도메인 이름에서 비 ASCII 문자를 지원하는 프로토콜을 정의합니다. 비 ASCII 문자(가령 www.Alliancefrançaise.nu)를 포함하는 도메인 이름은 ASCII 호환 인코딩(ACE, 가령 www.xn--alliancefranaise-npb.nu)으로 변환됩니다. 그런 다음 도메인 이름의 ACE 형식은 DNS 조회, HTTP Host 필드 등과 같이 프로토콜에 의해 임의의 문자가 허용되지 않는 모든 위치에서 사용됩니다. 이 변환은 응용 프로그램에서 수행됩니다; 가능하다면 사용자에게 보이지 않습니다: 응용 프로그램은 전송 시에 유니코드 도메인 레이블을 투명하게 IDNA로 변환하고, 사용자에게 표시하기 전에 ACE 레이블을 다시 유니코드로 변환해야 합니다.
파이썬은 여러 가지 방식으로 이 변환을 지원합니다: idna 코덱은 유니코드와 ACE 간의 변환을 수행하여, RFC 3490의 섹션 3.1에 정의된 구분 문자를 기반으로 입력 문자열을 레이블로 분리하고 필요에 따라 각 레이블을 ACE로 변환하고, 반대로 입력 바이트 문자열을 . 구분 기호를 기반으로 레이블로 분리하고 모든 ACE 레이블을 유니코드로 변환합니다. 또한, socket 모듈은 유니코드 호스트 이름을 투명하게 ACE로 변환하므로, 응용 프로그램이 호스트 이름을 소켓 모듈로 전달할 때 호스트 이름 자체를 변환할 필요가 없습니다. 이에 더해, http.client와 ftplib와 같은, 함수 매개 변수로 호스트 이름이 있는 모듈은 유니코드 호스트 이름을 받아들입니다 (http.client는 해당 필드를 전송한다면 Host 필드에 IDNA 호스트 이름을 투명하게 전송합니다).
회선에서 호스트 이름을 수신할 때 (가령 역 이름 조회(reverse name lookup)에서), 유니코드로 자동 변환되지 않습니다: 이러한 호스트 이름을 사용자에게 제시하려는 응용 프로그램은 유니코드로 디코딩해야 합니다.
encodings.idna 모듈은 국제 도메인 이름의 대소문자 구분 없는 처리와 유사한 문자의 통합을 위해 호스트 이름에 특정 정규화를 수행하는 nameprep 절차를 구현합니다. 원하는 경우 nameprep 함수를 직접 사용할 수 있습니다.
- encodings.idna.nameprep(label)¶
label의 nameprep 된 버전을 반환합니다. 구현은 현재 쿼리 문자열을 가정하므로,
AllowUnassigned는 참입니다.
encodings.mbcs — Windows ANSI 코드 페이지¶
이 모듈은 ANSI 코드 페이지(CP_ACP)를 구현합니다.
가용성: Windows.
버전 3.2에서 변경: 3.2 이전에는, errors 인자가 무시되었습니다; 인코딩에는 항상 'replace'가 사용되고, 디코딩에는 항상 'ignore'가 사용되었습니다.
버전 3.3에서 변경: 모든 에러 처리기를 지원합니다.
encodings.utf_8_sig — BOM 서명이 있는 UTF-8 코덱¶
이 모듈은 UTF-8 코덱의 변형을 구현합니다. 인코딩 시, UTF-8로 인코딩된 BOM을 UTF-8로 인코딩된 바이트열 앞에 붙입니다. 상태 있는 인코더의 경우 이 작업은 한 번만 수행됩니다 (바이트 스트림에 대한 첫 번째 쓰기 시). 디코딩 시, 데이터 시작에 있는 선택적 UTF-8 인코딩된 BOM을 건너뜁니다.