XML 처리 모듈¶
소스 코드: Lib/xml/
XML 처리를 위한 파이썬의 인터페이스는 xml 패키지로 묶여있습니다.
참고
신뢰할 수 없거나 인증되지 않은 데이터를 구문 분석해야 하는 경우 XML 보안 를 참조하십시오.
xml 패키지의 모듈들은 최소 하나 이상의 SAX 호환 XML 구문 분석기가 필요하다는 점에 유의하십시오. Expat 구문 분석기가 파이썬에 포함되어 있으므로, xml.parsers.expat 모듈은 항상 사용할 수 있습니다.
xml.dom 과 xml.sax 패키지에 대한 설명서는 DOM과 SAX 인터페이스에 대한 파이썬 바인딩의 정의입니다.
XML 처리 서브 모듈은 다음과 같습니다:
xml.etree.ElementTree: ElementTree API, 간단하고 가벼운 XML 프로세서
xml.dom: DOM API 정의xml.dom.minidom: 최소 DOM 구현xml.dom.pulldom: 부분 DOM 트리 구축 지원
xml.sax: SAX2 베이스 클래스와 편리 함수xml.parsers.expat: Expat 구문 분석기 바인딩
이 모듈은 유틸리티 함수도 정의합니다.
- xml.is_valid_name(name)¶
문자열이 유효한 요소 또는 속성 이름이면
True를, 그렇지 않으면False를 반환합니다.제어 문자나 구분자로 사용될 수 있는 문자를 제외하면 거의 모든 문자가 이름에 허용됩니다. “:”, “-”, “.”, “_”, “·”와 같은 문자는 허용되지만, “<”, “/”, “!”, “?”, “=”는 금지됩니다. 이름은 숫자나 “-”, “.”, “·”와 같은 문자로 시작할 수 없습니다.
Added in version 3.15.
- xml.is_valid_text(data)¶
문자열이 유효한 XML 1.0 문자 시퀀스이면
True를, 그렇지 않으면False를 반환합니다.C0 제어 문자(TAB, CR, LF 제외), 대리(surrogate) 문자, 그리고 특수 유니코드 문자 U+FFFE 및 U+FFFF를 제외한 거의 모든 문자가 XML 1.0 문서에서 허용됩니다.
Added in version 3.15.
XML 보안¶
공격자가 제어하는 XML이 파이썬 또는 다른 환경에서 구문 분석될 때, 공격자는 XML 기능을 악용하여 서비스 거부(DoS) 공격을 수행하거나, 로컬 파일에 접근하거나, 다른 머신으로의 네트워크 연결을 생성하거나, 방화벽을 우회할 수 있습니다.
파이썬의 내장 XML 구문 분석기는 XML 파싱을 위해 흔히 Expat이라 불리는 libexpat 라이브러리에 의존합니다.
기본적으로 Expat 자체는 로컬 파일에 접근하거나 네트워크 연결을 생성하지 않습니다.
Expat versions lower than 2.7.2 may be vulnerable to the “billion laughs”,
“quadratic blowup” and “large tokens” vulnerabilities, or to disproportional
use of dynamic memory.
Python bundles a copy of Expat, and whether Python uses the bundled or a
system-wide Expat, depends on how the Python interpreter
has been configured in your environment.
Python may be vulnerable if it uses such older versions of Expat.
Check pyexpat.EXPAT_VERSION.
xmlrpc 는 “decompression bomb” 공격에 취약합니다.
- billion laughs(억만 웃음) / exponential entity expansion(지수적 엔티티 확장)
지수적 엔티티 확장으로도 알려진, Billion Laughs 공격은 여러 수준의 중첩된 엔티티를 사용합니다. 각 엔티티는 다른 엔티티를 여러 번 참조하며, 최종 엔티티 정의에는 작은 문자열이 포함됩니다. 지수적인 확장으로 수 기가바이트의 텍스트가 생성되고 많은 메모리와 CPU 시간이 소모됩니다.
- quadratic blowup entity expansion(이차 폭발 엔티티 확장)
이차 폭발 공격은 Billion Laughs 공격과 유사합니다; 이 역시 엔티티 확장을 남용합니다. 중첩된 엔티티 대신 2천 개 이상의 문자를 갖는 커다란 엔티티 하나를 계속 반복합니다. 공격은 지수적인 경우만큼 효율적이지 않지만 깊이 중첩된 엔티티를 금지하는 구문 분석기 대응책을 우회합니다.
- decompression bomb(압축해제 폭탄)
압축 해제 폭탄(일명 ZIP bomb)은 gzip 압축된 HTTP 스트림이나 LZMA 압축 파일과 같은, 압축된 XML 스트림을 구문 분석할 수 있는 모든 XML 라이브러리에 적용됩니다. 공격자는 전송된 데이터의 양을 3배 이상 줄일 수 있습니다.
- large tokens(대형 토큰)
Expat은 완료되지 않은 토큰을 재파싱해야 합니다. Expat 2.6.0에서 도입된 보호 조치가 없으면, 이는 실행 시간이 기하급수적으로 늘어나는 문제로 이어져 XML을 파싱하는 애플리케이션에 서비스 거부(DoS)를 유발할 수 있습니다. 이 문제는 CVE 2023-52425 로 알려져 있습니다.