CherryScript는 데이터 기반 워크플로우 최적화를 위한 커스텀 DSL로, Python 기반 인터프리터로 구현됐다. 일반 Python 인터프리터의 메모리 병목과 AST 트리워킹 성능 문제를 극복하기 위해 스트리밍 렉서, 바이트코드 컴파일, 불변 상태 관리의 세 가지 최적화 전략을 채택했다.
핵심 포인트- Python generator 패턴(yield)을 활용한 스트리밍 지연 렉서로, 전체 소스 파일을 메모리에 로딩하는 기존 렉서의 메모리 병목을 해소했다
- AST 트리 워킹 방식 대신 플랫 바이트코드 배열(flattened bytecode)로 전환해 O(1) 룩업 시간을 달성했다
- layered dictionary 기반 스코프 심볼 테이블로 스코프 격리를 구현하면서 기본적으로 불변성을 유지한다
- 세 가지 최적화(렉서/컴파일러/실행기)가 데이터 파이프라인 워크플로우의 성능 병목을 각 단계에서 독립적으로 해소한다
상세 정리- 배경: 데이터 기반 워크플로우에서 Python 일반 인터프리터의 메모리 사용과 AST 트리워킹 실행 병목이 문제로 대두됨
- 렉서 설계: 전통 렉서는 전체 소스 파일을 메모리에 올린 뒤 처리, CherryScript 렉서는 Python yield 기반 스트리밍으로 필요한 시점에 지연 평가
- 컴파일러 변환: AST를 재귀적으로 순회하는 방식에서 선형 명령어 배열(flat bytecode array)로 전환, 인덱스 기반 O(1) 랜덤 접근 달성
- 상태 관리: 기본적으로 불변성 유지 원칙, layered dictionary system으로 스코프별 심볼 테이블을 계층적으로 중첩 관리
- 메모리 격리: 변경 가능한 깊은 복사(deep copy) 대신 격리된 불변 청크로 메모리 오버헤드 감소
- 최적화 패턴 정리: 실행(AST 트리워킹 → 플랫 바이트코드) + 렉서(전체 파일 로딩 → 스트리밍 지연 평가) + 메모리(변경 가능 깊은 복사 → 격리된 불변 청크)
왜 읽나Python으로 DSL이나 커스텀 인터프리터를 구현하려는 엔지니어에게 렉서/컴파일러/실행기 각 단계의 최적화 패턴과 실제 설계 결정을 보여준다.