개요
StarRocks 4.0이 출시되었으며, TPC-DS 벤치마크에서 3.3 버전 대비 1.6배 빠른 성능을 달성했습니다. Linux Foundation 오픈 소스 프로젝트로서 실시간 데이터 웨어하우스 및 OLAP 워크로드를 지원하며, 10초 단위의 데이터 프레시니스로 실시간 멀티 데이터 처리가 가능합니다.
주요 내용
1. 성능 최적화
조인 오퍼레이터(해시 조인, 머지 조인) 최적화로 복잡한 멀티 테이블 쿼리 성능이 향상되었습니다. 집계 기능(CountDistinct, GroupBy)의 CPU 사용량이 감소했으며, 새로운 Partition-Wise Spill 메커니즘으로 메모리 부족 시에도 쿼리 실행이 가능합니다.
2. JSON 처리 개선
FlatJSON v2 엔진 도입으로 기존 대비 3-15배 빠른 JSON 쿼리 처리가 가능합니다. Dictionary Encoding, Zonemap, Sort Key Indexing으로 JSON 데이터 처리가 최적화되었으며, 지연 디코딩 기법을 통해 필요한 필드만 선택적으로 처리하여 I/O와 메모리 사용이 감소합니다.
3. Apache Iceberg 통합
Iceberg 테이블 처리 성능이 최적화되고 작은 파일 문제가 해결되었습니다. 파티션 셔플 기능으로 파일 수가 감소하고 최적 크기의 파일이 생성됩니다. 파일 내 로컬 소팅 지원으로 쿼리 성능이 향상되었으며, Compaction API를 통한 Iceberg 테이블 최적화를 지원합니다.
4. 보안 및 접근 제어
카탈로그 레이어를 통한 인증이 강화되었습니다. JWT 토큰 기반 세션 처리로 보안성이 향상되었으며, Apache Ranger 등 외부 권한 관리 시스템과 통합이 가능합니다.
5. 스토리지 최적화
S3 실시간 분석 성능 및 비용 효율성이 개선되었습니다. File Bundling으로 작은 파일 문제가 해소되고, 메타데이터 캐싱으로 API 호출이 감소합니다. 더 스마트한 컴팩션 기능으로 데이터 정밀도가 유지됩니다.
6. 추가 기능
Decimal256 타입 지원으로 금융 워크로드 정밀도가 향상되었습니다. 멀티 스테이트먼트 트랜잭션, ASOF 조인 지원으로 시간적 데이터와 시퀀스 ID 데이터 처리가 개선되었으며, 노드 블랙리스팅 및 대소문자 구분 없는 식별자를 지원합니다.
핵심 포인트
StarRocks 4.0은 성능, JSON 처리, Lakehouse 통합, 보안 측면에서 대폭 개선되었습니다. 특히 TPC-DS 벤치마크에서 1.6배 성능 향상과 JSON 쿼리 3-15배 속도 개선이 주목할 만합니다. S3 API 호출 70-90% 감소로 비용 효율성도 크게 향상되었습니다.
향후 로드맵 (4.X)
실시간 레이크하우스 기능 강화, 자동 테이블 개발 및 튜닝, 오픈 테이블 포맷 지원 확대가 예정되어 있습니다. 인크리멘털/비동기 머티리얼라이즈드 뷰, AI 인터그레이션 강화(AI 기반 옵티마이저, SQL BI 에이전트), 벡터 데이터베이스 기능 확장(ANN 지원), 멀티 웨어하우스 지원으로 워크로드 격리 개선이 계획되어 있습니다.