01 - What is StarRocks(from Offical Docs)

카테고리

StarRocks-Study0기StarRocks Education

생성자

Untitled

1. 데이터 플랫폼의 진화

StarRocks의 포지셔닝과 특징을 이해하기 위한 배경으로, 먼저 데이터 플랫폼의 발전에 대해 이야기해 보겠습니다.

1.1 데이터 웨어하우스 (Data Warehouse)

데이터 웨어하우스는 다양한 소스의 데이터를 단일 중앙 집중식 일관된 데이터 저장소로 집계하는 시스템입니다.

주요 특징:

목적: 기업 리포팅, 데이터 분석, 데이터 마이닝, 인공지능 및 머신러닝 지원
본질: 데이터 가치 발굴과 기업 의사결정 지원을 위한 데이터 집합
구현 형태:

Oracle/MySQL 등 관계형 데이터베이스
Hadoop/Hive 등 오프라인 데이터 웨어하우스
StarRocks, ClickHouse, Druid 등 오픈소스 OLAP 데이터베이스 (실시간 데이터 웨어하우스)

1.2 ETL – Extract, Transform, Load

데이터 처리에서 ETL은 Extract(추출), Transform(변환), Load(적재)의 약자입니다. 이는 여러 소스의 데이터를 통합, 정제하여 분석을 위해 중앙 집중식 데이터베이스나 데이터 웨어하우스로 적재하는 일반적인 접근 방식입니다.

1. Extract (추출)

ETL 프로세스의 첫 번째 단계는 다양한 소스 시스템에서 데이터를 추출하는 것입니다. 이러한 소스에는 관계형 데이터베이스, CSV 같은 일반 파일, 웹 API, 클라우드 스토리지 등이 포함될 수 있습니다.

2. Transform (변환)

추출된 데이터를 사용 가능한 형식으로 변환하는 단계입니다:

데이터 정제: 유효하지 않거나, 불완전하거나, 중복된 데이터를 제거하거나 수정
데이터 형식화: 데이터 유형, 단위 또는 시간대를 표준화
데이터 보강: 새로운 계산된 컬럼을 추가하거나 다른 소스의 데이터를 통합
데이터 유효성 검사: 데이터의 품질과 일관성을 보장

3. Load (적재)

변환된 데이터를 대상 데이터 웨어하우스나 데이터베이스에 적재하는 마지막 단계입니다. 사용 사례에 따라 데이터는 실시간(스트리밍) 또는 일괄적으로(일별, 주별) 적재될 수 있습니다.

1.3 데이터 레이크 (Data Lake)

데이터 레이크는 원시 형태로 대량의 데이터를 수집하고 저장하는 중앙 집중식 데이터 저장소입니다.

수용 가능한 데이터 유형:

구조화 데이터: 데이터베이스 테이블, Excel 시트
반구조화 데이터: XML 파일, JSON, 웹페이지
비구조화 데이터: 이미지, 오디오 파일, 트윗

활용 분야:

머신러닝
AI 학습
리포트 분석

1.4 데이터 웨어하우스 vs 데이터 레이크 비교

구분	데이터 웨어하우스	데이터 레이크
데이터 형식	특정 형식, 특정 최적화 가능	범용 형식, 더 많은 엔진과 호환
스키마	Schema on Write (쓰기 시점 스키마)	Schema on Read (읽기 시점 스키마)
저장 비용	높음 (로컬 디스크 SSD 등)	낮음 (S3 등)
장점 시나리오	스트림 쓰기, BI 시각화 분석, 더 나은 성능	배치 처리, 머신러닝 결합, AI 학습, 더 개방적인 생태계

참고

- Schema on Write: "쓰기시 스키마"로 데이터를 쓸때 스키마 적용

- Schema on Read: "읽기시 스키마"로 데이터를 읽을때 스키마 적용

1.5 데이터 플랫폼 발전 4단계

구분	1세대: 관계형 DB	2세대: MPP DW	3세대: Hadoop	4세대: 레이크하우스
대표 제품	Oracle, DB2	Teradata, Greenplum, Vertica	Hadoop 생태계	StarRocks
적용 사례	단순 레포트	레포트, BI, 시각화	실시간 분석, 탐색적 셀프서비스 분석	레이크하우스 통합 분석, 지능형 의사결정
데이터 형태	정형	정형	정형, 반정형	정형, 반정형, 비정형
데이터 크기	GB	GB, TB	TB, PB	TB, PB
리소스 아키텍처	특수 하드웨어, 공유 스토리지	X86 범용 서버, MPP 무공유 아키텍처	범용 서버, 분산 처리	클라우드 네이티브, 스토리지-컴퓨팅 분리
모델링 방법론	3NF	스타 스키마, 킴볼 차원 모델링	제약 없음	오픈 파일 포맷과 오픈 테이블 포맷

참고

- MPP: Massively Parallel Processing, 대규모 병렬처리

- 3NF: Normal Form, 데이터베이스 설계시의 정규화에서 제3정규화

1.6 Hadoop 아키텍처의 비즈니스 과제

Hadoop 대표 데이터 플랫폼은 MPP 데이터 웨어하우스의 구조화 데이터 처리 능력을 대체하기 어려워, 기업 내부에 MPP + Hadoop 데이터 시스템 아키텍처가 형성되었습니다.

주요 문제점:

중복성: 데이터 중복, 대량의 데이터 동기화 작업 필요
복잡성: 아키텍처가 복잡하고 운영 유지보수가 어려움, 비즈니스 구현 경로가 너무 긺
비실시간성: 성능 병목 현상, 실시간성 보장 불가

개발자의 선택지:

A안: Hadoop 기반 OLAP 분석 가속화 (레이크 위 데이터 웨어하우스 구축)
B안: 저비용 경량화 빅데이터 플랫폼 솔루션 구축 (레이크하우스 통합)

2. StarRocks 소개

StarRocks Logo

2.1 StarRocks란?

StarRocks는 Linux Foundation 산하의 초고속 통합 클라우드 네이티브 레이크하우스로, Apache 2.0 라이선스를 채택하고 있습니다. 2024년 12월 기준, 깃허브에서 9.4천 개의 스타(Star)를 얻었고 전 세계 400명 이상의 기여자가 참여했습니다.

StarRocks의 3가지 역할:

분석용 데이터베이스: Amazon S3, Azure Data Lake, GCS, MinIO, JDBC, Elasticsearch 등 다양한 데이터 소스와 연동
실시간 분석 엔진: Kafka, Apache Flink, Debezium, RedPanda 등 메시지 스트림과 연동
레이크하우스 엔진: Hudi, Delta Lake, Iceberg, Hive 등 오픈 테이블 포맷 지원

핵심 기술:

벡터화 (Vectorization): SIMD 명령어를 활용한 고속 데이터 처리
MPP 아키텍처: 대규모 병렬 처리
CBO (Cost-Based Optimizer): 비용 기반 쿼리 최적화
지능형 물리화 뷰 (Intelligent Materialized View): 자동 쿼리 가속
실시간 업데이트 가능한 컬럼형 스토리지 엔진

주요 기능:

다차원, 실시간, 고동시성 데이터 분석 실현
다양한 실시간 및 오프라인 데이터 소스로부터 효율적인 데이터 가져오기
데이터 레이크의 다양한 형식 데이터 직접 분석
MySQL 프로토콜 호환, MySQL 클라이언트 및 일반 BI 도구 연동
수평 확장, 고가용성, 높은 신뢰성, 쉬운 운영 유지보수

2.2 StarRocks vs OLTP

구분	Oracle / SQL Server (OLTP)	StarRocks (OLAP)
카테고리	트랜잭션 프로세싱 (OLTP)	분석 쿼리 (OLAP)
목적	비즈니스 트랜잭션 기록	사업 성과 분석
접근 패턴	빠르고 빈번한 쓰기	적은 쓰기와 많은 읽기
데이터 저장	행 기반	열 기반
트랜잭션 지원	중요함	덜 중요함
쿼리 패턴	CRUD 작업	집계 조회
처리량	트랜잭션에 집중, 적은 볼륨	큰 볼륨의 데이터 분석

2.3 StarRocks의 역사

시점	이벤트
2020.05	StarRocks 프로젝트 시작 (Apache Doris 0.13 기반, 컬럼 스토리지, 완전 벡터화 실행 엔진)
2021.09	오픈소스 공개 (Primary Key 테이블, 외부 테이블 쓰기 기능)
2022.02	주요 VC 투자 유치, CelerData 출범
2022.08	Linux Foundation 합류
2023.02	StarRocks 3.0 출시 (Shared-data 클러스터, ARM 최적화, DataLake Analytics Cache 개선)

버전별 진화:

1.0 버전 - '최고의 속도'에 집중

벡터화된 실행 엔진, CBO 옵티마이저, 런타임 필터 등 핵심 기술 활용
단일 테이블 쿼리 및 다중 테이블 조인 쿼리에서 유사 제품 대비 3~5배 빠른 성능 달성

2.0 버전 - '통합'을 목표로

완전 자체 개발된 Primary Key 모델로 실시간 분석 역량 강화
Pipeline 및 Query Cache 지원으로 고동시성 시나리오 쿼리 성능 향상
External Catalog를 통해 다양한 레이크 포맷 및 엔진과 연동
Resource Group 기능으로 자원 격리(Resource Isolation) 구현

3.0 버전 - OLAP에서 레이크하우스로의 진화

스토리지-컴퓨팅 분리 아키텍처로 스토리지 비용 절감 및 컴퓨팅 리소스 유연한 관리
메모리 집약적 연산자의 중간 결과를 디스크 스필링으로 컴퓨팅 유연성 향상
Multi-warehouse 및 크로스 클러스터 동기화 지원
레이크하우스 통합 간소화

2.4 StarRocks와 CelerData

CelerData는 StarRocks의 창립자가 설립한 기업으로:

주요 벤처캐피탈(VC)의 투자 유치
StarRocks를 클라우드 및 엔터프라이즈 환경에 맞게 준비
StarRocks 커뮤니티를 주도

CelerData 제품 구성:

CelerData Cloud: Managed cloud services, Native cloud integration, Cloud Resource management
CelerData Enterprise: Auto deployment, Operational dashboards, Enterprise security
Ecosystem: Certified BI connectors, Ecosystem partnership, Cloud marketplaces
Services: 24x7 technical support, Educational services, Implementation assist

3. StarRocks 주요 기능 및 장점

3.1 주요 기능

매우 빠른 쿼리

OLAP/Ad-hoc 분석
1초 미만(sub-second)의 쿼리 지연 시간
Flat table 또는 다중 테이블 조인 지원
수십억 행 규모 데이터 쿼리 가능

실시간 인사이트

초단위 수준의 최신 데이터 유지
고속 데이터 적재
실시간 업데이트 및 삭제 지원

모두를 위한 분석

수천 명의 동시 접속 사용자 지원
10,000 QPS 가능

레이크하우스 분석

데이터 레이크에서도 DWH 수준의 성능
일반적인 테이블 포맷(Hive, Iceberg, Delta 등) 지원
캐싱 및 물리화 뷰(Materialized Views) 활용으로 고속 접근

3.2 제품 장점

1. 데이터 비중복

Catalog 기능으로 전통적인 데이터 웨어하우스 아키텍처의 복잡한 ETL 작업 및 데이터 이동 중복 저장 문제 해결

Catalog 종류:

Internal catalog: StarRocks에 저장된 데이터
Data lake catalog: 외부 시스템에 저장된 데이터 (Hive, Iceberg, Hudi 등)
JDBC catalog: 관계형 데이터베이스 연결
Elasticsearch catalog: Elasticsearch 데이터 연결

→ 데이터를 복사하지 않고 직접 쿼리 가능!

2. 유연하고 사용하기 쉬움

물리화 뷰(Materialized View) 기능:

데이터 가공 간소화, 외부 컴포넌트 유지 관리 불필요
데이터 간 종속성 자동 관리, 파티션 단위 새로고침
MV 쿼리 자동 다시 쓰기로 투명한 가속화
Aggregate, Join, Union 등 쿼리 지원
외부 Catalog 기반 물리화 뷰 생성, 복잡한 ETL 데이터 준비 작업 제거

3. 스토리지-컴퓨트 분리

스토리지 비용: 전체 80% 감소
스토리지 신뢰성: 11개 9's (99.999999999%)
여러 애플리케이션이 동일한 데이터 공유
데이터 애플리케이션 간 물리적 격리, 리소스 경합 없음
각 데이터 애플리케이션 클러스터에서 온디맨드 탄력적 확장
초 단위 탄력성 실현

Warehouse 분리 예시:

Warehouse 1: 데이터 로딩
Warehouse 2: 애드혹 쿼리
Warehouse 3: BI 리포트

4. 다양한 모델

스타 모델, 스노우플레이크 모델, 와이드 테이블 모델 지원
고동시성 포인트 쿼리 지원
다양한 비즈니스에서 서로 다른 OLAP 분석 제품을 사용하는 문제 해결

5. 극한의 성능

쿼리 빠름, 가져오기 빠름, 업데이트 빠름
금융 리스크 관리, 라이브 고객 선별 등 실시간 시나리오의 즉시 분석 문제 해결

6. 완벽한 생태계

상하위 빅데이터 생태계 도구와 완벽한 호환
전통적인 아키텍처의 배포 어려움, 개발 어려움, 운영 유지보수 더욱 어려운 문제 해결

4. StarRocks 레이크하우스 아키텍처

4.1 Shared-Nothing Architecture

StarRocks Architecture

StarRocks의 아키텍처는 Frontend(FE)와 Backend(BE) 두 개의 주요 모듈로 구성됩니다. FE와 BE의 수평적 확장과 메타데이터 및 데이터 복제를 통해 단일 장애점을 제거합니다.

4.2 Shared-Data Architecture (3.0+)

StarRocks Shared-Data Architecture

StarRocks 3.0부터 지원되는 Shared-data 아키텍처는 더 나은 확장성과 낮은 비용을 제공합니다.

4.3 StarRocks Lakehouse 개요

StarRocks는 전체 데이터 처리 흐름에서 통합 컴퓨팅 및 스토리지 엔진으로 작동합니다:

StarRocks는 실시간/배치 데이터 수집 및 federated 분석을 지원합니다.
BI 리포트, 지표 대시보드, 임시(Ad-hoc) 분석 등 다양한 데이터 애플리케이션을 지원합니다.
데이터를 StarRocks에 직접 적재하고, 처리 후 데이터 레이크(Iceberg, Hive 등)에 다시 쓸 수 있습니다.
데이터를 레이크에 적재한 뒤, 데이터 마이그레이션 없이 StarRocks를 이용해 레이크의 데이터를 쿼리할 수 있습니다.
쿼리 성능이 기대에 미치지 못한다면, external materialized view를 생성하여 데이터를 StarRocks로 적재할 수 있습니다.

4.2 데이터 입출력

데이터 입력 (Input):

실시간 수집 (Real-time Ingestion): Kafka, Flink
배치 수집 (Batch Ingestion): Amazon S3, Hadoop, Spark

데이터 출력 (Output):

대시보드 (Dashboards)
BI 리포트 (BI Reports)
애드혹 쿼리 (Ad-hoc Queries)
연합 분석 (Federated Analytics)
데이터 앱 (Data Apps)

5. 성능 벤치마크

StarRocks는 업계 최고 수준의 쿼리 성능을 자랑하며, 벤치마크 테스트에서 항상 상위권에 자리하고 있습니다.

5.1 SSB Flat Table 벤치마크 (100GB)

StarRocks vs ClickHouse vs Apache Druid - SSB Benchmark

출처: StarRocks Official Benchmark

5.2 StarRocks vs Trino (TPC-DS 1TB)

StarRocks vs Trino - TPC-DS Benchmark

출처: StarRocks Official Benchmark

5.3 성능 지표 요약

성능 지표:

쿼리 속도: 다른 제품 대비 3-5배 빠름
처리 능력: 단일 노드 초당 최대 100억 행 데이터 처리
쓰기 속도: 단일 노드 100MB/초 지원
동시성: 일부 시나리오에서 초당 10,000+ QPS 지원
응답 시간: TP99 1초 이내 제어 가능

ClickBench 벤치마크: 단일 테이블 쿼리 시나리오에서 업계에서 단일 테이블 성능으로 잘 알려진 ClickHouse와 동등한 수준의 성능을 보여줍니다.

SSB, TPCH, TPCDS 테스트 데이터셋 및 주요 고객들의 자체 테스트에서도, StarRocks는 유사 제품 대비 3~5배의 성능 우위를 보여줍니다.

6. 생태계 연동

6.1 데이터 입출력 & 연동

클라우드 스토리지:

AWS S3, GCS, Azure Storage, Tencent Cloud

데이터 레이크:

Hive, Iceberg, Hudi, Paimon, Delta Lake, Elasticsearch

실시간 스트림:

Kafka, Flink Connector, Spark Connector, DBT, Pulsar, DataX, AutoMQ

6.2 분석 & 시각화

BI 도구:

Tableau, FineBI, Superset, QuickBI, QueryBook, Hex, Metabase

개발 환경:

DataGrip, DBeaver, Jupyter, Dataphin

확장 함수:

Hive Bitmap UDF, Java UDF

6.3 운영 & 거버넌스

오케스트레이션:

Kubernetes, Helm, Stargo

모니터링:

DataDog, Grafana, Prometheus

보안 & 권한:

Apache Ranger, Kerberos

클라우드:

AWS, Azure, Google Cloud, Alibaba Cloud

7. StarRocks 활용 사례

7.1 일반적인 비즈니스 시나리오

영역	사용 사례	산업별 예시
소매 / 전자상거래	사용자 프로필 분석, 타겟 마케팅	재고 추적, 판매 분석, 수요 예측
스마트 제조 / IoT	제조 품질 관리, 예측 유지보수	IoT 모니터링, 품질 추적, 주문 예측
금융 서비스	리스크 분석 및 관리, 사기 탐지	리스크 관리, 성과 관리, 사용자 프로필
여행 / 숙박	가격 최적화, 고객 여정 분석	궤적 추적, 행동 예측
게임 / 엔터테인먼트	시청률 분석, 인게임 업셀링	거래 분석, 전환율 예측
마케팅 기술	키워드 분석, 페이지 순위 및 콘텐츠 생성	A/B 테스트, 프로모션 효과 측정
암호화폐 / Web3	체인 분석/추적, 규제 모니터링	-
유틸리티/공공	비용 분석, 사고 대응	스마트 정부

7.2 Trusted by Enterprises Worldwide

400개 이상의 업계 대기업 고객이 StarRocks를 신뢰하고 선택하고 있습니다:

Hospitality: Airbnb, Expedia, Trip.com, DiDi
Social / Marketing: Pinterest, NAVER, Conductor, Demandbase
Software: Microsoft, Celonis, Atlassian, Weave
Web3: Coinbase, Binance, OKX, Nuant, TRM
Retail / E-Commerce: Shopee, Watsons, SHEIN, Fanatics, JD.COM
Gaming: EA Games, Tencent, FunPlus, InnoGames, miHoYo

8. 요약

StarRocks: 극속 통합 클라우드 네이티브 레이크하우스

StarRocks는 미래 지향적인 극속 통합 클라우드 네이티브 레이크하우스 솔루션으로, 기업이 하나의 통합 아키텍처로 다양한 데이터 분석 시나리오의 요구사항을 충족할 수 있게 합니다.

01. 새로운 비즈니스 인사이트 속도

빠른 속도의 임의 차원 OLAP 분석 및 애드혹 쿼리
새로운 벡터화 실행 엔진, 서브초 쿼리 지연
단일 노드 초당 최대 100억 행 데이터 처리
종합 쿼리 속도 다른 제품 대비 3-5배 빠름

02. 탁월한 비즈니스 인사이트 실시간성

데이터 초 단위 실시간 업데이트 가시화
단일 노드 100MB/초 쓰기 속도 지원

03. 더 많은 인원의 비즈니스 분석 지원

수천 명의 사용자 동시 분석 지원
높은 동시성 지원, 일부 시나리오에서 초당 10,000 이상 QPS
TP99 1초 이내 제어 가능

04. 유연한 구축, 빠른 비즈니스 변화 대응

스노우플레이크, 스타, 와이드 테이블 모델 모두 빠른 분석 실현
유연한 모델링, 배포 주기 주 단위에서 시간 또는 분 단위로 단축
투명한 가속화, 데이터 엔지니어 작업 효율 최대 10배 향상

9. 연습 문제

9.1 단항 선택

문제 1

Q: StarRocks 3.0+ 버전의 아키텍처 포지셔닝은?

A. MPP 데이터베이스
B. Hadoop 쿼리를 가속화하는 MPP+Hadoop 레이크 위 데이터 웨어하우스 아키텍처
C. 극속 통합 클라우드 네이티브 레이크하우스 ✓
D. OLAP+OLTP를 갖춘 HTAP 데이터베이스

문제 2

Q: StarRocks가 기존 MPP 솔루션 대비 Join 작업 실행 시 보여주는 성능 향상은?

A. 1-2배
B. 3-5배 ✓
C. 향상 없음
D. 성능 저하

문제 3

Q: StarRocks의 데이터 분석 및 리포팅 출력 레이어는 어떤 BI 도구와 통합 가능한가?

A. FineBI
B. Tableau
C. Power BI
D. 위 모두 가능 ✓

9.2 다항 선택

문제 1

Q: StarRocks가 제공할 수 있는 데이터 분석 기능 유형은?

✓ A. Ad-hoc 쿼리
✓ B. 배치 처리 분석
✓ C. 스트림 처리 분석
✓ D. 사용자 프로필 분석

문제 2

Q: StarRocks가 효율적인 데이터 쿼리 구현 시 사용하는 기술은?

✓ A. 벡터화 실행 엔진
B. 공간 데이터 인덱스
✓ C. CBO 최적화기
✓ D. 컬럼형 스토리지

문제 3

Q: StarRocks를 클러스터 기존 아키텍처와 통합 시 지원되는 시스템 또는 도구는?

✓ A. Kafka
✓ B. Flink
✓ C. MySQL
✓ D. Hadoop 생태계