개요
Eightfold.ai의 Engineering Director Suresh가 고객 대면 분석(Customer-facing Analytics)과 AI 에이전트 구현 경험을 공유한 웨비나입니다. Eightfold는 AI 기반 인재 관리 플랫폼으로 Fortune 500 기업 중 200개 이상이 사용하고 있습니다. Redshift의 한계를 극복하고 StarRocks로 전환하여 2배의 성능 향상과 2배의 비용 절감을 달성한 사례를 소개합니다.
주요 내용
1. Eightfold.ai 소개
Eightfold는 인재 분야에 특화된 AI 회사로, LLM 이전부터 AI 기반 접근 방식으로 인재 문제를 해결해왔습니다. Talent acquisition management, Workforce planning 등의 제품을 제공하며, Microsoft, Morgan Stanley 등 대기업 채용 사이트 트래픽을 처리합니다.
2. 분석 시스템 아키텍처
데이터 구조는 Clickstream 이벤트의 Fact 테이블과 직원 프로필의 Dimension 테이블로 구성된 Star Schema 모델을 사용합니다. OLTP는 웹 애플리케이션 백엔드에 적합하고, OLAP는 집계 쿼리에 최적화되어 있습니다.
3. ETL 아키텍처 진화
1세대는 구조화된 데이터에서 ETL을 거쳐 Data Warehouse로 이동하는 방식이었습니다. 2세대는 모든 데이터를 Data Lake에 저장 후 ETL을 거치는 방식으로, 일관성 관리 문제가 있었습니다. 3세대인 Lake House는 Data Lake와 Data Warehouse를 통합하여 구조화/비구조화 쿼리를 모두 지원합니다.
4. Redshift의 한계와 StarRocks 선택
Redshift는 단일 Leader Node 병목, 파티셔닝 개념 부족, Concurrency Scaling 비용 문제, 서버리스 한계 등의 문제가 있었습니다. StarRocks는 확장 가능한 Front-End Nodes로 병목이 없고, 테넌트별 가상 파티셔닝을 지원하며, Redshift 대비 약 2배 성능 향상과 2배 비용 절감을 달성했습니다.
5. Agentic Analytics와 미래
AI 에이전트가 사용자 대신 쿼리를 수행하면서 더 많은 쿼리가 생성되고 높은 QPS가 필요해집니다. Conversational Analytics로 고정된 보고서 대신 자연어 질문-답변이 가능해지며, 권한 경계는 DB 내부보다 애플리케이션 레이어에 두는 것을 권장합니다. GPT 플랫폼으로 자연어 질문에 답변하고 다양한 형식으로 결과를 제공하는 미래가 예상됩니다.
핵심 포인트
Eightfold는 Redshift에서 StarRocks로 전환하여 확장성 있는 아키텍처, 효과적인 파티셔닝, 2배 성능 향상과 2배 비용 절감을 달성했습니다. AI 에이전트 시대에는 더 많은 쿼리가 생성되기 때문에 높은 QPS를 지원하는 OLAP 데이터베이스가 중요합니다. 새로 시작하는 팀은 QPS 요구사항 파악부터 시작하고, 기본 데이터 레이어를 견고하게 설계하는 것이 중요합니다.
Q&A
데이터는 S3에 기본 저장하고 EBS 볼륨에 10-20% 데이터를 캐싱합니다. 파티셔닝은 S3에 태블릿 단위로 데이터를 저장하고 테넌트 ID 기반 가상 파티셔닝을 사용합니다. Materialized Views는 파티션별 점진적 새로고침을 지원하며, Fact 테이블은 near real-time 유스케이스에 활용합니다.