Orange GRE
GPU based Real-time Rendering Engine

GRE 소개

  • GPU based Rendering Engine GPU" 데이터베이스를 기반으로 빅데이터를 실시간 시각화 할 수 있는 GeoBI Tool

적용사례

SKT 5G 무선품질 분석 POC 수행 한국전력, 예산/실적 분석 POC

구성도

DBMS 엔진요구사항 및 필요성

  • 실시간 대용량데이타 빅데이타 분석은 다음과 같은 사항이 요구됩니다.
01 데이터 적재 빠른 데이터 적재 필요함 (초당 5만건 적재 이상 성능)
02 데이터 검색 수억건 혹은 100 Tera급이상 데이터에 대한 빠른 검색, 데이터 집계 (Aggregation)
03 확장 클러스트 데이터 증가에 따른 수평 확장과 병렬처리 (Scalability)
04 사용 편의성 및 확장 용이성
  • 플랫폼기반 분석처리
  • 하둡생태계와 확장과 병행 연동 용이
  • 공간정보(GeoSpataial)연계처리
  • 시각화 및 BI(Map, Graph, Chart 등)
  • ML/AI
05 TCO
  • 전통적인 데이터 저장 및 방법으로는 많은 S/W 및 H/W 비용이 요구됨
  • 최대한 많은 데이터를 효율적으로 보관 및 검색할 수 있는 기술

기술소개 1.

CPU와 GPU 처리 차이점
  • 수천개의 프로세싱 Cores– NVIDIA 의 TESLA V100 모델은 5312 개의 Core수 제공
  • 메모리 Throughput – 900GB/s
  • NVIDIA의 CUDA FRAMEWORK를 통한 Parallel Processing

기술소개 2.

가장 빠른 하드웨어에 최적화 된 소프트웨어
100배 빠른 쿼리 + GEO-BI + Visualization

GPU DB Core

GPU로 구동되는 In-memory 컬럼 스토어 분석 RDBMS

GPU Service Platform

GPU Core의 속도 + 렌더링 기능을 활용하는 시각 분석 엔진

기술소개 3.

초고속의 SQL 쿼리
GPU의 코어를 병렬로 사용하는 GPU DB는 분석 SQL 쿼리에서 cpu db 솔루션 대비 74배 ~ 3500배 빠른 결과를 얻었습니다.
  • Query 1. SELECT cab_type, count() FROM trips GROUP BY cab_type;
  • Query 2. SELECT passenger_count, avg(total_amount) FROM trips GROUP BY passenger_count;
  • Query 3. SELECT passenger_count, extract(year from pickup_datetime) AS pickup_year, count() FROM trips GROUP BY passenger_count, pickup_year.
  • Query 4. SELECT passenger_count, extract(year from pickup_datetime) AS pickup_year, cast(trip_distance as int) AS distance, count(*) AS the_count FROM trips GROUP BY passenger,_count, pickup_year, distance ORDER BY pickup_year, the_count desc;
Query 1 Query 2 Query 3 Query 4 Setup
0.005 0.011 0.103 0.188 BrytlytDB 2.1 & 5-node IBM Minsky cluster
0.009 0.027 0.287 0.428 BrytlytDB 2.0 & 2-node p2.16xlarge cluster
0.021 0.053 0.165 0.51 OmniSci & 8 Nvidia Pascal Titan Xs
0.027 0.083 0.163 0.891 OmniSci & 8 Nvidia Tesla K80s
0.028 0.2 0.237 0.578 OmniSci & 4-node g2.8xlarge cluster
0.034 0.061 0.178 0.498 OmniSci & 2-node p2.8xl arge cluster
0.036 0.131 0.439 0.964 OmniSci & 4 Nvidia Titan Xs
0.051 0.146 0.047 0.794 kdb+/q & 4 Intel Xeon Phi 7210 CPUs
0.134 0.349 0.542 3.312 OmniSci & a 16" MacBook Pro
0.241 0.826 1.209 1.781 ClickHouse, 3 x c5d.9xlarge cluster
0.762 2.472 4.131 6.041 BrytlytDB 1.0 & 2-node p2.16xlarge cluster
1.034 3.058 5.354 12.748 ClickHouse, Intel Core i5 4670K
1.56 1.25 2.25 2.97 Redshift, 6-node ds2.8xlarge cluster
2 2 1 3 BigQuery
2.362 3.559 4.019 20.412 Spark 2.4 & 21 x m3.xlarge HDFS cluster
3.54 6.29 7.66 11.92 Presto 0.214 & 21 x m3.xlarge HDFS cluster
4 4 10 21 Presto, 50-node n1-standard-4 cluster
4.88 11 12 15 Presto 0.188 & 21-node m3.xlarge cluster
6.41 6.19 6.09 6.63 Amazon Athena
8.1 18.18 n/a n/a Elasticsearch (heavily tuned)
10.19 8.134 19.624 85.942 Spark 2.1, 11 x m3.xlarge HDFS cluster
11 10 21 31 Presto, 10-node n1-standard-4 cluster
11 14 16 22 Presto 0.188 & single i3.8xlarge w/ HDFS
14.389 32.148 33.448 67.312 Vertica, Intel Core i5 4670K
22 25 27 65 Spark 2.3.0 & single i3.8xlarge w/ HDFS
28 31 33 80 Spark 2.2.1 & 21-node m3.xlarge cluster
34.48 63.3 n/a n/a Elasticsearch (lightly tuned)
35 39 64 81 Presto, 5-node m3.xlarge HDFS cluster
43 45 27 44 Presto, 50-node m3.xlarge cluster w/ S3
152 175 235 368 PostgreSQL 9.5 & cstore_fdw
264 313 620 961 Spark 1.6, 5-node m3.xlarge cluster w/ S3
448 797 1811 3286 SQLite 3, Parquet & HDFS
1103 1198 2278 6446 Spark 2.2, 3-node Raspberry Pi cluster
31193 NR NR NR SQLite 3, Internal File Format
* 출처 : https://tech.marksblogg.com/benchmarks.html

GPU 기반 공간빅데이터 랜더링 엔진

  • GPU 데이터베이스를 사용하여 데이터 적재 쿼리 속도가 뛰어납니다.
  • GPU 서버 기반 랜더링을 사용하여 WMS를 지원하며, 데이터 표출 속도가 타 시스템에 대해 월등합니다. (1억건  1~2초)
  • 데이터 표현을 위한 Dashboard 용 솔루션으로 MAP(지도기반)과 다양한 Chart, Graph를 지원합니다. (Geo-BI)
Orange GRE(GPU based Rendering Engine)

Hadoop eco시스템과 연동 아키텍처

  • 기존 분석용 BigData 시스템과 결합하여 사용할 수 있습니다.
  • 빠른 분석이 필요한 데이터는 Orange mHopper를 이용해 Orange GRE에 적재한 후 Dashboard를 생성해 서비스합니다.
  • 빠른 분석이 필요한 필수 데이터만 Orange GRE를 이용 함으로써, GPU 자원을 절약할 수 있습니다.

당사 mHopper와 임베디드 통합서비스

  • Orange mHopper는 ETL&Workflow 기반 대용량 공간빅데이터 플랫폼입니다.
  • mHopper를 이용해 생성한 데이터를 Orange GRE를 통해 시각화 할 수 있습니다.
  • Orange GRE를 통해 생성된 Dashboard 를 Publish하여 사용자 웹 페이지를 통해 서비스 할 수 있습니다.