본문 바로가기

SW/Data Engineering (Spark)2

1.1. RDD(Resilient Distributed Dataset) RDD : 스파크가 사용하는 핵심 데이터 모델. 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소돌의 집합을 의미. 병렬 처리 가능, 장애가 발생할 경우에도 스스로 복구될 수 있는 내성. 스파크는 작업을 수행할 때 파티션(RDD를 구성하는 단위) 단위로 나눠서 병렬로 처리를 수행. 하나의 RDD가 이렇게 여러 파티션으로 나눠져 다수의 서버에서 처리되다 보니 작업 도중 일부 파티션에 장애가 발생해서 데이터가 유실될 수 있는데, 스파크는 손상된 RDD를 원래 상태로 다시 복원하기 위해 RDD의 생성 과정을 기록해 뒀다가 다시 복구해주는 기능을 가지고 있음. 단, 복구 수행을 위해서는 한번 생성된 RDD가 바뀌지 않아야 함. RDD는 스파크의 데이터 모델이면서 동시에 프로그래밍 API map, flatMa.. 2020. 12. 8.
1장. 스파크 소개 빅데이터 : 크기(Volume), 다양성(Variety), 속도(Velocity). 가변성(Variability), 정확성(Veracity), 복잡성(Complexity), 시인성(Visibility) ... 데이터 프로세스 : 수집 → 저장 및 처리 (CRUD, Create Read Update Delete) → 분석 및 가공 - 수집 : 카프카(Kafka) ... - 저장 및 처리 : 하둡(Hadoop), 스파크(Spark) ... - YARN : CPU와 메모리 등 컴퓨팅 자원 관리를 전담하는 리소스 관리 시스템 - HDFS(Hadoop File System)의 기초가 된 “The Google File System”(2003), Map Reduce(2004) - 맵리듀스 프레임워크 : 데이터 처리 .. 2020. 12. 8.