data 5

Spark Application 패키지 작성하기 (3) - 데이터 처리 로직 작성

기본적인 Scala 개발환경이 구축되고 나면 목표로 했던 Spark Application을 작성한다. 앞서 테스트에 사용한 Spark Application은 main 함수에 기능을 구현한 단순한 예제 프로그램이다. 기존에 Hadoop 기반의 Spark 클러스터를 구축했으므로, Spark Application은 해당 환경에서 실행할 수 있는 형태로 작성해야 한다. 따라서 Spark Application 작성을 위한 기본 형태 (Skeleton) 제공을 위한 예제 프로그램을 재작성한다. 참고로 예전에 실무에서 활용했던 Spark Application 코드에서 재사용 또는 공개가 가능한 코드만 활용하여 정리하였다. 전체적인 내용은 아래 문서를 참고하고, 변경 사항을 중심으로 정리한다. 간단한 Spark App..

[Ambari 9] 데이터 탐색을 위한 하둡과 제플린 설정

HDFS에 데이터를 업로드하고 Zeppelin으로 분석과 탐색을 진행하기 위해서는 추가 설정을 진행해야 한다. Ambari 설정과 Hadoop, Spark 등 서비스 설치는 아래 포스팅 (문서)를 참고한다. [Ambari 7] Ambari 설정과 Hadoop, Spark 설치 Ambari 설치를 마쳤으므로 Ambari에 접속해서 하둡과 관련 서비스들을 설치한다. 아래 과정으로 진행한다. Ambari 웹페이지 포트포워딩 Ambari 접속과 Agent 구성 하둡과 관련 서비스 설치와 시작 스냅샷 www.bearpooh.com HDFS와 Zeppelin 추가 설정은 다음 순서로 진행한다. Ambari Admin에서 계정 추가 하둡 설정 변경 (Ambari, CentOS, HDFS) Zeppelin 설정 변경 ..

MongoDB의 데이터 모델링 패턴

MongoDB의 데이터 모델링 패턴에 대해 정리한다. MongoDB의 Document 구조와 관계 패턴은 아래 포스팅을 참고한다. MongoDB의 Document 구조와 관계 패턴 MongoDB의 Document의 구조와 관계 패턴을 정리한다. MongoDB의 특징과 주요 개념은 아래 포스팅을 참고한다. https://www.bearpooh.com/163 본 포스팅은 MongoDB 공식 문서와 아래 문서를 참고하여 작성했다. 정.. www.bearpooh.com MongoDB의 구조와 특징은 아래 포스팅을 참고한다. MongoDB 특징과 주요 개념 MongoDB의 구조와 주요 특징에 대해 정리한다. Docker를 이용한 MongoDB 설정 방법은 아래 포스팅을 참고한다. Docker로 MongoDB 설정..

::: IT인터넷 ::: 2022.08.01

Python으로 MinIO를 사용하는 방법 (3) - 데이터 관리

MinIO는 AWS S3와 호환되는 파이썬 라이브러리를 제공한다. 해당 라이브러리를 활용하면 MinIO의 WebUI나 mc (MinIO Client)에서 제공하는 기능의 일부를 파이썬에서 사용할 수 있다. MinIO의 파이썬 라이브러리 소개와 설치 방법은 다음 포스팅을 참고한다. Python으로 MinIO를 사용하는 방법 (1) - 소개와 설치 MinIO는 AWS S3와 호환되는 파이썬 라이브러리를 제공한다. 해당 라이브러리를 활용하면 MinIO의 WebUI나 mc (MinIO Client)에서 제공하는 기능의 일부를 파이썬에서 사용할 수 있다. MinIO의 WebUI를 사용하 www.bearpooh.com MinIO의 파이썬 라이브러리로 Bucket을 관리하는 방법은 다음 포스팅을 참고한다. MinIO..

::: IT인터넷 ::: 2022.04.18

Zeppelin에서 데이터 탐색하기

## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. 업로드한 데이터를 탐색하기 위해 데이터를 열어서 일부 레코드를 확인한다. Zeppelin을 설정하는 방법은 다음 포스팅을 참고한다. Zeppelin 설정하고 노트북 생성하기 ## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소 www.bearpooh.com Zeppelin에서 ..