::: 데이터 분석 ::: 38

Spark Application 패키지 작성하기 (5) - 테스트 작성과 빌드, 배포

기본적인 Scala 개발환경이 구축되고 나면 목표로 했던 Spark Application을 작성한다. 앞서 테스트에 사용한 Spark Application은 main 함수에 기능을 구현한 단순한 예제 프로그램이다. 기존에 Hadoop 기반의 Spark 클러스터를 구축했으므로, Spark Application은 해당 환경에서 실행할 수 있는 형태로 작성해야 한다. 따라서 Spark Application 작성을 위한 기본 형태 (Skeleton) 제공을 위한 예제 프로그램을 재작성한다. 참고로 예전에 실무에서 활용했던 Spark Application 코드에서 재사용 또는 공개가 가능한 코드만 활용하여 정리하였다. 전체적인 내용은 아래 문서를 참고하고, 변경 사항을 중심으로 정리한다. 간단한 Spark App..

Spark Application 패키지 작성하기 (4) - 비즈니스 로직 작성

기본적인 Scala 개발환경이 구축되고 나면 목표로 했던 Spark Application을 작성한다. 앞서 테스트에 사용한 Spark Application은 main 함수에 기능을 구현한 단순한 예제 프로그램이다.기존에 Hadoop 기반의 Spark 클러스터를 구축했으므로, Spark Application은 해당 환경에서 실행할 수 있는 형태로 작성해야 한다. 따라서 Spark Application 작성을 위한 기본 형태 (Skeleton) 제공을 위한 예제 프로그램을 재작성한다.참고로 예전에 실무에서 활용했던 Spark Application 코드에서 재사용 또는 공개가 가능한 코드만 활용하여 정리하였다. 전체적인 내용은 아래 문서를 참고하고, 변경 사항을 중심으로 정리한다. 간단한 Spark Appli..

Spark Application 패키지 작성하기 (3) - 데이터 처리 로직 작성

기본적인 Scala 개발환경이 구축되고 나면 목표로 했던 Spark Application을 작성한다. 앞서 테스트에 사용한 Spark Application은 main 함수에 기능을 구현한 단순한 예제 프로그램이다.기존에 Hadoop 기반의 Spark 클러스터를 구축했으므로, Spark Application은 해당 환경에서 실행할 수 있는 형태로 작성해야 한다. 따라서 Spark Application 작성을 위한 기본 형태 (Skeleton) 제공을 위한 예제 프로그램을 재작성한다.참고로 예전에 실무에서 활용했던 Spark Application 코드에서 재사용 또는 공개가 가능한 코드만 활용하여 정리하였다. 전체적인 내용은 아래 문서를 참고하고, 변경 사항을 중심으로 정리한다. 간단한 Spark Appli..

Spark Application 패키지 작성하기 (2) - 헬퍼 기능 작성

기본적인 Scala 개발환경이 구축되고 나면 목표로 했던 Spark Application을 작성한다. 앞서 테스트에 사용한 Spark Application은 main 함수에 기능을 구현한 단순한 예제 프로그램이다. 기존에 Hadoop 기반의 Spark 클러스터를 구축했으므로, Spark Application은 해당 환경에서 실행할 수 있는 형태로 작성해야 한다. 따라서 Spark Application 작성을 위한 기본 형태 (Skeleton) 제공을 위한 예제 프로그램을 재작성한다. 참고로 예전에 실무에서 활용했던 Spark Application 코드에서 재사용 또는 공개가 가능한 코드만 활용하여 정리하였다. 전체적인 내용은 아래 문서를 참고하고, 변경 사항을 중심으로 정리한다. 간단한 Spark App..

Spark Application 패키지 작성하기 (1) - 전체 구조와 기본 설정

기본적인 Scala 개발환경이 구축되고 나면 목표로 했던 Spark Application을 작성한다. 앞서 테스트에 사용한 Spark Application은 main 함수에 기능을 구현한 단순한 예제 프로그램이다. 기존에 Hadoop 기반의 Spark 클러스터를 구축했으므로, Spark Application은 해당 환경에서 실행할 수 있는 형태로 작성해야 한다. 따라서 Spark Application 작성을 위한 기본 형태 (Skeleton) 제공을 위한 예제 프로그램을 재작성한다. 참고로 예전에 실무에서 활용했던 Spark Application 코드에서 재사용 또는 공개가 가능한 코드만 활용하여 정리하였다. 전체적인 내용은 아래 문서를 참고하고, 변경 사항을 중심으로 정리한다. 간단한 Spark App..

간단한 Spark Application의 실행과 패키징

소스코드 작성이 완료되었으면 실제로 실행해 본다. 그리고 정상적으로 실행되면 sbt로 패키징하여 Jar 파일을 생성한다. 간단한 Spark Application 작성 방법은 아래 포스팅을 참고한다. 간단한 Spark Application 만들어 보기 기본적인 Scala 개발 환경 구성이 완료되었으면 간단한 Spark 어플리케이션을 만들어본다. 해당 과정을 통해 sbt로 라이브러리를 잘 받아오는지, Spark 라이브러리가 잘 동작하는지 확인할 수 있다. www.bearpooh.com IntelliJ 설치와 초기 설정은 아래 포스팅을 참고한다. Ubuntu 22.04에 IntelliJ 설치하기 Java와 Scala를 사용하는 개발 프로젝트에 널리 사용되는 IntelliJ IDE (통합개발환경)를 설치한다. ..

간단한 Spark Application 만들어 보기

기본적인 Scala 개발 환경 구성이 완료되었으면 간단한 Spark 어플리케이션을 만들어본다. 해당 과정을 통해 sbt로 라이브러리를 잘 받아오는지, Spark 라이브러리가 잘 동작하는지 확인할 수 있다. 아래 내용들은 리눅스 운영체제를 기반으로 설명한다. 윈도우 환경인 경우 WSL을 통해 진행한다. IntelliJ 설치와 초기 설정은 아래 포스팅을 참고한다. Ubuntu 22.04에 IntelliJ 설치하기 Java와 Scala를 사용하는 개발 프로젝트에 널리 사용되는 IntelliJ IDE (통합개발환경)를 설치한다. 아래 내용들은 리눅스 운영체제를 기반으로 설명한다. 윈도우 환경인 경우 WSL을 통해 진행한다. Nexu www.bearpooh.com 윈도우 WSL 환경에서 IntelliJ 사용하기 ..

Livy Server 설치와 설정하기

Hadoop (+ YARN), Spark, Zeppelin의 설정을 마쳤으므로, Spark Job과 Application 제출을 위한 환경을 livy로 구성한다. Bigtop을 이용한 Ambari 설치와 설정 변경은 다음 포스팅을 참고한다. [Ambari 7] Ambari 설정과 Hadoop, Spark 설치 Ambari 설치를 마쳤으므로 Ambari에 접속해서 하둡과 관련 서비스들을 설치한다. 아래 과정으로 진행한다. Ambari 웹페이지 포트포워딩 Ambari 접속과 Agent 구성 하둡과 관련 서비스 설치와 시작 스냅샷 www.bearpooh.com [Ambari 9] 데이터 탐색을 위한 하둡과 제플린 설정 HDFS에 데이터를 업로드하고 Zeppelin으로 분석과 탐색을 진행하기 위해서는 추가 설정..

Ambari의 YARN ResourceManager에서 가용 vCPU 늘리기

Bigtop에서 제공하는 Ambari의 YARN (Resource Manager)에서 사용 가능한 vCPU를 늘리는 방법을 정리한다. Ambari 설치를 위한 기본 환경 준비는 아래 포스팅을 참고한다. [Ambari 3] CentOS 7 기본 설정 가상환경에 CentOS 운영체제를 설치했으므로, 이후 필요한 기본 설정을 진행한다. CentOS 설치를 위한 가상환경 설정은 아래 포스팅 (문서)를 참고한다. [Ambari 2] CentOS 7 가상 환경 생성 Ambari 설치를 www.bearpooh.com [Ambari 4] CentOS 7 추가 설정 가상환경에 CentOS 운영체제의 기본 설정을 적용했으므로, 이후 과정에 공통으로 필요한 설정을 적용한다. 아래 과정은 다음 작업을 수행하기 위해 반드시 필..

Ambari Metrics Collector 로그에 WARN 메시지의 지속 발생 조치

Ambari Metrics 관련 트러블 슈팅을 진행하고 METRIC 탭의 그래프까지 표시되는데도 WARN 메시지가 계속 발생하는 경우가 있다. Ambari Metrics 관련 트러블 슈팅은 다음 포스팅을 참고한다. Ambari Metrics Collector의 javax/ws/rs/core/Link$Builder 오류 Bigtop에서 배포한 Ambari 설치를 완료하고 서비스를 시작했을 때 유독 Ambari Metrics만 빨간 불인 경우가 있다. 다양한 오류가 발생하는데 이번엔 javax/ws/rs/core/Link$Builder 오류 해결 방법을 확인한다. Am www.bearpooh.com Ambari Metrics 재시작이 wget에서 진행되지 않는 경우 Bigtop에서 배포한 Ambari 설치를..