스파크 20

Scala 빌드 파이프라인 설정하기 (1) - 빌드 생성

Jenkins와 연동한 Scala 빌드 머신을 활용하여 실제 Spark Application을 빌드하고 배포한다. Scala 빌드머신을 Jenkins에 연동하는 방법은 아래 문서를 참고한다. Jenkins에 Scala 빌드머신 연동하기 (Jenkins 연결) Scala 빌드 머신의 Docker 이미지를 컨테이너로 실행하여 Jenkins 에 Scala 빌드 에이전트로 등록한다. Scala 빌드 머신의 Docker 컨테이너를 실행하는 방법은 아래 문서를 참고한다. Jenkins에 Scala 빌드머신 www.bearpooh.com Scala 빌드머신을 생성하는 방법은 아래 문서를 참고한다. Docker로 Scala 빌드머신 만들기 (빌드와 배포) Scala 개발환경 구성이 완료되면 작성한 Application..

::: IT인터넷 ::: 2023.08.28

Docker로 Scala 빌드머신 만들기 (2) - Dockerfile 폴더 구성

Scala 개발환경 구성이 완료되면 작성한 Application을 빌드하고 배포해야 한다. 이전에 Jenkins로 Python과 Docker 빌드/배포 환경을 구축한 방법을 활용하여 Scala Application의 빌드 머신을 생성한다. Jenkins의 SSH Agent 컨테이너의 Dockerfile과 sbt를 활용하여 리눅스 기반의 Scala 빌드 에이전트를 생성한다. 생성한 빌드 에이전트는 SSH 통신을 이용하여 Jenkins에 에이전트로 등록한다. 진행 순서는 다음과 같다. Jenkins SSH 에이전트 이미지 생성 Dockerfile 작성 Dockerfile 빌드에 필요한 외부 파일 다운로드와 폴더 구성 Jenkins 에이전트 이미지 빌드와 배포 이전 글에서 Dockerfile을 작성했으므로 D..

::: IT인터넷 ::: 2023.08.14

Docker로 Scala 빌드머신 만들기 (1) - Dockerfile 작성

Scala 개발환경 구성이 완료되면 작성한 Application을 빌드하고 배포해야 한다. 이전에 Jenkins로 Python과 Docker 빌드/배포 환경을 구축한 방법을 활용하여 Scala Application의 빌드 머신을 생성한다. Jenkins의 SSH Agent 컨테이너의 Dockerfile과 sbt를 활용하여 리눅스 기반의 Scala 빌드 에이전트를 생성한다. 생성한 빌드 에이전트는 SSH 통신을 이용하여 Jenkins에 에이전트로 등록한다. 진행 순서는 다음과 같다. Jenkins SSH 에이전트 이미지 생성 Dockerfile 작성 Dockerfile 빌드에 필요한 외부 파일 다운로드와 폴더 구성 Jenkins 에이전트 이미지 빌드와 배포 Python 빌드 머신 생성 방법은 아래 글을 참..

::: IT인터넷 ::: 2023.08.10

간단한 Spark Application의 실행과 패키징

소스코드 작성이 완료되었으면 실제로 실행해 본다. 그리고 정상적으로 실행되면 sbt로 패키징하여 Jar 파일을 생성한다. 간단한 Spark Application 작성 방법은 아래 포스팅을 참고한다. 간단한 Spark Application 만들어 보기 기본적인 Scala 개발 환경 구성이 완료되었으면 간단한 Spark 어플리케이션을 만들어본다. 해당 과정을 통해 sbt로 라이브러리를 잘 받아오는지, Spark 라이브러리가 잘 동작하는지 확인할 수 있다. www.bearpooh.com IntelliJ 설치와 초기 설정은 아래 포스팅을 참고한다. Ubuntu 22.04에 IntelliJ 설치하기 Java와 Scala를 사용하는 개발 프로젝트에 널리 사용되는 IntelliJ IDE (통합개발환경)를 설치한다. ..

간단한 Spark Application 만들어 보기

기본적인 Scala 개발 환경 구성이 완료되었으면 간단한 Spark 어플리케이션을 만들어본다. 해당 과정을 통해 sbt로 라이브러리를 잘 받아오는지, Spark 라이브러리가 잘 동작하는지 확인할 수 있다. 아래 내용들은 리눅스 운영체제를 기반으로 설명한다. 윈도우 환경인 경우 WSL을 통해 진행한다. IntelliJ 설치와 초기 설정은 아래 포스팅을 참고한다. Ubuntu 22.04에 IntelliJ 설치하기 Java와 Scala를 사용하는 개발 프로젝트에 널리 사용되는 IntelliJ IDE (통합개발환경)를 설치한다. 아래 내용들은 리눅스 운영체제를 기반으로 설명한다. 윈도우 환경인 경우 WSL을 통해 진행한다. Nexu www.bearpooh.com 윈도우 WSL 환경에서 IntelliJ 사용하기 ..

Livy Server 설치와 설정하기

Hadoop (+ YARN), Spark, Zeppelin의 설정을 마쳤으므로, Spark Job과 Application 제출을 위한 환경을 livy로 구성한다. Bigtop을 이용한 Ambari 설치와 설정 변경은 다음 포스팅을 참고한다. [Ambari 7] Ambari 설정과 Hadoop, Spark 설치 Ambari 설치를 마쳤으므로 Ambari에 접속해서 하둡과 관련 서비스들을 설치한다. 아래 과정으로 진행한다. Ambari 웹페이지 포트포워딩 Ambari 접속과 Agent 구성 하둡과 관련 서비스 설치와 시작 스냅샷 www.bearpooh.com [Ambari 9] 데이터 탐색을 위한 하둡과 제플린 설정 HDFS에 데이터를 업로드하고 Zeppelin으로 분석과 탐색을 진행하기 위해서는 추가 설정..

[Ambari 9] 데이터 탐색을 위한 하둡과 제플린 설정

HDFS에 데이터를 업로드하고 Zeppelin으로 분석과 탐색을 진행하기 위해서는 추가 설정을 진행해야 한다. Ambari 설정과 Hadoop, Spark 등 서비스 설치는 아래 포스팅 (문서)를 참고한다. [Ambari 7] Ambari 설정과 Hadoop, Spark 설치 Ambari 설치를 마쳤으므로 Ambari에 접속해서 하둡과 관련 서비스들을 설치한다. 아래 과정으로 진행한다. Ambari 웹페이지 포트포워딩 Ambari 접속과 Agent 구성 하둡과 관련 서비스 설치와 시작 스냅샷 www.bearpooh.com HDFS와 Zeppelin 추가 설정은 다음 순서로 진행한다. Ambari Admin에서 계정 추가 하둡 설정 변경 (Ambari, CentOS, HDFS) Zeppelin 설정 변경 ..

Zeppelin에서 데이터 탐색하기

## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. 업로드한 데이터를 탐색하기 위해 데이터를 열어서 일부 레코드를 확인한다. Zeppelin을 설정하는 방법은 다음 포스팅을 참고한다. Zeppelin 설정하고 노트북 생성하기 ## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소 www.bearpooh.com Zeppelin에서 ..

Zeppelin 설정하고 노트북 생성하기

## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. Zeppelin은 Spark 기반의 데이터 분석을 위한 인터프리터 환경을 제공한다. 파이썬의 데이터 분석 도구인 Jupyter Notebook과 비슷하다. Zeppelin은 HDP Sandbox에 포함되어 있으며, Docker로 Zeppelin만 독립적으로 사용할 수도 있다. HDP Sandbox에 포함 된 Zeppelin은 내부 Hadoop과 Spark을 기반으로 동작한다. Zeppelin을 독립적인 Docker로..

HDP Sandbox 소개와 Docker 셋팅 파일 다운로드

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. 개요 Hadoop과 Spark를 공부하거나 테스트 하는 입장에서 직접 환경을 구축하기는 어렵다. Spark은 Databricks의 무료 클라우드 서비스를 사용하거나, 로컬에 Zeppelin을 설치해서 내장 Spark 라이브러리를 활용한 로컬 모드로 사용할 수 있다. 그러나 직접 Hadoop과 연결된 시스템을 경험하기에 부족한 것이..