::: 데이터 분석 :::

설정 변경하여 배포한 HDP Sandbox의 Docker 이미지 사용

곰탱이푸우 2021. 10. 4. 08:20
참고사항

본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다.
빅데이터나 하둡 관련 전문가가 아니기 때문에 셋팅과 기본적인 사용 외에, 하둡과 하둡 생태계 운영의 트러블 슈팅은 잘 모릅니다.
오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다.  기본 셋팅 관련해서 참고만 부탁 드립니다.

 

이전 포스팅에서 HDP Sandbox 2.6.5의 설정을 변경하고 사설 Docker 저장소에 배포하는 과정을 다뤘다.

 

배포한 HDP Sandbox Docker 이미지 사용을 위한 스크립트 작성

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

해당 스크립트를 사용하여 배포한 HDP Sandbox를 사용하는 방법에 대해 다룬다.

 

HDP Sandbox에 대한 소개와 설치 스크립트 다운로드는 다음 포스팅을 참고한다.

 

HDP Sandbox 소개와 Docker 셋팅 파일 다운로드

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

HDP Sandbox 2.6.5 버전을 Docker로 설치하는 방법은 다음 포스팅을 참고한다.

 

HDP Sandbox 2.6.5 Docker 설정과 Ambari 로그인하기

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

HDP Sandbox 2.6.5 Docker 컨테이너의 HDFS에 데이터 파일 업로드 방법은 다음 포스팅을 참고한다.

 

HDP Sandbox 2.6.5 HDFS에 데이터 업로드 하기

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

설정을 변경한 HDP Sandbox 2.6.5 Docker 컨테이너를 Docker 이미지로 배포하는 방법은 다음 포스팅을 참고한다.

 

설정 변경한 HDP Sandbox 2.6.5의 Docker 이미지 배포

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

배포한 HDP Sandbox Docker 이미지 설치

이전 포스팅에서 작성한 설치 스크립트를 사용하면 쉽게 설정할 수 있다.

 

스크립트 작성 또는 다운로드

스크립트 작성 방법은 다음 포스팅을 참고한다.

 

배포한 HDP Sandbox Docker 이미지 사용을 위한 스크립트 작성

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

위의 포스팅으로 작성하여 커밋한 스크립트가 있는 경우 다운로드한다.

 

다음과 같이 구성되어 있다.

root   
    \hdp-sanbox-run.sh 
    \assets  
        \nginx.conf   # nginx 서버 설정  
    \sandbox\proxy  
        \conf.d  
            \http-hdp.conf   # nginx 서버에 생성한 이미지가 사용할 http 포트 설정  
        \conf.stream.d  
            \tcp-hdp.conf   # nginx 서버에 생성한 이미지가 사용할 tcp 포트 설정

 

각 파일별 기능은 다음과 같다.

파일명 기능
hdp-sandbox-run.sh
  • hdp-265-srteam, sandbox-proxy Docker 이미지를 Pull 한다.
  • sandbox-hdp 컨테이너를 생성하고 postgresql 서비스를 재시작한다.
  • sandbox-proxy 컨테이너를 생성하고 nginx 서비스의 포트 연결을 설정한다.
  • Host PC와 sandbox-hdp 컨테이너를 연결할 포트들을 설정한다.
nginx.conf
  • nginx 서버를 설정한다.
http-hdp.conf
  • sandbox-hdp에서 사용할 http 관련 포트들을 nginx 서버에서 설정한다.
tcp-hdp.conf
  • sandbox-hdp에서 사용할 tcp 관련 포트들을 nginx 서버에서 설정한다.

 

Docker 이미지 정보 확인과 스크립트 수정

hdp-sandbox-run.sh에 정의한 HDP Sandbox의 이미지 정보와 Docker 저장소에 업로드한 이미지의 정보가 같은지 비교한다.

 

Docker 저장소에 업로드 된 정보와 다르면 hdp-sandbox-run.sh의 해당 항목을 수정한다.

 

hdp-sandbox-run.sh

해당 파일에 정의 된 Docker 이미지의 버전은 다음과 같다.

# CAN EDIT THESE VALUES 
registry="Docker저장소URL:포트" # 로컬의 이미지를 사용하는 경우 ""로 정의 
name="hdp-265-srteam" 
sandboxContainer="sandbox-hdp" 
version="latest" 
proxyName="hortonworks/sandbox-proxy" 
proxyContainer="sandbox-proxy" 
proxyVersion="1.0" 
hostName="sandbox-hdp.hortonworks.com" 
networkName="cda"

 

Docker 저장소

HDP Sandbox Docker 이미지를 배포한 저장소에 접속해서 사용하려는 Docker 이미지의 버전을 확인한다.

현재 0.0.1 버전이 배포되어 있고, latest로 태깅 되어 있다.

 

스크립트 파일 실행과 사용

수정한 hdp-sandbox-run.sh 파일을 실행한다.

$ bash hdp-sandbox-ailab.sh

 

 

컨테이너 실행 후 바로 Ambari에 로그인하면 Hadoop 관련 서비스들이 모두 비활성 상태로 표시된다.

 

컨테이너를 실행하면 Ambari를 통해 Hadoop 관련 서비스들이 자동으로 재시작되며 7~8분 정도 (평균 450초) 소요된다.

따라서 컨테이너 시작 후 약 10분 정도 대기 시간을 가져야 한다.

 

서비스가 정상적으로 재시작 되면 alert에 표시 된 경고들은 사라진다.

 

서비스가 모두 활성화 되면 사용하는 목적에 따라 사용한다.

 

HDP Sandbox의 정상 동작 여부 확인

아래 과정은 확인이 필요한 경우에 사용한다.

 

Ambari 서비스 정상 접속 여부 확인

Ambari에 접속하여 Hadoop 관련 서비스들이 정상 동작하는지 확인한다.

 

Ambari의 admin 비밀번호는 최초 설정 후 ambari-admin-password-reset을 실행하여 변경한 암호를 사용한다.

 

비밀번호 변경 방법은 아래 포스팅의 admin 계정 비밀번호 변경 항목을 참고한다.

 

HDP Sandbox 2.6.5 Docker 설정과 Ambari 로그인하기

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

HDP Sandbox 컨테이너 쉘 로그인

HDP Sandbox의 SSH (Secure SHell)를 이용하여 컨테이너의 쉘에 정상적으로 로그인 되는지 확인한다.

$ ssh root@sandbox.hortonworks.com -p 2222

# 각 항목은 다음을 의미한다.
# root@sandbox.hortonworks.com - 접속하려는 HDP Sandbox의 계정과 URL
# -p 2222 - ssh 포트번호

 

root 계정의 비밀번호 변경 방법은 아래 포스팅의 Docker 컨테이너의 root 계정 비밀번호 변경하기 항목을 참고한다.

 

HDP Sandbox 2.6.5 Docker 설정과 Ambari 로그인하기

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

HDP Sandbox 컨테이너에 데이터 파일 복사하기

HDP Sandbox 2.6.5 Docker 컨테이너의 HDFS에 데이터 파일 업로드 방법은 다음 포스팅을 참고한다.

 

HDP Sandbox 2.6.5 HDFS에 데이터 업로드 하기

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

 

Zeppelin 접속 여부 확인

HDP Sandbox 2.6.5 에서 쉽게 사용할 수 있는 도구 중 하나가 Zeppelin이다.

Spark 기반의 데이터 분석을 위한 인터프리터 환경을 제공하는데, 파이썬의 데이터 분석 도구인 Jupyter Notebook과 비슷하다.

 

Zeppelin은 9995 포트를 사용하므로 아래 URL을 통해 정상 접근하는지 확인한다.

 

정상 접속되면 아래와 같은 화면이 나타난다. 우측 상단에 녹색으로 표시되어야 한다.

 

빨간색으로 표시 된 경우 해당 서비스가 정상적인 상태가 아니므로 서비스 재시작을 수행하고 다시 확인한다.

 

새로운 어플리케이션이나 서비스를 구성한 경우

새로운 어플리케이션이나 서비스를 구성하여 설정을 변경한 경우, 나중에 다시 사용하기 위해서는 해당 이미지를 배포해야 한다.

 

설정을 변경한 HDP Sandbox 2.6.5 Docker 컨테이너를 Docker 이미지로 배포하는 방법은 다음 포스팅을 참고한다.

 

설정 변경한 HDP Sandbox 2.6.5의 Docker 이미지 배포

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com

스크립트 작성 방법은 다음 포스팅을 참고한다.

 

배포한 HDP Sandbox Docker 이미지 사용을 위한 스크립트 작성

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에

www.bearpooh.com