::: 데이터 분석 :::

[Ambari 8] 설치 완료 이후 서비스 탐색

곰탱이푸우 2023. 3. 27. 08:20
모든 설치가 완료되면 하둡의 개별 서비스 UI에 접속해서 확인을 진행한다.
아래 과정으로 진행한다.
  • 포트포워딩 설정
  • 호스트 (물리) PC의 hosts에 IP와 FQDN 등록
 
동일 네트워크에 존재하는 다른 물리 PC에서도 접속 가능하다.
hosts를 수정하고 대상 IP를 Ambari가 설치 된 호스트 (물리) PC로 지정한다.
 
확인하기 위한 서비스 목록은 다음과 같다.
  • NameNode (Port 50070) - bdp01 / 192.168.56.51
  • NodeManager (Port 8042) - bdp01 / 192.168.56.51
  • Yarn (Port 8088) - bdp01 / 192.168.56.51
  • MR2 (Hadoop) JobHistory (Port 19888) - bdp02 / 192.168.56.52
  • Spark History (Port 18081) - bdp02 / 192.168.56.52
  • zeppelin (Port 9995) - bdp02 / 192.168.56.52
  • grafana / Ambari Metrics (Port 3000) - bdp02 / 192.168.56.52
 
Ambari 설정과 Hadoop, Spark 등 서비스 설치는 아래 포스팅 (문서)를 참고한다.
 

가상환경 설정 변경

포트포워딩 설정

포트포워딩 설정 방법은 이전 단계에서 진행했던 Ambari, PostgreSQL과 동일하다.
서비스가 설치 된 가상머신에 각각 설정을 진행한다.

bdp01 설정

Master 가상환경을 선택하고 설정 버튼을 클릭한다.
 
네트워크 - 어댑터 1을 선택한다.
Advanced를 클릭해서 메뉴를 확장하고 포트포워딩을 클릭한다.
(NAT 네트워크만 포트포워딩이 가능하다.)
 
우측의 + 버튼을 세번 클릭하고 각각 아래와 같이 입력한다.
  • NameNode - 192.168.56.51 / 50070
  • NodeManager - 192.168.56.51 / 8042
  • Yarn - 192.168.56.51 / 8088
 
 

bdp02 설정

포트포워딩 설정 방법은 위와 동일하다.
우측의 + 버튼을 네번 클릭하고 각각 아래와 같이 입력한다.
  • MR2 JobHistory - 192.168.56.52 / 19888
  • Spark History - 192.168.56.52 / 18081
  • zeppelin - 192.168.56.52 / 9995
  • AmbariMetrics - 192.168.56.52 / 3000
 

Hosts 수정

포트포워딩이 완료되면 호스트(물리) PC의 hosts 파일을 수정한다.
윈도우의 경우 터미널을 관리자 권한으로 실행하고 다음 명령을 실행한다.
그리고 IP 주소와 FQDN을 입력하고 저장한 뒤 종료한다.
> notepad c:\windows\system32\drivers\etc\hosts

# 아래 내용을 추가한다.
192.168.56.51    bdp01.bearpooh.com
192.168.56.52    bdp02.bearpooh.com
192.168.56.53    bdp03.bearpooh.com
 
다음과 같이 입력한다.

 

 

웹 UI 확인

hosts를 수정하면 Ambari 웹 UI에 있는 링크를 클릭하면 해당 UI 웹페이지로 이동한다.

NodeManager

Master Node의 8042 포트로 접속하면 NodeManager 페이지로 이동한다.
 
실제 접속한 화면은 다음과 같다.
 
구성 된 클러스터의 RAM과 vcore 등 클러스터의 연산 관련 리소스를 표시한다.
전체 리소스가 메모리 8G, vcore 8개로 확인되는데 추가 확인이 필요하다.
(기대했던 것보다 메모리는 적고, vcore는 많다...)
 

NameNode

HDFS를 클릭하면 화면 우측에 NameNode UI 링크를 확인할 수 있다.
 
50070 포트를 사용하며 NameNode UI로 이동한다.
ResourceManager가 연산 관련 자원을 표시한다면, HDFS의 NameNode UI는 DataNode의 저장 용량 관련 정보를 표시한다.
Summary의 일부 항목은 다음과 같다.

 

YARN

YARN을 클릭하면 화면 우측에 ResourceManager UI 링크를 확인할 수 있다.
 
8088 포트를 사용하며 해당 하둡 클러스터에 제출된 작업들의 전체 목록, 상태별 조회가 가능하다.
 

MapReduce 2

MapReduce2를 클릭하면 화면 우측에 JobHistory UI 링크를 확인할 수 있다.

 

19888 포트를 사용하며 하둡의 MapReduce 작업을 수행한 경우 이력을 확인할 수 있다.
 

Grafana

Ambari Metrics를 클릭하면 화면 우측에 Grafana UI 링크를 확인할 수 있다.
 
3000 포트를 사용하며 Ambari Metrics 서버에 수집 된 지표들을 DashBoard로 구성할 수 있다.
현재 구성 된 DashBoard가 없어서 빈화면이 표시된다.
 

Spark History

Spark를 클릭하면 화면 우측에 Spark History Server UI 링크를 확인할 수 있다.
 
18081 포트를 사용하며 Spark으로 수행 된 작업의 이력을 확인할 수 있다.
현재 실행 된 작업이 없어 빈화면이 표시된다.
 
 

Zeppelin

Zeppelin을 클릭하면 화면 우측에 Zeppelin UI 링크를 확인할 수 있다.
 
9995 포트를 사용하며 Zeppelin 노트북을 통해 REPL로 Spark 작업을 수행할 수 있다.
 

다른 PC에서 접속

다른 PC에서 접속하는 것도 가능하다. 설정 방법은 비슷하다.

hosts 수정

접속하고자 하는 PC의 hosts 파일을 수정한다.
윈도우의 경우 터미널을 관리자 권한으로 실행하고 다음 명령을 실행한다.
그리고 IP 주소와 FQDN을 입력하고 저장한 뒤 종료한다.
> notepad c:\windows\system32\drivers\etc\hosts

# 아래 내용을 추가한다.
192.168.0.57    bdp01.bearpooh.com    # IP주소는
192.168.0.57    bdp02.bearpooh.com    # Ambari가 실행중인
192.168.0.57    bdp03.bearpooh.com    # PC의 실제 IP
 
다음과 같이 입력한다.

 

 

웹 UI 확인

실제로 해당 URL로 접속하면 정상적으로 접속된다.

 

개별 서비스의 UI 접속도 정상적으로 연결된다.
다음 문서 (포스팅)에서는 Hadoop과 Zeppelin 설정을 변경한다.
HDFS에 실제 데이터를 업로드하고 Zeppelin으로 데이터 탐색을 진행한다.
 

[Ambari 9] 데이터 탐색을 위한 하둡과 제플린 설정

HDFS에 데이터를 업로드하고 Zeppelin으로 분석과 탐색을 진행하기 위해서는 추가 설정을 진행해야 한다. Ambari 설정과 Hadoop, Spark 등 서비스 설치는 아래 포스팅 (문서)를 참고한다. [Ambari 7] Ambari 설

www.bearpooh.com