::: 데이터 분석 :::

[Ambari 1] Apache Ambari 소개

곰탱이푸우 2023. 3. 3. 08:20
하둡 에코시스템을 설치하기 위해 각 구성요소들을 직접 개별 설치하는 것은 여전히 어렵고 까다롭다.
 
Apache Ambari는 하둡 에코시스템의 설치, 설정 배포, 모니터링 등의 운영 편의성을 제공하는 도구이다.
아래 그림 처럼 Hadoop (+ HDFS, MapReduce2, YARN), Zookeeper, Spark, Hive, HBase 등을 통합 관리할 수 있다.

 
통합코덱팩을 생각하면 이해하기 쉽다.
개별 코덱을 따로 깔 수도 있지만 통합코덱팩을 사용하면 원하는 코덱들을 한번에 설치할 수 있다.
 
 

현재 문제점

Hortonworks가 개발하고 기여했지만, 2018년 Cloudera 합병 이후 개발이 중단되었다.
현재 Apache 재단에 의해 유지보수 정도만 유지되고 있는 것으로 보이며 최신 버전은 2.7.7이다.
Hortonworks를 인수한 Cloudera도 Cloudera Manager라는 유사한 도구를 제공하며 기능은 거의 동일하다.
 
문제는 Cloudera에 의해 Ambari의 정상적인 이용이 어려워졌다는 것이다.
  • 2018년 Cloudera는 Hortonworks를 인수합병한 이후 Ambari 저장소, HDP (Hortonworks Data Platform) 등의 흔적을 지우기 시작했다.
  • 2021년 1월 31일부로 Hortonworks가 무료로 제공하던 Pre-built 파일, 과거 버전 배포판과 저장소까지 모두 Private으로 전환했다.
  • 최근 트렌드에 따라 Cloudera도 On-premise 설치 파일 제공은 중단하고 클라우드 기반으로 전환하고 있다.
  • 지금은 유료 플랜으로 가입한 고객만 다운로드 가능하지만, 이것도 중단 될 가능성이 높다.

 

이러한 이유로 과거에 쉽게 설치하던 Ambari + HDP (HDF) Stack은 사용이 불가능해진 상황이다.
  • 쉬운것도 상대적이라... 하둡 에코시스템을 구성하는 서비스의 개별 설치에 비해 쉬운 것을 의미한다.
  • Ambari도 설치 과정이 복잡하기는 마찬가지이다.

 

따지고 보면 HDP 자체를 무료로 제공했던 Hortonworks가 혜자였던 것 같다. (그래서 인수됐....)
 

 

해결 방법

이러한 상황에서 Ambari 설치를 위해 가능한 방법은 3가지이다.
 

Ambari 직접 빌드 및 설치

아래 가이드 문서를 참고하여 직접 설치 파일을 빌드하고 설치하는 것이다.
가이드 문서에 의하면 과정이 간단해보이지만 실제로는 그렇지 않다.
  • 현재 운영하지 않는 저장소가 많아 빌드 과정 중 오류가 반복해서 나타난다.
  • 이를 해결하기 위한 노력이 추가로 필요한다.
  • 설치에 성공해도 이후 하둡 관련 서비스를 설치하기 위한 mpack 이 없다.
 
빌드까지 진행하고 설치는 하지 않았으며, 빌드 과정은 향후 별도 포스팅으로 소개할 예정이다.
mpack이란?
Ambari Management Packs의 약자로, Ambari 설치 이후 하둡 관련 서비스 설치에 사용된다.
HDP (Hortonworks Data Platform)도 이러한 mpack 형태로 제공된다.
 

MakeOpenSourceGreatAgain 사이트 활용

Cloudera의 만행에 열 받은 누군가가 빌드 파일을 모은 사이트를 만들었다.
사이트 이름만 봐서는 트럼프 지지자로 추정된다.

 

Ambari 2.7.5 버전과 HDP 3.1.4 버전의 CentOS 7 환경의 설치 파일 (RPM) 들을 제공한다.
아쉽게도 CentOS 다른 버전과 Ubuntu 등 다른 OS는 지원하지 않는 것이 단점이다.
 
HDP 3.1.4 mpack을 반드시 설치해야 한다. 설치하지 않으면 Ambari에 하둡 관련 서비스를 설치할 수 없다.
 
위의 방법으로 진행하면 아래와 같은 장단점이 존재한다.
 
장점
  • HDP 스택을 사용할 수 있다.
  • HDP 기반 환경에서 업무를 했었기 때문에 가장 익숙한 UI이다.
  • 당장 필요하지 않은 서비스가 많지만 나중에 사용할 예정인 서비스이다.

 

단점
  • HDP에 포함 된 하둡 관련 서비스가 너무 옛날 버전이다.
    (Spark 3.x 버전이 아닌 2.3.0 버전 → 5년전 Data Engineer 업무 할때 사용하던 버전...)
  • HDP 스택에 포함 된 서비스가 너무 많다. (당장 필요하지 않은 경우가 대부분이지만 기본 설정은 해야한다.)
  • 폐쇄망인 경우 저장소 연결 문제가 있다. (MOSGA 사이트 등록 가능한지 확인 필요)
 
정리하면 구버전이더라도 HDP를 사용해야 하는 상황에는 도움이 될 것으로 판단된다.
 
Ambari 설치, HDP 스택 설정 및 관련 서비스 설치까지 성공해서 확인한 사항이다.
전체 과정은 향후 별도 포스팅으로 소개할 예정이다.
 
 

Apache의 Bigtop 도구 활용 

Ambari는 Apache에서 관리하는 오픈소스 도구이다.
Apache에서는 이러한 도구들을 빌드할 수 있는 환경을 제공하며, Bigtop 프로젝트로 관리하고 있다.
 
최신  버전은 3.2.0 버전이며 아래 사이트를 참고한다.
Bigtop에서 빌드 가능한 서비스는 다음과 같다.
 
Bigtop에서는 ambari에서 사용 가능한 Bigtop mpack을 제공하며, HDP와  유사한 하둡 관련 서비스들을 설치할 수 있다.
 
Bigtop을 이용할 경우 장단점은 다음과 같다.
 
장점
  • 사용하려는 서비스가 모두 포함된다. (Hadoop, SPARK, Zeppelin)
  • HDP Stack 보다 구성 서비스가 적어 설치와 관리가 편리하다.
  • Apache에서 직접 제공하므로 Hortonworks와 같은 사태가 발생할 가능성이 적다.

 

단점
  • HDP가 제공하던 일부 기능이 없다. (Livy, Flume, Sqoop 등)
  • 다른 서비스가 필요한 경우 mpack 구성을 직접 바꿔야 한다.
  • 폐쇄망인 경우 저장소 연결 문제가 있다. (MOSGA와 동일)

 

실제로 Bigtop mpack을 이용하여 설치하면 위에 언급 된 일부 서비스는 포함되지 않는다.
  • Livy
  • gpdb
  • oozie
  • phoenix
  • ycsb
 
 
Livy를 나중에 사용해야 하는데 별도로 설치할지, mpack에 추가할지 검토해 볼 필요가 있다.
mpack에 추가하는 방법은 아래 포스팅을 참고한다.
Bigtop을 이용한 Ambari 빌드/설치/실행, 서비스 배포/실행에 성공했고 결과는 다음과 같다.
 
이후 문서는 Bigtop을 이용한 방법으로 정리할 예정이다.
 

[Ambari 2] CentOS 7 가상 환경 생성

Ambari 설치를 위한 CentOS7 가상 환경을 생성한다. Ambari 소개에 대한 내용은 다음 문서를 참고한다. [Ambari 1] Apache Ambari 소개 하둡 에코시스템을 설치하기 위해 각 구성요소들을 직접 개별 설치하는

www.bearpooh.com