참고사항
본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다.
빅데이터나 하둡 관련 전문가가 아니기 때문에 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다.
오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다.
개요
Hadoop과 Spark를 공부하거나 테스트 하는 입장에서 직접 환경을 구축하기는 어렵다.
Spark은 Databricks의 무료 클라우드 서비스를 사용하거나, 로컬에 Zeppelin을 설치해서 내장 Spark 라이브러리를 활용한 로컬 모드로 사용할 수 있다.
그러나 직접 Hadoop과 연결된 시스템을 경험하기에 부족한 것이 사실이다.
Hortonworks에서 제작한 HDP (Hortonworks Data Platform)은 이러한 고민을 해결해준다.
Apache에서 제공하는 하둡 관련 프로젝트들을 하나의 가상 이미지에 묶은 것으로, 각 툴들을 직접 설치하는 과정과 시간을 획기적으로 줄일 수 있다.
Apache Hadoop, Spark, Zeppelin, Zookeeper, HBase, Hive, Kafka 외에도 Apache Hadoop 생태계의 다양한 툴들을 패키지로 제공한다.
참고로 2019년 1분기에 Hortonworks와 Cloudera가 전격 합병하여 현재는 Cloudera에서 제공한다.
기술조사 하던 2018년에는 Hortonworks 시절이라, HDP (Hortonworks Data Platform) 3.0 발표를 메인 공지에 표시했었는데...
Cloudera와 합병 이후에는 HDP 관련 내용을 찾아보기 힘들다.
Cloudera가 Hortonworks를 인수한 것이라 이해는 되지만, HDP를 모르는 사람은 찾기도 힘들다.
Docker 셋팅 파일 다운로드
Hortonworks에서 제공하던 Sandbox는 아래 URL에서 다운로드 가능하다.
해당 페이지 좌측의 Hortonworks HDP의 Download Now를 클릭한다.
CHOOSE INSTALLATION TYPE에서 셋팅하고자 하는 유형을 선택한다.
- VMware, VirtualBox, Docker 3가지를 지원한다.
- Docker를 사용할 것이므로 Docker를 선택하고 LET'S GO!를 클릭한다.
로그인하거나 개인정보를 입력하라는 창이 표시된다. 적당히 작성한다.
정보 입력 하단에 체크박스 3개가 표시된다. 필요에 맞게 체크하고 Continue 버튼을 클릭한다.
- 첫번째 - 뉴스레터나 이벤트 등 정보성 메일의 수신 여부
- 두번째 - Cloudera에 정보를 제공하여 관련 제품이나 서비스 제안을 받을 것인지 여부
- 세번째 - 해당 제품 관련하여 Cloudera가 먼저 연락하는 것에 동의하는지 여부
Hortonworks 시절에 다운로드 할 땐 이 정도는 아니었던 것 같은데, Cloudera 정책은 맘에 안든다.
필요한 것이 없어 체크하지 않았다.
Continue 버튼을 클릭하면 사용 동의 창이 나타난다. 동의 항목에 체크하고 Submit을 클릭한다.
(2019년 1분기에 인수했는데 2021년 8월까지 내용 수정 안한거 보니 찬밥 신세가 맞는것 같다..)
Submit 버튼을 클릭하면 다운로드 화면으로 연결된다.
HDP Docker 3.0.1 (Latest)와 Older Version에 2.6.5를 확인할 수 있다.
필요한 버전을 클릭해서 다운로드한다.
이후 포스팅에서 2.6.5와 3.0.1을 나눠서 정리할 예정이다.
다운로드 되는 파일은 bash 스크립트 파일이 포함 된 압축 파일이다.
압축을 해제하고 sh 파일을 실행하면 다음 과정을 수행한다.
- Dockerhub에서 sandbox-hdp와 sandbox-proxy Docker 이미지를 다운로드한다.
- sandbox-hdp 컨테이너를 실행한다.
- sandbox-proxy 컨테이너 실행을 위한 포트를 설정한다.
- sandbox-proxy 컨테니어를 실행한다.
메모리는 최소 10G 이상이 필요하며, 이미지의 크기는 3.0.1 버전이 21.2GB, 2.6.5 버전이 15GB 정도이다.
Spark은 모두 2.x 버전이므로 하드웨어 사양과 필요를 고려해서 버전을 선택하면 된다.
설치 방법과 튜토리얼 활용하기
Cloudera (舊 Hortonworks) 홈페이지에서 HDP Sandbox의 설치 방법과 튜토리얼을 제공한다.
설치 방법은 아래 사이트를 참고한다.
튜토리얼은 각 페이지마다 표시되는 아래 그림의 링크를 활용한다.
Cloudera 정책인지는 몰라도 접근할 때마다 개인정보를 입력해야 해서 귀찮다.
각 버전별 기술 문서는 아래 사이트를 참고한다.
Version 부분을 클릭하면 과거 버전 문서도 참고할 수 있다.
다음 포스팅에서는 HDP Sandbox 2.6.5 버전과 3.0.1 버전을 셋팅하고, 하둡 클러스터를 관리하는 Ambari에 로그인 하는 과정을 진행한다.
'::: 데이터 분석 :::' 카테고리의 다른 글
배포한 HDP Sandbox Docker 이미지 사용을 위한 스크립트 작성 (0) | 2021.09.30 |
---|---|
설정 변경한 HDP Sandbox 2.6.5의 Docker 이미지 배포 (0) | 2021.09.27 |
HDP Sandbox 2.6.5 접속 관련 참고사항 (0) | 2021.09.23 |
HDP Sandbox 2.6.5 HDFS에 데이터 업로드 하기 (0) | 2021.09.20 |
HDP Sandbox 2.6.5 Docker 설정과 Ambari 로그인하기 (0) | 2021.09.16 |