::: IT인터넷 :::

Hadoop Edge 노드 구성하기 (2) - 하둡 클라이언트 설정

곰탱이푸우 2023. 10. 9. 08:20

HDFS를 CLI 환경에서 사용하기 위해서는 하둡 클라이언트가 반드시 설치되어 있어야 한다.

Docker 컨테이너의 설정 변경이 완료되면 컨테이너 내부에 하둡 클라이언트를 설정한다.

하둡 클러스터 구성 방법은 아래 문서를 참고한다.

[Ambari 2] CentOS 7 가상 환경 생성

Ambari 설치를 위한 CentOS7 가상 환경을 생성한다. Ambari 소개에 대한 내용은 다음 문서를 참고한다. [Ambari 1] Apache Ambari 소개 하둡 에코시스템을 설치하기 위해 각 구성요소들을 직접 개별 설치하는

www.bearpooh.com

[Ambari 3] CentOS 7 기본 설정

가상환경에 CentOS 운영체제를 설치했으므로, 이후 필요한 기본 설정을 진행한다. CentOS 설치를 위한 가상환경 설정은 아래 포스팅 (문서)를 참고한다. [Ambari 2] CentOS 7 가상 환경 생성 Ambari 설치를

www.bearpooh.com

[Ambari 7] Ambari 설정과 Hadoop, Spark 설치

Ambari 설치를 마쳤으므로 Ambari에 접속해서 하둡과 관련 서비스들을 설치한다. 아래 과정으로 진행한다. Ambari 웹페이지 포트포워딩 Ambari 접속과 Agent 구성 하둡과 관련 서비스 설치와 시작 스냅샷

www.bearpooh.com

에지 노드 구성을 위한 컨테이너 설정 변경 방법은 아래 포스팅을 참고한다.

Hadoop Edge 노드 구성하기 (1) - 컨테이너 설정 변경

현재 하둡 클러스터는 다수의 VirtualBox 가상환경을 이용하여 구성했다. 클러스터의 외부에 있는 다른 서버에서는 데이터 노드 접근이 제한된다. 이러한 이유로 HDFS의 데이터를 클러스터 외부로

www.bearpooh.com

Hadoop 클라이언트

하둡 클러스터에 접근하기 위해서는 아래 과정을 진행한다.

하둡 클라이언트 설치
하둡 클러스터의 환경 설정 파일 적용
하둡 클러스터에 포트포워딩 설정
에지 노드에 하둡 환경 변수 설정

하둡 클러스터를 구성하는 방법은 아래 문서를 참고한다.

[Ambari 7] Ambari 설정과 Hadoop, Spark 설치

www.bearpooh.com

Hadoop 클라이언트 설치

Apache Bigtop 3.2.0에 포함 된 Hadoop의 버전은 3.3.4이다.

따라서 하둡 3.3.4 버전을 에지 노드에 설치해야 한다.

Apache Bigtop 3.2.0 관련 내용은 아래 문서를 참고한다.

[Ambari 5] Bigtop 설치와 Ambari 빌드

가상환경에 공통으로 필요한 JDK와 Maven을 적용했으므로, Bigtop을 설치하고 Ambari 설치 파일을 빌드한다. 현재 yum 저장소에서 ambari 관련 설치 파일은 없기 때문에 불편하지만 직접 빌드해야 한다. C

www.bearpooh.com

하둡 3.3.4 버전 관련 내용과 다운로드 경로는 아래를 참고한다.

특정 경로에 hadoop 경로를 만들고, 다운로드한 하둡 파일의 압축을 해제한다.

$ mkdir ~/hadoop
$ cd ~/hadoop
$ wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
$ tar xvfz hadoop-3.3.4.tar.gz
$ exit

HDFS 설정

하둡 관련 설정은 HDFS, MapReduce, Yarn 등 여러가지가 있다.

데이터 파이프라인에서는 HDFS에 접근하는 것이 가장 중요하므로 HDFS 설정 파일만 활용한다.

HDFS 설정 파일 다운로드

호스트 환경에서 Hadoop 클러스터의 HDFS의 설정 파일을 다운로드한다.

아래 그림과 같이 HDFS - ACTIONS 메뉴로 이동해서 Download Client Configs 버튼을 클릭한다.

HDFS_CLIENT-configs.tar.gz 이름의 파일이 로컬에 다운로드 된다.

에지 노드에 HDFS 설정 파일 복사

다운로드한 설정 파일을 에지 노드 Docker 컨테이너 내부로 전달해야 한다.

컨테이너를 생성할 때 설정한 공유 볼륨을 활용한다.

공유 볼륨 경로에 다운로드한 파일을 복사하고, 컨테이너 내부의 하둡 설정 파일을 교체한다.

# 호스트에서 다운로드한 설정 파일을 Docker 공유 볼륨으로 복사
$ cp ~/Download/HDFS_CLIENT-configs.tar.gz /data2/docker/hadoop-edge/workspace

# 컨테이너 내부로 진입
$ docker exec -it -u hadoop hadoop-edge /bin/bash

$ mkdir ~/hadoop/conf
$ cd ~/hadoop/conf
$ cp /var/workspace/HDFS_CLIENT-configs.tar.gz ~/hadoop/conf
$ tar xvfz HDFS_CLIENT-configs.tar.gz
$ cp ~/hadoop/conf/*.xml ~/hadoop/hadoop-3.3.4/etc/hadoop/

HDFS 설정 파일 주요 내용

설정 파일에서 확인해야 하는 항목은 아래 내용을 참고한다.

해당 설정 값들은 Ambari의 UI에서 수정해야 한다.

core-site.xml - HDFS와의 연결 구성 관리

구분	값	설명
fs.defaultFS	hdfs://bdp01.bearpooh.com:8020	HDFS의 네임노드 주소로 설정
hadoop.proxyuser.<proxyuser>.hosts	*	외부에서 접근하는 사용자의 이름 (허용된 호스트 및 그룹 설정)
hadoop.proxyuser.<proxyuser>.groups: <proxyuser>	*	외부에서 접근하는 사용자의 이름 (허용된 호스트 및 그룹 설정)

hdfs-site.xml - HDFS와 관련 설정 지정

구분	값	설명
dfs.permissions.enabled	false	접근제어 사용하면 true
dfs.namenode.name.dir	/data/hadoop/hdfs/namenode	네임노드의 디렉토리 경로
dfs.datanode.data.dir	/data/hadoop/hdfs/data	데이터노드의 디렉토리 경로
dfs.replication	2	HDFS의 파일 복제 개수 (기본 값은 3)
dfs.blocksize	134217728	HDFS 블록크기 (기본값 128MB)
dfs.webhdfs.enabled	true	웹 HDFS 활성화 여부 (기본값 true)

각 설정 값에 대한 내용은 아래 문서를 참고한다.

[Ambari 11] Ambari 설치하면서 변경하는 설정 정리

Ambari를 설치하면서 변경하는 설정 항목들을 정리한다. 설치 이후에도 변경 가능하지만 가급적 설치 단계에서 변경하면 번거로운 작업들을 상당히 줄일 수 있다. Ambari 설치를 위해 사전에 준비

www.bearpooh.com

포트포워딩 설정

하둡 클러스터의 각 노드들은 VirtualBox 기반으로 구성했으므로, 포트포워딩 설정은 VirtualBox에서 진행한다.

하둡 노드 구성을 위해 가상 환경을 생성하는 방법은 아래 문서를 참고한다.

[Ambari 2] CentOS 7 가상 환경 생성

www.bearpooh.com

네임노드 (보통 1번) 가상 머신을 우클릭하고 Settings - Network - Adapter 1 탭으로 이동한다.

NAT 어댑터로 지정되어 있으며, 하단의 Advanced를 클릭하여 펼침 메뉴를 확대한다.

가장 하단에 있는 Port Forwarding을 클릭하면 아래와 같은 포트 포워딩 설정 화면이 출력된다.

아래와 같이 포트를 지정한다.

각 포트별 의미는 다음과 같다.

8020 - hadoop 명령어가 하둡 클러스터의 네임노드와 통신
50070 - 하둡 클러스터의 네임노드 UI (HDFS의 파일 탐색기도 사용 가능)
50010 - 하둡 클러스터의 데이터 노드 통신에 사용 (네임노드의 IP 지정)
8080 - Ambari의 웹 UI

IP는 192.168.56.201이며, 호스트 전용 어댑터로 구성한 첫번째 노드의 IP 주소이다.

다른 호스트에도 하둡 클러스터를 구성했다면 해당 서버에도 미리 설정해둔다.

환경 변수 추가

bash_profile에 환경 변수를 추가한다.

HADOOP_HOME 환경 변수 설정
PATH 환경 변수에 JAVA_HOME과 HADOOP_HOME 환경 변수 추가 (마지막에 /bin 추가 필요)
.bashrc가 실행되지 않은 경우 .bashrc 실행 (업데이트)

bash_profile에 적용한 이유는 SSH로 접근할 때도 해당 환경 변수를 사용하기 위함이다.

진행 과정은 아래 내용을 참고한다.

$ vi ~/.bash_profile

# 사용자 지정 환경 변수 및 PATH 설정 등을 추가
export HADOOP_HOME=/home/hadoop/hadoop/hadoop-3.3.4
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

# .bashrc 파일 실행
if [ -f ~/.bashrc ]; then
    source ~/.bashrc
fi

# 다른 초기화 스크립트 또는 설정 추가

$ source ~/.bash_profile

HDFS 정상 접근 확인

hadoop 명령어와 임의의 파일을 사용하여 HDFS에 정상 접근 되는지 확인한다.

호스트의 hosts에 에지 노드 추가

IP가 아닌 FQDN을 사용하기 위해 호스트의 hosts에 IP와 FQDN을 추가한다.

에지 노드가 아닌 호스트 환경임을 명심한다.

$ sudo vi /etc/hosts

192.168.56.201 bdp01.bearpooh.com
192.168.56.202 bdp02.bearpooh.com
192.168.56.203 bdp03.bearpooh.com
호스트의IP주소 bdp-edge.bearpooh.com

HDFS 접근 확인

아래 명령을 실행하여 정상적으로 파일 목록이 출력되는지 확인한다.

# 에지 노드 내부 진입
$ ssh -p 2222 hadoop@bdp-edge.bearpooh.com

# HDFS 루트 경로의 파일 목록 출력
$ hadoop fs -ls /

아래와 같이 목록이 출력되면 정상적으로 연결된 것이다.

이어서 임의 파일로 hadoop 업로드와 삭제 명령어를 테스트한다.

$ hadoop fs -copyFromLocal /path/to/file /target/hdfs/path/
$ hadoop fs -ls /target/hdfs/path/
$ hadoop fs -rm -r -f /target/hdfs/path/file/
# 휴지통에 백업하지 않고 바로 삭제를 원하는 경우
$ hadoop fs -rm -r -f -skipTrash /target/hdfs/path/file

아래와 같이 업로드와 삭제가 진행되면 정상이다.

MinIO 클라이언트

에지 노드는 MinIO와 HDFS를 중계하기 위해 구성한다.

MinIO 클라이언트 구성 방법은 아래 포스팅을 참고한다.

Hadoop Edge 노드 구성하기 (3) - MinIO 클라이언트 설정

에지 노드를 구성한 목적이 HDFS와 MinIO 사이의 데이터 파일을 중계하는 것이다. 에지 노드에서 연결하기 위한 MinIO의 클라이언트 환경을 구성한다. 하둡 클라이언트 설정 방법은 아래 포스팅을

www.bearpooh.com

저작자표시 비영리 변경금지 (새창열림)

'::: IT인터넷 :::' 카테고리의 다른 글

Hadoop Edge 노드간 통신 설정하기 (56)	2023.10.16
Hadoop Edge 노드 구성하기 (3) - MinIO 클라이언트 설정 (59)	2023.10.12
Hadoop Edge 노드 구성하기 (1) - 컨테이너 설정 변경 (0)	2023.10.05
pyproject.toml을 이용한 파이썬 패키징 (3) - 실제 적용하기 (0)	2023.09.28
pyproject.toml을 이용한 파이썬 패키징 (2) - pyproject.toml의 등장 (0)	2023.09.25

현재글Hadoop Edge 노드 구성하기 (2) - 하둡 클라이언트 설정

:::: 곰탱푸닷컴 ::::

Hadoop Edge 노드 구성하기 (2) - 하둡 클라이언트 설정

Hadoop 클라이언트

Hadoop 클라이언트 설치

HDFS 설정

HDFS 설정 파일 다운로드

에지 노드에 HDFS 설정 파일 복사

HDFS 설정 파일 주요 내용

포트포워딩 설정

환경 변수 추가

HDFS 정상 접근 확인

호스트의 hosts에 에지 노드 추가

HDFS 접근 확인

MinIO 클라이언트

'::: IT인터넷 :::' 카테고리의 다른 글

'::: IT인터넷 :::'의 다른글

티스토리툴바

Hadoop Edge 노드 구성하기 (2) - 하둡 클라이언트 설정

Hadoop 클라이언트

Hadoop 클라이언트 설치

HDFS 설정

HDFS 설정 파일 다운로드

에지 노드에 HDFS 설정 파일 복사

HDFS 설정 파일 주요 내용

포트포워딩 설정

환경 변수 추가

HDFS 정상 접근 확인

호스트의 hosts에 에지 노드 추가

HDFS 접근 확인

MinIO 클라이언트

'::: IT인터넷 :::' 카테고리의 다른 글

'::: IT인터넷 :::'의 다른글

관련글

티스토리툴바