컨테이너 6

Livy로 Spark Application 실행하기 (1) - 컨테이너 설정 변경

Livy 서버에 Spark Application 실행을 요청하는 Livy 클라이언트를 구성한다. Livy 클라이언트는 AirFlow를 구성할때 생성한 AirFlow Jupyter 컨테이너에 구성한다. 해당 컨테이너는 Ubuntu 20.04 환경에 conda 가상 환경의 Jupyter Notebook이 실행 중이다. 파이썬 기반의 Livy 클라이언트를 아래 목적으로 실행하는데 편리하다. Livy 서버에 Spark Application을 제출 Livy 서버의 REST API를 호출하여 세션과 배치 작업 제어 굳이 AirFlow와 연동 된 Jupyter Notebook에 Livy Client를 구성한 이유는 다음과 같다. Spark을 이용한 ETL 파이프라인은 AirFlow를 통해 워크플로우를 제어할 것이다...

::: IT인터넷 ::: 2023.10.23

Jenkins에 Scala 빌드머신 연동하기 (1) - Docker 컨테이너 실행

Scala 빌드 머신의 Docker 이미지를 컨테이너로 실행하여 Jenkins 에 Scala 빌드 에이전트로 등록한다. Scala 빌드머신을 Docker로 생성하는 방법은 아래 문서를 참고한다. Docker로 Scala 빌드머신 만들기 (Dockerfile 작성) Scala 개발환경 구성이 완료되면 작성한 Application을 빌드하고 배포해야 한다. 이전에 Jenkins로 Python과 Docker 빌드/배포 환경을 구축한 방법을 활용하여 Scala Application의 빌드 머신을 생성한다. Jenkins www.bearpooh.com Docker로 Scala 빌드머신 만들기 (Dockerfile 폴더 구성) Scala 개발환경 구성이 완료되면 작성한 Application을 빌드하고 배포해야 한다..

::: IT인터넷 ::: 2023.08.21

Docker로 AirFlow 설정하기 (Apache)

Apache에서 제공하는 Docker 이미지로 AirFlow를 설정하는 방법에 대해 정리한다. AirFlow 소개와 구조에 대해서는 다음 포스팅을 참고한다. AirFlow 소개와 구조 데이터 과학 분야에서 ETL 자동화 파이프라인을 구성하는데 사용되는 AirFlow에 대해 알아본다. AirFlow 소개 AirFlow는 Airbnb에서 시작되어 현재 아파치 재단에서 관리 중인 오픈소스 프로젝트이다. Apa www.bearpooh.com Apache에서 제공하는 GitHub과 DockerHub 사이트는 다음과 같다. DockerHub - https://hub.docker.com/r/apache/airflow GitHub - https://github.com/apache/airflow docker-compos..

::: IT인터넷 ::: 2022.03.14

Docker로 PostgreSQL 사용하기

RDBMS에서 가장 유명한 것은 Oracle이다. 그러나 유료이고 주로 대형 프로젝트에 적합하다. 유료라고 나쁜 것은 아니지만 개인이나 소규모 조직에서 사용하기엔 부담스러운 가격인 것은 사실이다. 서비스가 커지거나 데이터가 많아지면 스케일업을 해야 한다. 그러나 실제로 Oracle의 경우 비용 증가가 확실히 부담 되기 때문에 PostgreSQL을 대안으로 전환하는 곳도 많아졌다. 또는 RDBMS 대신 하둡과 같은 빅데이터를 도입하는 경우도 많다. 데이터나 파일들은 MinIO나 하둡 같은 분산 시스템의 도입을 검토할 수 있다. 그러나 메타 정보나 인덱스 정보 같은 소규모 데이터는, 비용 대비 복잡성과 효율성을 비교하면 여전히 RDBMS로 운용하는 것이 적합하다. 오픈소스 데이터베이스 소개 개인이나 소규모 ..

::: IT인터넷 ::: 2022.03.07

배포한 HDP Sandbox Docker 이미지 사용을 위한 스크립트 작성

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에 셋팅과 기본적인 사용 외에, 하둡과 하둡 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. 생성한 이미지를 사용하기 위한 스크립트를 작성한다. Docker 컨테이너 실행할 때 개방하는 포트가 많아서 docker-compose 대신 Shell 스크립트를 사용한다. HDP Sandbox에 대한 소개와 설치 스크립트 다운로드는 다음 포스팅을 참고한다. HDP Sandbox 소개와 Docker 셋팅 파일 다운로드 참고사항 본 ..

리눅스 Docker 컨테이너를 Jenkins 에이전트로 연결하기 (via. SSH)

이전 포스팅에서 jenkins/ssh-agent의 Dockerfile에 Anaconda를 추가하여 Python 빌드를 위한 리눅스 Docker 이미지를 생성하고 배포했다. 자세한 내용은 아래 포스팅을 참고한다. Docker로 Jenkins의 Python 빌드 에이전트 만들기 시놀로지 NAS는 리눅스 기반의 운영체제를 기반으로 한 DSM으로 동작한다. 시놀로지 NAS에 Docker를 기반으로 셋팅한 Jenkins 역시 리눅스 기반이다. 시놀로지 NAS에 Jenkins 구축하기 현재 근무 중인 회 www.bearpooh.com 이제 해당 도커 이미지를 사용해서 컨테이너를 생성하고 Jenkins에 에이전트로 등록해야 한다. 윈도우 환경에서는 Java의 JNLP 파일을 실행하는 방법을 사용했다. 윈도우 가상 환..

::: IT인터넷 ::: 2021.08.16