반응형

Spark 3

Zeppelin에서 데이터 탐색하기

## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. 업로드한 데이터를 탐색하기 위해 데이터를 열어서 일부 레코드를 확인한다. Zeppelin을 설정하는 방법은 다음 포스팅을 참고한다. Zeppelin 설정하고 노트북 생성하기 ## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소 www.bearpooh.com Zeppelin에서 ..

Zeppelin 설정하고 노트북 생성하기

## 참고사항 ## 빅데이터나 하둡 관련 전문가가 아니기 때문에 일부 부족한 내용이 있을 수 있습니다. 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. Zeppelin은 Spark 기반의 데이터 분석을 위한 인터프리터 환경을 제공한다. 파이썬의 데이터 분석 도구인 Jupyter Notebook과 비슷하다. Zeppelin은 HDP Sandbox에 포함되어 있으며, Docker로 Zeppelin만 독립적으로 사용할 수도 있다. HDP Sandbox에 포함 된 Zeppelin은 내부 Hadoop과 Spark을 기반으로 동작한다. Zeppelin을 독립적인 Docker로..

HDP Sandbox 소개와 Docker 셋팅 파일 다운로드

참고사항 본 글은 2018년에 기술 조사를 진행하면서 확인한 내용으로, 최신 상황에 맞게 업데이트 하였으나 일부 부족한 내용이 있을 수 있습니다. 빅데이터나 하둡 관련 전문가가 아니기 때문에 셋팅과 기본적인 사용 외에, 하둡과 관련 생태계 운영의 트러블 슈팅은 잘 모릅니다. 오픈소스 특성상 직접 조사하고 해결해야 하는 부분이 많습니다. 기본 셋팅 관련해서 참고만 부탁 드립니다. 개요 Hadoop과 Spark를 공부하거나 테스트 하는 입장에서 직접 환경을 구축하기는 어렵다. Spark은 Databricks의 무료 클라우드 서비스를 사용하거나, 로컬에 Zeppelin을 설치해서 내장 Spark 라이브러리를 활용한 로컬 모드로 사용할 수 있다. 그러나 직접 Hadoop과 연결된 시스템을 경험하기에 부족한 것이..

::: 데이터 분석 ::: 2021.09.13 (2)
반응형