Data Base/Hadoop, HDFS

Hadoop Distributed File System, HDFS

잇꼬 2024. 3. 11. 22:49
728x90
반응형
SMALL

■ 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS)
1) 하둡은 대용량 데이터를 분산 처리할 수 있는 java 기반의 오픈 소스 프레임워크이다.
2) 구글에 쌓여지는 수많은 빅데이터(웹페이지, 로그성 데이터(iot))들을 RDBMS(오라클)에 입력하고 데이터를 저장하고 처리하려고 시도를 했으나, 데이터가 너무 많아서 실패하고 자체적으로 빅데이터를 저장할 기술을 개발하고 대외적으로 '구글 파일 시스템' 논문을 발표했다. 그 논문을 야후에 있는 더그커팅(하둡을 만든 사람)이 읽고  java 로 구현했다. 

RDBMS(오라클) Hadoop(하둡)
실시간 데이터 처리배치처리
유료 서비스무료, 분산처리


분산 처리: 여러 대의 노드(서버)를 묶어서 마치 하나의 서버처럼 보이게 하고 여러 노드의 자원을 이용해서 데이터를 처리하기 떄문에 처리하는 속도가 빠른 장점이 있다.
 

출처: https://blog.naver.com/arkdata/222208098987


가정)
한 대의 서버로 1 테라 바이트의 데이터를 처리하는데 걸리는 시간은 2시간 반 걸린다 하면?
하둡으로 여러 대의 서버로 병렬로 작업을 하면 2분 내에 데이터를 읽을 수 있다. 

ex) 2008년 뉴욕 타임즈의 130년 분량의 신문기사 1100만 페이지를 하둡을 이용해 하루 만에 PDF로 변환했고 200만원 밖에 비용이 들지 않았다. 만약 하둡이 아닌 다른 서버로 처리했다면 14년이 걸린다.
 

하둡의 장점1) 저렴한 구축 비용
2) 빠른 데이터 처리
하둡의 단점1) 무료이다 보니 유지 보수가 어렵다. 
2) name node가 다운되면 고가용성이 지원되지 않는다.
(단, 하둡2버전부터 해결)

 

728x90
반응형
LIST

'Data Base > Hadoop, HDFS' 카테고리의 다른 글

Hadoop 실행  (0) 2024.03.12
Hadoop 설치  (0) 2024.03.12