본문 바로가기
Ceph

Ceph란 무엇인가? (1)

by 진꿈청 2024. 2. 9.

지난해 Ceph와 관련된 논문을 작성하였고 관련 내용을 까먹지 않기 위해 정리하려 한다.

 

우선, Object/Block/File Storage에 대해 간략히 설명한다.

 

Object Storage

 

Ceph를 설명하기에 앞서 우리는 먼저 Object Storage라는 것을 알아야 한다.

Object Storage는 객체라고 하는 비정형 형식의 데이터를 저장하고 관리하는 기술이다.

현대적인 조직에서는 사진, 동영상, 이메일, 웹 페이지, 센서 데이터 등 다량의 비정형 데이터를 생성하고 분석한다.

 

Object Storage클러스터를 통해 데이터를 여러 대의 물리적 디바이스에 분산하지만 사용자는

단일의 가상 스토리지 리포지토리에서 효율적으로 콘텐츠에 엑세스가 가능하다.

 

따라서, Object Storage 솔류선은 규모와 유연성이 필요한 클라우드 네이티브 애플리케이션 구축에 적합.

또한, 분석, 백업 또는 아카이브를 위해 기존 데이터 스토어를 가져오는 데 사용할 수도 있다.

 

이런 Object Storage에서 굉장히 중요한 것은 메타데이터이다.

Object Storage에서 객체는 단일 버킷에 보관되며 폴더 안의 파일이 아닌 대신

파일을 구성하는 데이터의 조각을 결합하고 사용자가 생성한 모든 메타데이터

해당 파일에 추가한 다음 사용자에 대한 식별자를 연결한다.

 

여기서 기존 File Storage와 같은 계층화된 스토리지와 반대되는 플랫 구조가 생성된다.

따라서, 사용자는 파일 유형과 관계없이 해당하는 기능 및 특성을 기준으로,

버킷의 모든 객체를 분석 및 빠르게 접근이 가능하다.

 

해당 아키텍처는 기존 스토리지의 확장 제한을 없애준다.(Object Storage클라우드 스토리지가 된 이유)

 

 

따라서, 정리하자면 Object Storage는 아래와 같은 장점이 있다.

 

Object Storage의 장점

  1. 액세스 용이성: 데이터를 쉽게 검색하고 클라우드에서 액세스하며 바로 분석할 수 있음.
  2. 효율적 관리: 비정형 데이터에 정형성을 부여함으로써 많은 양의 컨텐츠를 효율적으로 저장 관리할 수 있음.
  3. 확장성: 계층형 구조를 가진 기존 스토리지와는 달리 오브젝트 스토리지는 데이터가 커져도 복잡해지지 않음.
  4. 타 서비스와의 연동: 클라우드 서비스 내에서 제공되는 다른 서비스들과 통합 및 연동 가능.

 

그렇다면 Block Storage는?

 

 

Block Storage는 데이터를 일정한 크기의 덩어리로 나누어 저장하는 방식.

블록은 파일보다는 작은 단위로서 조각으로 나누어 저장한다고 이해.

이렇게 나누어진 각각의 블록은 고유한 주소를 가지고 있음.

이 주소를 통하여 블록들을 재구성하여 데이터를 불러올 수 있다.

SAN(Storage Area Network) 또는 가상머신의 디스크로 사용되며, 정형화된 데이터를 빠르게 처리하는 용도로 많이 사용됨.

 

Block Storage는 주차장에 비유.

주차장의 한 구획이 블록으로 비유되어 특정 공간에 차를 주차하듯이 정해진 블록에 데이터를 저장한다.

 

SAN: 서버와 스토리지를 저장 장치 전용 네트워크로 상호 구성. DAS + NAS의 장점 = SAN

           근거리 네트워크 환경을 구성하여 빠른 속도로 데이터 처리 및 스토리지 공유 가능.

 

장점

블록 스토리지에서는 고유 주소가 있어 파일 스토리지와 달리 계층 구조도 필요 없고, 경로도 하나만 있는 것이 아니라
다양하게 가지고 있다.(그만큼 데이터를 신속하게 검색할 수 있다는 뜻)

또한, 파티션으로 분할될 수 있어 서로 다른 운영 체제에서 액세스를 할 수 있다.

자유롭고 효율적으로 안정적이기 때문에 대규모 DB 운영에 잘 맞습니다.

 

단점

비용이 많이 든다는 점이 단점.

메타데이터 처리제한적이기 때문에 데이터 단위가 아닌 애플리케이션 또는 데이터베이스 수준에서,

작업을 진행하여 관리자의 부담이 있다.

 

그렇다면 File Storage는?

 

File Storage는 파일과 폴더의 계층구조로 이루어진 방식

가장 일반적이면서 개인적으로 익숙한 방식. 파일을 찾으려면 경로를 알아내야 함

파일들을 이름, 위치, 생성일, 수정일, 크기 등의 제한적인 메타데이터를 가지고 있음

따라서, 파일이 늘어나면 데이터도 늘어나고 파일을 찾는 것도 그만큼 힘들어짐

File Storage는 일반적으로 NAS에 사용됨

 

NAS: 서버와 저장 장치를 네트워크로 연결하는 방식. 네트워크를 통해 스토리지에 접속하고, 파일 단위로 관리.

 

장점

파일 스토리지는 오래전부터 사용해온 전통적인 데이터 스토리지 시스템

그만큼 사용이 친숙하고 표준화가 잘 돼 있다는 점이 장점

 

단점

데이터가 많아지면 파일과 폴더를 찾기 위하여 리소스가 많이 들기 때문에 성능이 저하됨

이러한 문제는 더 많은 용량을 추가한다고 해결되지 않고 시스템을 추가하여 스케일 아웃해야 함