본문 바로가기
개발/클라우드 | 인프라

[인프라] IT 인프라 정복하기 3편 - 스토리지 톺아보기

by joey_log 2025. 2. 2.

스토리지
비휘발성 저장장치.
인공지능, IOT 기술 등장으로 데이터 홍수의 시대가 됨.
이에 따라 다양한 데이터 스토리지 기술이 조명받기 시작함. (데이터 레이크, 데이터 가상화 기술 등등)
그래도 근간이 되는 스토리지 기술을 알아두는 것이 중요함.
 

RAID Controller

RAID = 여러 디스크를 하나의 논리적 디스크처럼 사용하는 기술. 디스크의 고가용성과 고성능을 달성한다.
RAID는 HW, SW 적으로 모두 지원이 가능하다.
방식에 따라 RAID Level이 구분된다.
 
RAID 0

Striping

데이터를 서버에 저장할 때, 데이터를 작은 조각인 세그먼트로 나눠서 저장한다. 
RAID 0는 논리적으로 연속된 데이터 세그멘트를 여러 디스크에 분산시켜 저장하는 방법이다.
하나의 디스크 폴트만 발생해도 데이터 전체를 잃어버리게 된다. 
가용성이 낮아 실무에서는 잘 사용되는 방식은 아니다.
가용용량은 디스크의 개수에 따라 증가한다. 300GB 디스크 두 개면 600GB가 되는 방식이다.
 
RAID 1

Mirroring

RAID 0의 낮은 가용성을 보완한 기술이다.
데이터 세그멘트를 다른 디스크에 복제해서 저장한다. 디스크 폴트가 발생해도 데이터 유실이 적다.
즉, 가용성이 높다는 뜻. 대신 가용용량이 반토막 난다는 단점이 있다. 300GB 디스크 두 개면 총 300GB 밖에 안된다.
 
RAID 5

Parity

 
Striping + Mirroring, 300GB * 4개면 하나의 디스크에만 복제본을 생성하는 식이라 총 가용용량이 900GB가 된다.
다만 복잡한 연산으로 디스크가 망가질 확률이 높다. 
 
RAID 6
데이터 별 패리티를 2개씩 구성해, 2개의 디스크 폴트가 발생해도 데이터를 복구할 수 있는 방식이다. 
RAID 5보다 하드드라이브가 더 필요한 만큼, 성능이 떨어질 수 있다.
 
RAID 10
RAID 1과 0을 중첩해서 사용하는 방식이다. 중첩 레이드, 매우 뛰어난 데이터 보호 기능을 제공한다.

RAID 10

RAID 10 과 0+1 방식은 다른 방식이다. 
두 레이드를 중첩한 레이드의 경우, 구성에 따라 표기법을 달리한다. RAID [하위배열][상위배열] 이런 구성임.
RAID 10 의 경우 하위 배열의 디스크가 고장난 경우, 데이터 손실이 발생하지 않는다.
RAID 0+1의 경우, 하위 배열(RAID 0)의 디스크가 고장난 경우, 데이터 손실이 발생한다. 
 
따라서 대체로 RAID 0+1 방식보다는 RAID 10 방식을 더 선호한다.


Hot Spare
디스크 손실을 대비해서 데이터를 복사한 멤버 디스크 여분을 핫 스페어라고 한다.
 
Rebuilding 
기존 디스크가 망가져서, 핫 스페어를 새로운 멤버 디스크로 장착할 때, 이를 리빌딩이라고 한다.
 
copyback
새로운 디스크를 장착한 후, 핫 스페어에 저장된 데이터를 새로운 디스크로 복귀하는 작업을 말한다. 
필수 작업은 아니고, 이 작업 대신, 신규 디스크를 새로운 핫 스페어로 사용해도 무방하다.
 
JBOD: Just a bunch of disks(drives)

단순히 여러 디스크를 뭉쳐서 데이터를 저장하는 기술. 정말 무식하게 데이터를 저장하기만 하는 기술이다.
순서대로 디스크가 다 차면 다음 디스크에 저장하면서 저장한다. 확장성은 좋지만 성능적으로 유리한 기술은 아니다.
 


RAID 이해도 측정하기

전통적인 스토리지 - DAS, NAS, SAN

DAS
Direct Attached Storage, 직접 연결 저장장치
서버와 스토리지를 케이블로 1대1로 연결해서 접근이 빠르지만 스케일 아웃이 어렵다는 단점이 있다. 
 
NAS
Network Attached Storage, 네트워크 연결 저장장치
서버와 스토리지를 네트워크(LAN)로 연결한 방식으로, 스케일 아웃에 용이해 확장성에 유리하다.
여러 서버가 하나의 스토리지를 바라봐야 할 때 적합한 방식이다.
서버의 접속이 증가하면 성능 저하가 발생할 수 있다.
 
SAN
Storage Area Network, 스토리지 지역 네트워크
서버와 스토리지를 파이버 채널 스위치로 연결한 고속 네트워크 기반의 스토리지 타입이다. 
DAS, NAS를 단점을 보완한 형태로 확장성, 유연성, 가용성 면에서 모두 우수하지만, 상당히 고가의 비용이 단점이다.
 
스케일 아웃
서버를 여러 대 추가해서 시스템을 확장하는 용어


데이터 저장방식
스토리지에는 다양한 방식에 따라 데이터를 저장할 수 있다.
대표적으로 파일, 블록, 오브젝트 스토리지가 있다.
 
파일 스토리지
중첩 계층 구조를 가지는 스토리지 포맷
 
블록 스토리지

블록 스토리지

 
메타 데이터의 예시
해시태그 키워드, 데이터를 표현하는 데이터, 데이터를 쉽게 검색하고 데이터를 관리하고 데이터를 또 다른 데이터와 연계할 수 있다.
 
오브젝트 스토리지

오브젝트 스토리지

 
SDS
Software Defined Storage
기존 소프트웨어의 종속성을 제거하고, 일반 x86 서버에서 스토리지를 동작하도록 하는 기술이 등장한다.
무중단 서비스를 유지하면서 스케일 아웃도 쉽게 할 수 있게 됨.

 
SDS 사용 예시 -> HCI 
HCI: Hyper Converged Infrastructure
기존의 3-티어 아키텍쳐를 하나의 인프라 스택으로 통일하는 기술
 
기존 3-Tier 아키텍쳐의 단점은 서버가 늘어나는 만큼, 스토리지 컨트롤러가 확장되지 못함.
하지만 HCI 에서는 서버의 로컬 디스크를 활용해 스토리지 풀을 만들기 때문에 병목현상 문제가 해결된다.

 
대규모 데이터를 저장할 때는, 백업도 비용이 될 수 있다.
따라서 데이터 중복 저장 기술인 다둡(De-Duplication) 기술로 HCI 환경에서 저장 공간을 아낄 수 있다.


HCI 내용 조금 어려운 것 같다...
3-Tier 아키텍쳐와 함께 공부하기..!