인공지능(AI) 기술이 빠르게 확산되면서, 전 세계 곳곳에서 전력 부족에 대한 우려가 커지고 있다. 특히 막대한 전기를 소비하는 AI 데이터센터는 전력망에 부담을 주는 대표적인 시설로 지목되고 있다. 특히, 한국이 엔비디아로부터 그래픽 처리 장치(Graphics Processing Unit, GPU) 26만 장을 들여와 AI 개발에 활용할 경우 엄청난 전력 소비에 대한 우려도 제기되고 있다. 일부에서는 GPU 26만장으로 데이터센터를 구축할 경우 약 600메가와트(㎿)의 전력이 소모되고, 이는 신형 대형원전 APR1400급 1기 발전용량(1400㎿)의 절반에 달할 수 있다는 것이다. 그러나 최근 발표된 한 연구는 이와 정반대의 가능성을 제시한다. AI 데이터센터가 전기를 잡아먹는 '괴물'이 아니라, 오히려 전력망을 안정시키는 핵심 자산이 될 수도 있다는 것이다. AI 데이터센터의 대반전인 셈이다. ◇“전력 부담 주는 존재"라는 고정관념의 타파 이번 연구는 미국 에메랄드 AI 연구팀이 주도했고 오라클과 엔비디아, 전력연구소(EPRI) 등에서도 참여했다. 연구 결과는 에너지 분야 최고 권위 학술지인 '네이처 에너지(Nature Energy)'에 지난달 게재됐다. 다만 이 연구는 일반 데이터센터가 아닌 AI를 학습시키는 AI 데이터센터에 적용되는 연구 결과다. 지금까지 데이터센터는 '항상 일정한 전력을 끊임없이 소비해야 하는 시설'로 인식돼 왔다. 전력 수요가 급증하는 시간대에도 소비를 줄이기 어렵다는 점에서 전력망 운영자 입장에서는 관리가 까다로운 존재였다. 그러나 연구팀은 소프트웨어 기반의 '전력 오케스트레이션(power orchestration)' 기술을 활용하면 데이터센터가 전력망 상황에 맞춰 스스로 전력 사용량을 조절할 수 있음을 실증했다. 핵심은 하드웨어를 새로 설치하는 것이 아니라 AI 작업의 특성을 활용해 전력 소비를 유연하게 만드는 방식이l다. ◇전력소비 조절하는 세 가지 '제어 손잡이' 연구팀은 AI 데이터센터의 전력 사용을 조절하기 위해 세 가지 핵심 수단을 제시했다. 첫째, GPU의 클럭(clock) 속도 조절(dynamic voltage and frequency scaling, DVFS)이다. GPU의 연산 속도를 미세하게 낮추면 성능 저하는 최소화하면서도 전력 소비를 줄일 수 있다는 것이다. GPU는 원래 화면 그래픽을 빠르게 처리하기 위해 만들어진 연산 장치인데, 구조적으로 동시에 매우 많은 계산을 한꺼번에 처리하는 데 특화돼 있어, 지금은 AI 연산의 핵심 장비가 됐다. 클럭은 GPU가 1초에 몇 번 계산을 할 수 있는지 결정하는 기준 속도다. DVFS는 GPU의 전압과 클럭 속도를 실시간으로 조절해 전력 소비를 관리하는 기술이다. 핵심 포인트는 조금 속도를 느리게 하는 대신 훨씬 적은 전력으로 계속 작동하게 만드는 방식이다. 이는 GPU가 항상 100% 최고 속도를 필요로 하지 않는 구간이 많기 때문이다. 메모리 접근, 데이터 대기 시간 등으로 이미 병목이 존재한다는 것이다. 따라서 클럭을 5~10% 낮춰도 계산 완료 시간은 거의 차이가 없거나 체감 성능 저하는 매우 제한적인 경우가 많다. 이번에 발표한 논문의 실험에서도 클럭 속도를 조절해 전력은 크게 줄였지만 AI 서비스 품질(QoS)은 유지됐다. 연구팀은 논문에서 “이번 연구는 “GPU는 상황에 따라 속도를 조절할 수 있고, 그 자체가 전력망을 돕는 자원이 될 수 있다는 것을 보여줬다"고 설명했다. GPU는 전력 소비의 원인이면서 동시에 전력 수요를 조절할 수 있는 손잡이가 된 것이다. ◇급하지 않은 작업을 일시 중지할 수도 두번 째 방법은 작업 일시 중지다. 즉각적인 응답이 필요 없는 AI 학습 작업은 전력 수요가 급한 순간 잠시 멈출 수 있다. AI 모델 학습은 본질적으로 다음과 같은 반복 구조를 가진다. '데이터 일부를 읽음 →계산 수행 → 모델 변수 업데이트 → 다음 데이터로 이동'의 과정이 수백만~수십억 번 반복된다. 중요한 점은 이 반복 과정은 연속적일 필요가 없고 중간 상태만 정확히 저장하면 언제든 다시 이어서 계산 가능하다는 것이다. 전력 수요가 급증하면 시스템은 일시 중지 가능한 작업 선별해 안전한 지점에서 저장하고, GPU에서 해당 작업 해제하고 GPU 연산을 중단하게 된다. 이렇게 되면 GPU의 전력 사용 급감한다. 이후 전력 피크가 해소되면 저장된 체크포인트에서 그대로 이어서 학습을 계속하게 된다. 작업을 중단하는 이유는 작업을 '느리게 하는 것(DVFS)'보다 아예 멈추는 것이 가장 빠르고 가장 확실한 가장 큰 전력 감축 수단이기 때문이다. 세번 째 방법은 자원 재할당이다. 특정 작업에 투입되는 GPU의 개수를 조정해 전력 사용량을 관리하는 방식이다. 대규모 AI 학습은 보통 병렬 처리로 이루어진다. 여러 개의 GPU가 데이터를 나눠 계산한다는 의미다. 이 때 GPU 숫자와 성능이 늘 비례하지는 않는다. 동기화 지연이나 메모리 병목현상 등이 일어날 수 있기 때문이다. GPU를 절반으로 줄여도 성능은 절반으로 떨어지지 않는 경우가 많다. 자원의 재할당은 우선 작업별 GPU 최소 요구량 파악하고, GPU를 덜 써도 가능한 작업을 식별한 다음, GPU 개수를 줄인다. 이렇게 확보한 GPU는 다른 작업에 할당하거나 작업을 쉬게 한다. 전력 소모가 많은 GPU를 하나 줄이는 것 자체가 하나의 발전기를 끄는 것과 유사한 효과를 낸다. ◇실제 데이터센터에서 효과 입증 이런 세 가지 방법을 조합하면 데이터센터는 전력망의 요구에 따라 빠르고 정밀하게 반응할 수 있다. 연구팀은 미국 애리조나주 피닉스에 위치한 오라클의 실제 클라우드 데이터센터에서 현장 실험을 진행했다. 256개의 엔비디아 GPU로 구성된 클러스터를 대상으로 실증한 결과, 전력 수요가 가장 높은 피크 시간대에 AI 서비스 품질(QoS)을 유지하면서도 약 3시간 동안 전력 사용량을 최대 25%까지 줄이는 데 성공했다. 특히 주목할 점은 이 성과가 대규모 배터리(ESS) 설치나 설비 교체 없이 순수하게 소프트웨어 제어만으로 달성됐다는 사실이다. 이는 데이터센터의 역할을 근본적으로 다시 보게 만드는 대목이다. 연구팀은 AI 작업을 전력 유연성에 따라 플렉스(Flex, 전력 유연성 단계) 0에서부터 플렉스 3까지 네 단계로 분류했다. 실시간 응답이 필수적인 챗봇이나 검색 서비스는 '플랙스 0'으로 묶어 성능 저하를 허용하지 않는다. 반면 수일 이상 걸리는 대규모 AI 모델 학습 작업은 '플렉스 3'으로 분류해, 전력 상황에 따라 속도를 늦추거나 잠시 중단할 수 있도록 했다. 이 과정에서 내부 시뮬레이터가 각 작업의 전력과 성능 간 관계를 예측하는데, 오차율은 4.52%에 불과했다. 덕분에 '서비스 수준 협약(SLA)'을 위반하지 않으면서도 최적의 전력 감축이 가능하다는 것이다. ◇전 세계 어디서나 적용 가능한 '가상 발전소' 이 기술은 특정 국가나 특별한 설비에 의존하지 않는다. 표준 하드웨어와 기존 클라우드 환경에서 작동하는 소프트웨어 솔루션이기 때문에 데이터센터가 급증하고 전력망 제약이 심한 유럽 국가 등에서도 즉시 적용할 수 있다는 것이다. 마찬가지로 한국에서도 적용이 가능할 것으로 예상된다. 전력망 운영자 입장에서는 새로운 발전소나 송전망을 건설하지 않고도 수요를 관리할 수 있고, 데이터센터는 전력망 안정화에 기여한 대가로 요금 할인이나 인센티브를 받을 수 있다. 양측 모두에게 이익이 되는 구조다. AI 데이터센터를 둘러싼 논의는 이제 “얼마나 전기를 더 쓰느냐"에서 “어떻게 전기를 똑똑하게 쓰느냐"로 이동하고 있는 셈이다. 이번 연구는 AI 시대의 전력 위기를 해결할 실마리가, 역설적으로 AI 데이터센터 그 자체에 있을 수 있음을 보여주고 있다. 한편, 일반 데이터센터에서도 전력 유연성 개념을 제한적으로 적용하는 것은 가능하다. 다만 일반 데이터센터는 웹 서비스, 금융 거래, 데이터베이스 운영 등 실시간성과 연속성이 필수적인 업무가 대부분이어서 작업을 일시 중지하거나 지연시키는 방식의 전력 조정에는 구조적 한계가 있다. 야간 정산, 백업, 로그 분석과 같은 배치성 작업이나 내부 분석 업무에 한해서는 전력 수요가 급증하는 시간대에 작업을 늦추거나 자원을 줄이는 방식이 가능하지만 그 효과는 AI 학습 작업에 비해 크지 않다. 또한 CPU 중심의 일반 서버는 GPU 중심의 AI 서버에 비해 단위 자원당 전력 밀도가 낮아 자원 재할당이나 클럭 속도 조절을 통해 줄일 수 있는 전력 규모도 제한적이다. 이 때문에 일반 데이터센터는 전력망을 적극적으로 조정하는 자산이라기보다는 일부 상황에서만 참여할 수 있는 보조적 수요반응 자원으로 활용될 가능성이 크다. 강찬수 기후환경 전문기자 kcs25@ekn.kr