반도체 이야기(퍼온 글)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

살아가는 이야기

반도체 이야기(퍼온 글) 본문

컴퓨터, 풀어그림

반도체 이야기(퍼온 글)

감자봤어? 2024. 1. 20. 04:57

AI 응용 분야가 발전하면서 AI 반도체에 대한 요구도 급증하고 있다. 다음은 AI 반도체에 관한 권석준 교수님의 글이다. 앞으로 나아가야 할 방향을 생각하게 만드는 글이라 퍼왔다. 성균관대학교에서 삼성에 내부 총질하는 것이 아닌가 오해할 수도 있겠지만, 앞으로 나아가야 할 방향을 고민하는 글 정도로 생각하는 것이 좋겠다. 해당 분야 업계에 계신 분들이 한 번쯤 생각해 봐야 할 일이 아닌가 싶다.

@ 중간에 용어 설명이 없어 중요한 용어를 몇 가지 정리한다.

GDDR(Graphics Double Data Rate): 그래픽 카드용으로 특별히 설계된 메모리. 칩 주변에 위치하며, GDDR6의 경우 최대 메모리 버스 너비는 384비트이다.
HBM(High Bandwidth Memory): 역시 그래픽 카드용 메모리로서 GPU 내부에 세로로 겹겹이 쌓이는 방식이다. HBM100의 경우 메모리 버스 너비는 5120비트이다.
AP(Application Processor): 스마트폰 등 임베디드 환경에서 CPU 및 GPU 기능을 수행하는 칩셋 묶음

Seok Joon Kwon
2024년 1월 17일

삼성전자는 불과 6-7년 전만 해도 이른바 '초격차'라는 수식어의 사용권을 독점해도 된다고 자부할 정도로 기술력에서든, 원가 경쟁력에서든, 어쨌든 반도체 제조업에서만큼은 한국은 물론, 세계적으로도 타의 추종을 불허할 정도로 독보적인 회사였다. 물론 그 당시에도 삼성전자 내부에서는 늘 위기론을 외치는 목소리가 있었고, 혁신에 대한 목소리도 컸었다.

내가 2년 전 출판 한 '반도체삼국지'의 초고를 쓰기 위해 삼성전자 관련 취재를 하고 있을 때부터 뭔가 안 좋은 이야기를 들을 수 있었는데, 그 안 좋은 이야기도 사실 파운드리 vs 메모리 구도에 대한 것이었지, 메모리 자체에 대한 것은 아니었다. 그렇지만 삼성에 있던 분들이나 삼성전자 사정을 잘 아는 분들은 삼성이 메모리를 바라보는 관점을 빨리 바꿔야 한다는 이야기를 했던 기억이 난다.

2018-2019년 당시만 해도, 지금 AI 반도체의 핵심처럼 여겨지고 있는 메모리반도체인 HBM에 대한 이야기가 그렇게 많지는 않았다. 여전히 DRAM이나 NAND는 범용 (commodity) 반도체였다. commodity 반도체는 좋게 말하면 범용이고, 나쁘게 말하면 톤당 얼마, kg당 얼마 하는 수준으로 팔리는 반도체들이었다. 그래서 쉽게 이야기하면 돈 놓고 돈 먹기의 논리가 통했고, 삼성이 그간 후발 주자들을 죽여 온 방법인 치킨게임이 먹히는 영역이기도 했다. 사실 치킨게임은 시장지배력을 확보하는 데 있어서는 그리 나쁜 전략이 아니다. 애초에 DRAM이 춘추전국시대에서 지금의 3강 구도로 재편된 것도 최소한의 시장지배력과 양산 경쟁력을 갖춘 회사들로 수렴했기 때문이다. 반대로 이야기하면 현재 삼성전자, 하이닉스를 포함한 6-7개 회사가 난립하는 다른 메모리 영역인 NAND 플래시 분야는 구조조정이 예고되어 있다고 봐도 무방하다. 실제로 작년에 키옥시아와 웨스턴 디지털이 합병을 시도했다가 무산된 적이 있고, 올해 두 회사는 큰 변동이 없는 한 다시 합병을 시도할 것이다.

대표적인 commodity 반도체였던 DRAM에 변동이 생기기 시작한 것은 하이닉스의 HBM이 본격적으로 NVIDIA 발 AI 반도체 (더 정확히는 행렬계산 가속기)의 훈풍을 제대로 타면서부터다. 많은 사람들은 하이닉스가 엔비디아와 2016년 이후 딥러닝이 제대로 터지면서 협업을 시작했다고 생각하지만, 사실 하이닉스의 HBM은 그 이전부터 시작된 사업 구조 변화의 결과물이었다. 물론 그 시점에서 삼성도 GDDR를 대체할 수 있을 새로운 HBM를 고민하지 않았던 것은 아니지만, 당시의 삼성은 HBM의 시장성이 크다고 판단하지 않았고, 하이닉스는 반대로 그 시장이 상당히 커질 수 있음을 예상했다. 물론 하이닉스도 예언자는 아니기에, 2013년 처음 HBM 시제품을 내놓을 때까지는 AI 반도체와 '맞춤형' compatible 한 메모리가 될 것이라는 예상은 하지 못 했다. 하이닉스가 처음 HBM 시장을 개척할 때는 그래픽 처리에 대해 GDDR보다 더 빨리 더 저전력으로 구동할 수 있는 방식의 메모리를 구현한다는 것에 방점이 찍혀 있었다.

그래픽 혹은 이미지를 처리한다는 것은 예를 들어 고해상도 이미지를 렌더링 하거나, 이미지를 이어서 동영상을 만들거나, 이미지 안에서 사물의 움직임을 자연스럽게 표현하기 위한 동적 계산 (예를 들어 확산 방정식을 풀거나) 하는 용이다. 그렇지만 애초에 이미지라는 것이 결국 고차원 거대 행렬이라는 것을 생각하면, GDDR이 하는 역할은 이러한 행렬형 데이터를 빨리 로딩하고, 읽어 들이고, 곱하고 더하는 연산을 하고, 필요하면 역행렬을 계산하는 등의 고차 계산을 하여 적절한 데이터를 다시 프로세서에 보내는 것이 주 임무다. HBM이 나왔을 때 GDDR에 익숙하던 메모리반도체 엔지니어들, 임원들은 GDDR이 잘하고 있는데, 굳이 HBM을 더 개발해야 할 이유가 무엇인지 의문을 가졌다.

HBM은 잘 알려져 있다시피 지금 흔히들 이야기하는 PNM이다. 즉, processor near memory다. 여기서 말하는 near는 물리적 거리가 가깝다는 것도 의미하지만, 보다 정확한 의미는 I/O 레이턴시 타임을 최대한 줄였다는 것이기도 하다. 예를 들어 GDDR5 같은 경우 I/O pin은 한 모듈 당 32개고, 프로세서 주변 4 방향에 3개씩 배치되는 방식이므로, available 한 I/O pin 개수는 384개다. 한 모듈의 용량은 2 GB로 잡으면 12개를 배치할 경우, I/O 차례를 기다리는 데이터 버퍼는 24 GB가 된다. 그래픽에 특화되었기 때문에 GDDR5 한 모듈의 pin 당 데이터 전송 속도도 빠른데, 대략 2 GBs 정도 된다. pin의 개수가 384개 이므로, GDDR5의 I/O 전송 속도 (대역폭)는 2*384= 768 GBs 정도 된다. 만약 처리해야 하는 input matrix 용량이 2T 정도 된다면, 1초에 2T를 다 보내는 것은 어려우므로, 768 GB 만큼의 버퍼를 거쳐, 1-2초 정도의 버퍼링 시간을 소요하면서 프로세서와 데이터를 주고받는다는 뜻이다. 이에 반해 HBM은 일단 프로세서 주변에 모듈을 4개만 배치한다. 대신 한 모듈의 pin 개수는 1,024개다. 따라서 총 4,096 pin이 나올 수 있다. 각 모듈은 24 GB를 가지므로, 총 96 GB 용량이고, pin 당 0.8 GBs 정도의 전송 속도를 가지니까, 실제 전송 속도 (대역폭)은 3276.8 GBs 정도 나온다. GDDR5와 비교하면 3-4배 차이다. 이 차이는 당연히 버퍼링을 줄이고 레이턴시를 줄이는 것과 직결된다.

그럼 이런 의문이 생길 것이다. GDDR5도 HBM처럼 PNM으로 배치하면 안 되는가 하는 것이 바로 그것이다. 그런데 HBM과 GDDR의 가장 근본적인 차이는, 메모리 모듈을 수직 적층한 상태에서, 그것을 PNM으로 구성할 수 있는지 여부다. HBM은 예를 들어 2 GB DRAM을 12층 적층하여 한 모듈을 총 24 GB용량을 가지는 모듈로 만든다. 그렇지만 이 12층의 적층 구조가 한 메모리처럼 활용되기 위해서는 하나로 연결될 수 있어야 한다. 이는 1층부터 12층까지 막힘없이 왕복할 수 있는 내부 엘리베이터가 완벽하게 작동할 수 있어야 함을 의미한다. 이를 위해 via hole 공정이 필요한데, 이 공정은 사실 굉장히 난해한 공정이다. 그냥 에칭 (etching)만 잘해서는 안 되고, 정확한 위치에 정확한 속도로 같은 크기의 미세 구멍을 여러 개 겹치지 않게 뚫어야 하기 때문이다. 비유하자면 백 원짜리 동전을 1 m 간격으로 100개 떨어뜨려 세워 놓고, 1 km 밖에서 저격수가 5 mm 직경의 탄환을 쏘아서 100개를 한꺼번에 관통시키는 난도와 맞먹는다.

그러면 GDDR은 이런 구조를 택하지 않는가? 애초에 코어 주변에 12개나 배치하는 까닭이 왜 그럴까 생각해 보면 답이 나온다. 수직으로 굳이 올리지 않고 2차원에서 넓게 마치 코어를 포위하듯 배치하는 방식으로 용량을 늘리는 방식을 택했기 때문이다. 이렇게 하면 메모리 배치는 애초에 메모리 모듈이 들어갈 레이아웃만 잘 정해놓으면 된다. HBM인 이와 달리, 프로세서 core 주변에 최대한 근접하여 모듈이 로직 다이 (logic die) 위에 접합되도록 만들어야 하고, 다시 이 모듈들이 인터포저 (interposer)로 연결되게 만들어야 한다. 이는 코어 따로 메모리 모듈 따로 배치하는 것이 애초에 불가능함을 의미하며, 따라서 어쩔 수 없이 그 유명한 이종접합 기술이 중요해진다.

GDDR도 그러면 HBM처럼 PNM으로 만들고 적층하고 tsv (through silicon via)하면 될 일 아닌가 생각할 수 있다. 애초에 GDDR의 pin의 개수가 HBM보다 작은 것은 GDDR 한 모듈 당 배치할 수 있는 pin의 개수가 작기 때문인데, GDDR은 핀, 즉, 전극 역할을 하는 파트를 모듈 바깥으로 빼어서 모듈끼리 연결하는 구조다. 오래된 건물의 비상계산이 건물 바깥에 주로 있던 것을 생각해 보면 된다. 건물 바깥은 2차원 면이 된다. 따라서 2차원 면에 배치할 수 있는 비상계단의 개수는 한계가 있다. 그렇지만 만약 건물 안쪽에 한 번에 쭉 내려갈 수 있는 엘리베이터나 사다리를 설치하면 훨씬 더 많이 설치할 수 있다. 왜냐하면 건물 내부는 3차원 공간이기 때문이다. 물론 tsv라고 해서 모든 층을 한 번에 다 뚫는 것은 어려울 수 있으니, 여러 우회로가 있을 수 있다. 예를 들어 최근 화두가 되고 있는 패키징 기술인 하이브리드 본딩 (hybrid bonding) 같은 기술은 상하 모듈을 하나로 연결할 때 기존의 micro bump 같은 추가 부품이나 소재, 혹은 공간 사용을 최소화하면서 칩과 칩을 연결할 수 있다. 이러한 하이브리드 본딩이 충분히 성숙 기술이 되면 이제 HBM은 12층이 아니라 24층, 36층 등으로 연결 모듈 숫자를 늘릴 수 있고, 또한 한 층 당 배치할 수 있는 tsv 홀 개수도 더 늘려서 I/O pin의 개수도 더 늘릴 수 있으므로, 고대역폭 성능을 높일 수 있다.

그러면 다시 GDDR과 HBM을 비교해 보자. GDDR는 두 가지 면에서 HBM보다 만들기 쉽다. 일단 적층을 덜 해도 된다는 것, 그리고 코어를 많이 고려하지 않고서라도 메모리에 최적화된 레이아웃을 도입할 수 있다는 것이다. 대신 이러한 선택으로 인해 I/O pin의 개수 증가에 한계가 생기고, 코어에 더 최적화된 메모리 구조를 만들기가 어려워진다. 이러한 한계는 메모리가 감당해야 할 코어 성능이 그렇게 높지 않을 때는 큰 문제가 되지 않았다. 애초에 폰 노이만 구조가 그렇게 짜였기 때문이다. 그렇지만 메모리의 대역폭과 프로세서의 데이터 처리 속도 사이의 격차가 벌어지기 시작하면서, 실제로 컴퓨팅 하드웨어가 사용하는 계산 시간의 상당수가 메모리에서의 I/O 대기 시간 (레이턴시)으로 채워지게 되었고, 이는 프로세서 성능 개선이 별로 효과를 보지 못하게 됨을 의미했다. 그나마 다루는 데이터 크기가 별로 크지 않고, 데이터 처리 속도에 대한 요구도 그리 높지 않을 때는 그럭저럭 버틸만했다. 문제는 코어가 감당해야 하는 데이터 크기와 처리 속도 요구가 갑자기 급증하기 시작했다는 것이다. 그것은 여러 사건이 발생했기 때문이었지만, 가장 상징적인 사건은 2016년의 알파고 사건이었다. 알파고 충격 전후로, 갑자기 기계학습의 주요 관심사는 딥러닝으로 쏠리기 시작했고, 딥러닝의 가장 중요한 계산은 대용량 행렬의 반복 연산, 특히 CNN으로 대표되는 합성곱과, eigenvalue 등을 찾아내는 선형대수 연산에서 가장 중요한 역행렬과 행렬 decomposition 등이 되었다. 다행스럽게도 이미 사람들에게는 이러한 행렬 연산에 특화된 GPU가 있었는데, 문제는 대부분의 메모리는 CPU에 특화된 DDR이었고, GPU에 대해서는 앞서 언급한 GDDR이 담당하는 방식으로 임무가 나뉘어 있었다는 것이다.

2020년대로 가면서 이제 GPU는 어느새 GPU가 아니라 AI 연산기, 가속기로 불리기 시작했고, 다뤄야 할 행렬의 크기는 무지막지하게 커지면서, 심지어 차원이 복잡한 텐서형 데이터가 주종을 이루게 되었다. 이러한 데이터는 처리에도 시간이 걸리지만, 메모리 셀의 레지스터에 데이터 덩어리를 나눠서 배치하는 것만 해도 시간이 많이 걸렸다. 이는 GPU 성능의 발목을 잡는 bottleneck 이 되었다. 이때까지도 삼성전자는 HBM을 아주 진지하게 생각하지 않았던 것 같다. 물론 삼성전자도 패키징 중요성 잘 알고 있었고, 메모리 모듈 적층과 tsv 잘 알고 있었고, 공정 기술도 있었고, 이종접합이나 하이브리드 본딩, 칩렛 본딩과 패키징, CXL이나 인터포져 등 다 좋은 기술이 있었는데, 이것을 왜 특별히 더 HBM에만 몰아줘야 하는지를 잘 납득하지 못했던 것 같다. 아마도 이는 삼성전자가 계속 DRAM에서 지배력을 발휘하고 있었고, 세계 1등이라는 포지션이 주는 안정감 때문이었을 수도 있다.

반대로 하이닉스는 DRAM에서의 삼성 대비, 후발 주자이자 이인자로서, 적절한 포지션이 주는 장점도 있었지만, 그 이인자 포지션은 삼성이 잘 안 하는 영역에 대한 탐색을 허용할 근거가 되기도 했다. 앞서 언급했듯, 최근까지도 DRAM은 톤 당 얼마, kg 당 얼마 같은 commodity 반도체 이미지가 강했고, 언제든 업계의 선두는 이를 빌미로 치킨게임을 벌여서 후발 주자를 죽일 수 있다는 논리가 성립하는 시장이었다. 그렇지만 HBM 수면 위로 부상하면서부터, 더 이상 메모리반도체는 톤 당 얼마의 위치가 아니게 되었다. 톤 당이 아니라, GB 당 혹은 GBs 당 얼마의 시대로 바뀌게 된 것이다. 이는 특히 DDR과 HBM을 기계적으로 비교해 보았을 때 최소 5배에서 많게는 10배까지도 차이가 벌어지게 만드는 기준이 되었다. 무게로는 같은 값어치이더라도, GBs 당으로 따졌을 때는 HBM은 이른바 명품이 되었고, DDR은 이른바 공산품이 되었다.

사실 HBM을 만들기 위해서는 dram 모듈을 적층해야 하므로, 그만큼 dram으로 팔 수 있는 영역이 쪼그라든다. 그렇지만 그렇게 해도 오히려 수익이 더 많이 남는다는 것은 이제는 톤 당이 아니라, GBs 당으로 값어치 기준이 바뀌었기 때문이다. 하이닉스가 2010년대 초반에 HBM 개발에 뛰어들어, 2013년에 1세대 제품을, 2016년데 2세대, 2019-2020년에 3세대로 가면서 이러한 구조적 특징을 제대로 구현하기 시작했는데, 만약 1세대 개발 시점에서 HBM 개발에 대한 프로젝트가 중단되었다면 하이닉스는 지금의 AI 반도체 특수를 누리기 어려웠을 것이다. 초기에는 하이닉스에서도 굳이 물량 희생해 가며 시장도 불확실하고 공정 비용도 더 비싼 HBM을 하는 것에 대해 내부 반대도 있었으나, 결국 2016년 이후, 딥러닝을 위시로 AI가 광풍 시대로 접어들기 시작하면서 이 판단은 제대로 먹히기 시작했고, 하이닉스는 이제 적어도 HBM에 대해서라면 삼성을 이인자로 내려앉게 했다.

HBM에서 치킨게임이 지금으로서는 안 통하는 까닭은 반복해서 이야기하지만 HBM은 commodity memory가 아니기 때문이다. 예를 들어 ddr는 대부분 표준이 통일되어 있어서 어느 보드에서나 잘 작동할 수 있다. 그렇지만 HBM은 애초에 이종접합과 칩렛 패키징이 동반되어야 하고, 무엇보다도 HBM 모듈과 최적 배치되어야 하는 GPU core와의 inter-connection이 제일 중요하다. 그래서 HBM은 그냥 잘 만들고 잘 쌓는다고 될 일은 아니고, core와의 연결과 I/O 대역폭 최적화, 니어 메모리 셀 일부에 단순 작업 공간 배치 등의 맞춤형 최적화가 필요하다. 이는 메모리회사로 하여금 메모리를 넘어, 아예 프로세서 아키텍처와 설계부터 같이 참여하고, 그것을 공정의 최적화에 같이 반영하는 이른바 DTCO (design-technology cooptimization)을 완성해야 함을 의미한다. 이는 메모리회사로 하여금 더 협업 마인드를 갖추는 것을 요구하며, 사실상 코어 회사들을 갑으로, 메모리회사가 을로 작동하는 구조를 받아들여야 함을 의미한다. 또한 메모리만 만들던 시절의 비교적 간단한 패키징을 더 이상 다 이용하지 못하고, 코어와 이종접합, 칩렛 어셈블리에 특화된 CoWoS 같은 새로운 패키징을 받아들이고 이용할 줄 알아야 함을 요구하는 것이다.

아마도 현재 삼성전자가 가장 혼란스러워하고 있는 것은 만년 이인자로 보던 하이닉스는 오히려 엔비디아와 쿵짝을 잘 맞춰가며, HBM3E, 나아가 HBM4도 목전에 두고 있는데, 왜 삼전의 HBM3는 자꾸 엔비디아의 성능 테스트 스크리닝에 걸리느냐는 것일 것이다. 삼전의 메모리 자체는 큰 문제없을 것이다. 진짜 문제는 삼전의 메모리는 애초에 엔비디아의 설계 요구 조건에 최적화된 공정과 소재, 그리고 무엇보다도 엔비디아가 요구하는 레이턴시 최소화와 대기전력 최소화 요건 등을 충분히 통과하지 못했다는 것에 있을 것이다. 아파트 자체는 문제가 없는데, 엘리베이터가 한 대 밖에 없고, 그마저도 느리며, 그마저도 짝/홀수 층 나눠서 타야 하고, 그마저도 간혹 멈추거나, 그마저도 전력을 훨씬 많이 소모하거나, 그마저도 문이 한 번 닫히고 열리는데 오랜 시간이 걸리면 굉장히 사용하기 불편해지는 것과 같다. 이러한 아파트는 인기가 없어서 잘 분양도 안 될 것이다. 삼성은 애초에 이 엘리베이터가 하루게 한두 번 사용되는 것을 감안하여 마치 은퇴한 노인들이 주로 사는 아파트 같은 메모리를 설계하다가, 하루에 수백 번 회사에 출퇴근해야 하는 젊은 주민들이 살아야 하는 아파트를 만들어야 하는 요구를 맞닥뜨린 것이고, 엘리베이터는 물론, 엘리베이터 제어 알고리즘, 엘리베티어 장력, 엘리베이터 여닫이 문까지 모두 다 다시 설계하고 테스트하지 않을 수 없는 상황에 놓인 것이다. 일인자로 오랫동안 자리에 군림해 온 업계의 황제 입장에서는 이 상황이 굉장히 낯설 것이다. 그리고 화도 날 것이다. 엔비디아가 자신들에게 맞추지는 못 할 망정 왜 업계 1위인 자신들이 엔비디아에 맞춰야 하는지 여전히 이해 못 하는 사람도 있을 것이다.

문제는 당분간 AI 광풍은 끝나지 않을 것이라는 점이고, 그 중심에는 엔비디아가 당분간 왕좌를 지키고 있을 것이라는 점이 있을 것이며, 거의 7-8년 가까이 이 엔비디아와 오랫동안 최적화를 이뤄온 하이닉스가 그 수혜를 앞으로도 꽤 많이 독점할 것이라는 점이다. 물론 엔비디아 입장에서도 sole vender에 대한 의존도가 너무 높아지는 것을 경계해야 하므로 secondary vender를 키워야 한다. 그것이 한국 반도체 업계 입장에서는 삼성전자가 되면 좋겠으나, 현재로서는 삼성전자보다는 오히려 업계의 만년 3위 마이크론이 그 자리를 물려받게 될 가능성이 커진다.

마이크론은 미국 기업임에도 불구하고 대부분의 팹은 일본과 대만에 있다. 특히 대만에 있는 팹은 전공정과 후공정이 모두 가능하며, 특히 후공정은 TSMC와 협업하여 이종접합에 특화될 수 있다. 무시하던 마이크론의 tsv 공정 기술도 같은 미국 공정장비 선두 업체들인 램이나 어플라이드 머티리얼 등과 협업하여 안정 단계에 왔으며, 무엇보다 마이크론은 어쨌든 미국 기업이므로 미국의 chips 법안의 우선적 수혜 업체가 될 수 있다. 엔비디아도 어쨌든 미국 기업이므로 마이크론과 거래하게 되면 미국 정부로부터 직간접적인 지원을 받을 수 있으므로, 마이크론의 품질이 괜찮다면 엔비디아 입장에서는 이제 품질이 여전히 의문인 삼성전자 HBM 보다는 마이크론 제품을 쓰는 것이 나을 수 있다. 나는 마이크론이 삼성전자에 앞서 엔비디아 스크리닝을 통과하여 하이닉스에 이어 두 번째로 큰 HBM 공급 파트너가 된다고 해도 전혀 놀라지 않을 것이다.

물론 HBM을 엔비디아에 공급하지 못한다고 해서 삼성전자가 당장 망한다든지, 삼성전자의 메모리 일인자 자리가 위협받는다든지 하는 일은 생기지 않을 것이다. 글로벌 반도체 시장에서 필요로 하는 메모리는 여전히 단순한 DRAM과 낸드가 주종일 것이기 때문이다. 그렇지만 내연기관차 시장에서 공고한 1위를 고수하는 기존의 자동차 업체들이 10년 후에도 계속 자동차 시장 1위를 고수할 것인지 생각해 보면, 그렇지 않을 것이라는 생각에 이르게 되는 것과 마찬가지로, 메모리반도체 시장에서도 이러한 구도의 역전이 발생할 가능성은 높아지고 있다. AI 광풍은 결국 컴퓨팅 하드웨어에 대한 지속적인 성능 개선을 요구하는 것으로 이어질 것이고, 이는 코어의 클럭수 높이기, FLOP 수 높이기 만큼이나, 메모리의 대역폭 증가와 레이턴시 낮추기, PNM-PIM으로의 전이를 요구할 것이기 때문이다. 물론 이가 없으면 잇몸으로 버티는 전략처럼, HBM이 아니라, 그냥 DDR 위에서, 혹은 심지어 낸드 위에서 이를 대체하겠다는 기술들도 꾸준히 시도될 것이다. 문제는 어떤 방식을 취하든, 처음 레이아웃 최적화 단계부터 메모리 배치와 연결 구조가 고려되어야 한다는 것이다. 기존의 독립된 메모리셀 만들던 방식은 이제 더 이상 적어도 AI 가속기에 대해서는 적용될 수 없을 것이다.

과거 일본의 메모리반도체 업체들이 세계 시장을 호령하던 시절, 일본 업체들은 후발 주자였던 삼성이나 현대 (현 하이닉스), LG 반도체의 업력 (양산 기술과 선행 기술)을 그렇게 높게 평가하지 않았다. 이인자였던 한국 업체들은 일본 업체들과 지속적인 기술 경쟁을 하면서도, 일본 업체들이 시도하지 않은 새로운 영역을 계속 개척했고, 동시에 원가 절감할 수 있는 공정을 도입하기도 했다. 선두 업체들은 굳이 할 필요가 없었던 것을 후발주자들은 어쨌든 조금이라도 격차를 줄이기 위해 선택했던 것. 그런 시도들이 쌓이고 또 운대가 몇 번 맞아 선제 투자한 기술이 생각보다 빨리 현세대에 적용되고 치킨게임이 먹히면서 한국 메모리반도체는 2000년대부터 일본과 자리를 바꿨다.

어떤 산업이든 권불십년이고 화무십일홍의 이치를 피해 갈 수는 없다고 생각한다. 그 기간이 반드시 10년이어야 하는 것은 아니지만, 한 산업에서 기술력만으로 오랜 기간 선두권을 고수하는 것은 생각보다 어렵고, 그만큼 후발 주자들의 다양성과 모험심은 언제든 선두주자를 위협할 수 있다. 더구나 그 후발 주자들이 충분한 자금력까지 동원할 수 있다면 사정은 많이 달라질 것이다. 지금은 AI 반도체가 모든 화두를 끌고 가는 블랙홀처럼 작용하지만, 몇 년 후에는 또 다른 기술이나 솔루션이 새로운 돌파구로 작용할 수 있고, 아예 폰 노이만 방식을 탈피하거나 전혀 새로운 개념의 설계가 등장할 수도 있다. 한 가지 확실한 것은 메모리는 범용이고 프로세서는 파운드리라는 이분법은 깨질 것이라는 것이다. 이제는 코어-메모리를 같이 생각해야 하고, 그래서 더더욱 '메모리 파운드리'라는 개념이 진지하게 받아들여져야 할 것이다. 파운드리는 로직 반도체 전용이라는 개념도 깨질 것이고, 삼성전자도 결국 시간의 문제일 뿐, 파운드리를 분사할 수밖에 없을 것이다.

삼성전자가 지금 당장 착수해야 하는 것은 적어도 AI 반도체에 대해서는 갑의 위치를 다 잊어버리고 철저하게 을의 위치에서 다시 시작해야 한다는 것, 그리고 패키징을 예전의 전공정-후공정으로 나누던 시절 소홀히 하던 습관을 버려야 한다는 것, AI 반도체라도 같은 AI 반도체 자체가 아니라 작동 알고리즘에 특화된 연산에 최적화된 프로세서에 대해 맞춤형으로 모듈 설계가 필요하다는 것, 이종접합과 하이브리드 본딩 등의 공정은 공정 자체도 중요하지만 소재 혁신이 반드시 뒤따라야 한다는 것, 엔비디아의 지배력이 당분간 지속되겠지만, 후발 주자, 예를 들어 AMD 같은 기업들은 새로운 방식의 데이터 링크와 인터포져, substrate 최적화 등을 시도할 수 있으니, HBM의 설계 문법도 다양화하고 이들을 파트너로 맞을 준비를 해야 한다는 것, 그리고 하이닉스가 상대적으로 약할 수 있는 경량화 가능한 HBM (일명 mHBM) 등을 생각할 수 있어야 한다는 것 등일 것이다.

삼성전자가 마이크론이나 하이닉스와 차별화될 수 있는 포인트는 여전히 많이 남아 있다. 가장 큰 장점은 파운드리와 메모리를 동시에 할 수 있다는 것이고, 엔드 단에서 모바일이든, 랩탑이든, 가전이든, 전장이든, 애플리케이션 다변화에 대해 다양한 소비자 요구 조건을 테스트할 수 있는 플랫폼 자체가 많다는 것이다. 예를 들어 삼성전자가 계속 모바일을 살리고, 애플을 뛰어넘기 위해서는 애플이 상대적으로 약한 면모를 보이고 있는 edge AI가 가능한 모바일 기기를 세상에 가장 먼저 데뷔시키고 시장을 이끌어 가야 한다. 예를 들어 삼성이 조만간 출시할 갤럭시 S24 같은 경우, 안드로이드폰 최초로 클라우드 도움 없이, 모바일 기기 자체적인 AI 기능을 돌린다고 하는데, 결국 이는 모바일 기기의 근본적인 한계, 예를 들어 폼팩터와 배터리 용량의 한계, 로 인해 아주 고용량, 고속 계산은 하기 어려울 것이다. 대신 저용량, 경량 AI 계산이 가능한 영역을 찾아야 하고, 그것이 먹힐 수 있는 킬러 애플리케이션을 선보여야 한다. 그 애플리케이션에 특화된 HBM와 AP를 동시에 하나로 최적화해야 하고, 이를 기반으로 다양한 플랫폼에 대해서도 확장이 가능한 조합을 탐색해야 한다.

고객들이 스마트폰에서 AI를 쓰게 될 경우, 이들은 스마트폰에서 무거운 LLM을 학습시키거나, 고용량 게임의 Ray-tracing을 계산하거나 하는 용도로는 쓰지 않을 것이다. 오히려 실시간 외국어 동영상을 한국어로 더빙하거나 고해상도 동영상을 무리 없이 stable diffusion 하여 합성하거나 보강하는 것, upscaling 하는 것, 비어있는 data를 reconstruction 하는 것 등을 원할 것이고, 이를 감당할 수 있는 경량화된 HBM과 AP가 필요하다. 내가 삼성의 신사업 책임자라면 게임엔진 구동업체들과 협업하여 최대한 무거운 계산은 삼성의 모바일 컴퓨팅 AI 기반 하드웨어에서 담당하는 식으로 넘기고, 구동은 가볍게 만드는 방식을 구현할 수 있는 방향으로 협업을 제안할 것이다. 이는 소비자들로 하여금 모바일에서도 고성능 ai가 백업이 되는 게임을 즐길 수 있게 해 줄 것이다. 애플은 이게 안 된다. M2, M3 애플실리콘은 애초에 모바일 hbm이 들어올 여지를 남겨두지 않았기 때문이다. 또한 이는 엔비디아나 하이닉스가 온전히 감당하기 어려운 시장이다. 왜냐하면 현재의 GPU를 스마트폰에 넣기는 불가능하기 때문이다.

어쨌든 시장은 점점 복잡해질 것이고, AI가 default로 깔리는 가전제품과 IT 기기들은 이제 같은 AI를 지향하지 않게 될 것이다. 그렇지만 변하지 않는 점이라면 그것은 어쨌든 여전히 꿈과 이상 (AI 알고리즘)에 비해 현실 (컴퓨팅 하드웨어)은 늘 불만족스러울 것이라는 점이고, 그래서 컴퓨팅 하드웨어 잘 만드는 (가격, 전성비, 성능 모두) 업체들이 이 시장의 숨은 강자가 될 것이라는 점이다. 모두가 AI라는 서부 금광으로 향할 때, 이들 업체들은 컴퓨팅 하드웨어라는 청바지를 팔면서 큰 이익을 남길 수 있을 것이다. 삼성전자는 지금이라도 정신 차리고 자신의 단점과 강점을 냉철하게 정리하여 쳐낼 거 쳐내고, 도입할 것은 빨리 도입해야 한다. 매몰비용 아깝더라도 버릴 것은 버려야 하고, 갑의 의식에 푹 젖어 있던 임직원들 정신 교육 다시 시켜야 할 것이다. 여전히 AI를 소프트웨어로만 보던 옛 시절의 인물들은 정신교육을 정신 개조하다시피 다시 시켜야 할 것이고, 연산 과정에서 무엇이 시간을 잡아먹고 있는지를 숫자 단위로 파악하지 못하는 엔지니어들 역시 재교육시켜야 할 것이다. 패키징에 더 많은 투자를 하고, 필요하다면 더 많은 업체를 인수해야 할 것이고, 메모리 파운드리 시대를 주도하겠다는 동탄 선언이라도 해야 할 것이다. 동시에 하이닉스는 HBM만 믿고 있지 말고, 여전히 밸런스가 하나도 맞고 있지 않은 파운드리를 조금씩 키워나가야 할 것이며, 패키징을 더 키울 생각을 해야 한다. 삼성과 하이닉스 모두, 뒤에서 마이크론이 쫓아오고, 더 뒤에서는 YMTC와 CXMT가 중국 내수 시장을 등에 업고, 중국 정부의 전폭적인 자금 지원을 부스터 삼아 쫓아오고 있다는 것을 냉정하게 모니터링해야 한다.

메모리도 권불십년이고, AI 반도체도 권불십년일 것이다. 누가 승자가 되어도 이상하지 않은 시장이고, 10년 후에 지금 유명 회사들이 일본 반도체 회사 꼴이 나지 말라는 보장이 없다. 과거의 교훈도 있고, 최근에 직접 겪은 실패라는 데이터가 있음에도 불구하고 배우는 것이 없다면 패자가 되어도 이상하지 않을 것이다.

저작자표시 (새창열림)

'컴퓨터, 풀어그림' Related Articles

Comments

살아가는 이야기

반도체 이야기(퍼온 글) 본문

반도체 이야기(퍼온 글)

티스토리툴바