NPU란 무엇이며 거대 기술 기업이 갑자기 집착하는 이유는 무엇입니까?

CPU가 있습니다. GPU가 있습니다 . 지난 한 해 동안 모든 기술 회사는 "NPU"에 대해 이야기해 왔습니다. 처음 두 가지를 몰랐다면 아마도 세 번째에 대해, 모든 기술 산업이 신경 처리 장치의 이점을 극찬하는 이유에 대해 당황했을 것입니다. 짐작하셨겠지만 이는 모두 AI를 둘러싼 지속적인 과대광고 주기 때문입니다. 그럼에도 불구하고 기술 회사들은 이러한 NPU의 기능이나 관심을 가져야 하는 이유를 설명하는 데 다소 서툴렀습니다.
관련된 컨텐츠
모두가 AI 파이 한 조각을 원합니다. Google은 이번 달 I/O 개발자 컨퍼런스 에서 "AI"라는 단어를 120번 이상 언급했으며 , 새로운 AI 앱과 보조자의 가능성이 실제로 호스트를 황홀하게 만들었습니다. 최근 Build 컨퍼런스 에서 Microsoft는 Qualcomm Snapdragon X Elite 및 X Plus를 사용하는 새로운 ARM 기반 Copilot+ PC에 대해 이야기했습니다. 두 CPU 모두 여전히 45 TOPS의 NPU를 제공합니다. 그게 무슨 뜻이에요? 음, 새 PC는 온디바이스 AI를 지원할 수 있어야 합니다. 하지만 생각해보면 마이크로소프트와 인텔이 지난해 말 이른바 ' AI PC '를 내놓으며 약속한 게 바로 그것이다.
관련된 컨텐츠
- 끄다
- 영어
온디바이스 AI에 대한 약속으로 올해 Intel Core Ultra 칩이 탑재된 새 노트북을 구입했다면 뒤처지는 것에 별로 만족하지 않을 것입니다. Microsoft는 Gizmodo 에 "이를 실행하는 칩으로 인해" Copilot+ PC만이 Recall과 같은 AI 기반 기능 에 액세스할 수 있다고 말했습니다 .
그러나 잘 알려진 유출자 Albacore가 NPU에 의존하지 않고 다른 ARM64 기반 PC에서 Recall을 실행할 수 있다고 주장하자 약간의 논쟁이 있었습니다. 새로운 노트북은 아직 출시되지 않았지만 새로운 AI 기능이 신경 프로세서에 얼마나 많은 압력을 가하는지 지켜봐야 할 것입니다.
그러나 NPU에 무슨 일이 일어나고 있는지, Apple에서 Intel, 소규모 PC 스타트업에 이르기까지 모든 사람들이 NPU에 대해 이야기하는 이유가 정말로 궁금하다면, 우리는 여러분이 빠르게 이해할 수 있도록 설명자를 준비했습니다.
NPU와 'TOPS'에 대한 설명

따라서 먼저 배경에 있는 사람들에게 일반 PC의 컴퓨팅 기능에 대한 간략한 설명을 제공해야 합니다. CPU 또는 "중앙 처리 장치"는 본질적으로 대부분의 사용자 작업을 처리하는 컴퓨터의 "두뇌"입니다. GPU 또는 "그래픽 처리 장치"는 3D 객체 렌더링이나 비디오 게임과 같이 대량의 데이터가 필요한 작업을 처리하는 데 더욱 특화되어 있습니다. GPU는 PC 내부의 개별 장치일 수도 있고 CPU 자체에 들어 있을 수도 있습니다.
그런 면에서 NPU는 그 특수성 측면에서 GPU에 더 가깝지만, 적어도 현재로서는 중앙 처리 장치나 그래픽 처리 장치 외부에 별도의 신경 프로세서를 찾아볼 수 없을 것입니다. 기계 학습 알고리즘과 관련된 수학적 계산을 처리하도록 설계된 프로세서 유형입니다. 이러한 작업은 "병렬"로 처리됩니다. 즉, 요청을 더 작은 작업으로 나눈 다음 동시에 처리합니다. 이는 다른 시스템의 프로세서를 활용하지 않고도 신경망의 높은 요구 사항을 처리하도록 특별히 설계되었습니다.
NPU 속도를 판단하는 기준은 TOPS, 즉 '초당 수조 개의 연산'입니다. 현재 이는 거대 기술 기업들이 신경 처리 능력을 서로 비교하는 유일한 방법입니다. 또한 처리 속도를 비교하는 매우 간단한 방법이기도 합니다. CPU와 GPU는 코어 수와 유형부터 일반 클럭 속도 또는 테라플롭스에 이르기까지 다양한 비교 지점을 제공하며 심지어 칩 아키텍처와 관련된 복잡성을 표면적으로 긁어주지는 않습니다. Qualcomm은 TOPS가 신경 프로세서의 속도와 정확성을 결합한 빠르고 더러운 수학 방정식이라고 설명합니다 .
아마도 언젠가는 CPU나 GPU와 동일한 수준의 NPU를 보게 될 것입니다. 하지만 이는 현재의 AI 과대광고 주기가 끝난 후에야 가능합니다. 그럼에도 불구하고 프로세서에 대한 이러한 묘사 중 어느 것도 확정되지 않았습니다. 기본적으로 GPU와 NPU 기능의 콤보 플래터인 GPNPU에 대한 아이디어도 있습니다. 머지않아 우리는 수백 또는 수천 개의 TOPS를 처리할 수 있는 더 큰 PC로 소형 AI 지원 PC의 기능을 분리해야 할 것입니다.
NPU는 휴대폰과 PC 모두에서 수년 동안 사용되어 왔습니다.

대부분의 사람이나 회사가 관심을 갖기 오래 전부터 전화기는 NPU를 사용하고 있었습니다. Google은 Pixel 2 부터 NPU와 AI 기능에 대해 이야기했습니다 . 중국 중심의 Huawei와 Asus는 2017년 Mate 10 및 2018 Zenphone 5 와 같은 휴대폰에 NPU를 선보였습니다 . 두 회사는 당시 두 장치 모두에 AI 기능을 적용하려고 노력했지만 고객과 리뷰어는 현재보다 기능에 대해 훨씬 더 회의적이었습니다.
실제로 오늘날의 NPU는 6~8년 전보다 훨씬 더 강력합니다. 하지만 주의를 기울이지 않았다면 이러한 장치 대부분의 신경 용량이 부족했을 것입니다.
컴퓨터 칩은 2023년 이전 몇 년 동안 이미 신경 프로세서를 사용했습니다. 예를 들어 Apple의 독점 ARC 기반 칩인 Apple의 M 시리즈 CPU는 이미 2020년에 신경 기능을 지원했습니다. M1 칩에는 11 TOPS가 있었고 M2 및 M3에는 15.8 TOPS가 있었습니다. 그리고 각각 19 TOPS. Apple이 최신 신경 엔진의 38 TOPS 속도를 자랑해야 한다고 결정한 것은 새로운 iPad Pro 2024에 내장된 M4 칩 뿐입니다 . 그리고 어떤 iPad Pro AI 애플리케이션이 이 새로운 기능을 실제로 활용합니까? 솔직히 말해서 많지는 않습니다. 아마도 우리는 몇 주 후에 WWDC 2024 에서 더 많은 것을 보게 될 것입니다. 그러나 우리는 기다려야 할 것입니다 .
NPU에 대한 현재의 집착은 부분적으로는 하드웨어이고 부분적으로는 과대광고입니다

NPU의 기본 아이디어는 CPU나 GPU에서 온디바이스 AI를 실행하는 부담을 덜어 사용자가 PC 속도를 늦추지 않고 AI 예술 생성기든 챗봇이든 AI 프로그램을 실행할 수 있도록 해야 한다는 것입니다. 문제는 우리 모두가 여전히 향상된 AI 기능을 사용할 수 있는 진정한 AI 프로그램을 찾고 있다는 것입니다.
Gizmodo는 지난 1년 동안 주요 칩 제조사들과 대화를 나눴고, 우리가 계속 듣는 것은 하드웨어 제조사들이 한 번만이라도 소프트웨어 수요를 앞질렀다고 느낀다는 것입니다. 오랫동안 그 반대였습니다. 소프트웨어 제조업체는 소비자용 하드웨어에서 사용할 수 있는 것의 경계를 넓혀 칩 제조업체가 따라잡도록 강요할 것입니다.
하지만 2023년 이후로 기기에서 실행할 수 있는 AI 애플리케이션은 극히 일부에 불과했습니다. Qualcomm 또는 Intel 칩의 AI 기능에 대한 대부분의 데모에는 일반적으로 Zoom 배경 흐림 기능 실행이 포함됩니다. 최근에는 Audacity와 같은 기존 애플리케이션에서 AI 음악 생성기 모델 Riffusion을 사용하거나 OBS Studio에서 라이브 캡션을 사용하여 NPU를 벤치마킹하는 회사를 보았습니다. 물론, 기기에서 실행할 수 있는 챗봇을 실행하는 일부 앱을 찾을 수 있지만 성능이 떨어지고 미묘한 LLM은 모든 사람이 최신 스마트폰이나 "AI PC"를 구매하도록 만드는 거대한 킬러 앱처럼 느껴지지 않습니다. ”
대신 텍스트 및 오디오 요약 과 같이 Pixel 휴대폰 에서 Gemini Nano를 사용하는 상대적으로 간단한 애플리케이션으로 제한됩니다 . Google의 가장 작은 AI 버전이 Pixel 8 및 Pixel 8a 에 출시됩니다 . 한때 갤럭시 S24에만 있던 삼성의 AI 기능은 이미 구형 휴대폰에도 적용되었으며 곧 회사의 웨어러블 기기 에도 적용될 예정입니다 . 우리는 구형 장치에서 이러한 AI 기능의 속도를 벤치마킹하지 않았지만, 이는 2021년까지 거슬러 올라가는 구형 장치가 이미 충분한 신경 처리 용량을 갖추고 있었음을 지적합니다.
온디바이스 AI는 소비자 최종 제품의 처리 능력 부족으로 인해 여전히 방해를 받고 있습니다. Microsoft, OpenAi 및 Google은 H100과 같은 Nvidia의 수백 가지 고급 AI GPU를 탑재한 주요 데이터 센터를 운영해야 하며 (Microsoft 및 기타 업체는 자체 AI 칩을 개발하고 있는 것으로 알려짐 ) 모델을 사용하여 고급 LLM 또는 챗봇을 처리해야 합니다. Gemini Advanced 또는 GPT 4o 와 같습니다 . 이는 돈 이나 전력 , 물 과 같은 자원 측면에서 저렴하지 않지만 , 이것이 바로 고급 AI 소비자가 비용을 지불할 수 있는 많은 부분이 클라우드에서 실행되는 이유입니다. 기기에서 AI를 실행하면 사용자와 환경에 도움이 됩니다. 기업이 소비자가 가장 뛰어난 최신 AI 모델을 요구한다고 생각한다면 소프트웨어는 소비자 측 장치에서 가능한 것보다 계속해서 앞설 것입니다.