NPU là gì và tại sao các công ty công nghệ lớn đột nhiên bị ám ảnh?

Có một CPU. Có GPU . Trong năm qua, mọi công ty công nghệ đều nói về “NPU”. Nếu bạn không biết hai điều đầu tiên, có lẽ bạn sẽ bối rối về điều thứ ba và tại sao mọi ngành công nghệ đều ca ngợi lợi ích của bộ xử lý thần kinh. Như bạn có thể đoán, tất cả là do chu kỳ cường điệu hóa đang diễn ra xung quanh AI. Chưa hết, các công ty công nghệ còn khá tệ trong việc giải thích chức năng của những NPU này hoặc lý do bạn nên quan tâm.
Nội dung liên quan
Mọi người đều muốn có một miếng bánh AI. Google đã nói “AI” hơn 120 lần trong hội nghị nhà phát triển I/O tháng này , nơi khả năng của các ứng dụng và trợ lý AI mới thực tế đã khiến những người chủ trì nó mê mẩn. Trong hội nghị Build gần đây, Microsoft đã giới thiệu tất cả về PC Copilot+ dựa trên ARM mới sử dụng Qualcomm Snapdragon X Elite và X Plus. CPU vẫn sẽ cung cấp NPU với 45 TOPS. Điều đó nghĩa là gì? Chà, PC mới sẽ có thể hỗ trợ AI trên thiết bị. Tuy nhiên, khi bạn nghĩ về nó, đó chính xác là những gì Microsoft và Intel đã hứa vào cuối năm ngoái với cái gọi là “ AI PC ”.
Nội dung liên quan
- Tắt
- Tiếng Anh
Nếu bạn mua một chiếc máy tính xách tay mới có chip Intel Core Ultra trong năm nay với lời hứa về AI trên thiết bị, có lẽ bạn sẽ không hài lòng lắm khi bị bỏ lại phía sau. Microsoft đã nói với Gizmodo rằng chỉ những PC Copilot + mới có quyền truy cập vào các tính năng dựa trên AI như Recall “do các chip chạy chúng”.
Tuy nhiên, đã có một số tranh cãi khi rò rỉ nổi tiếng Albacore tuyên bố họ có thể chạy Recall trên một PC dựa trên ARM64 khác mà không cần dựa vào NPU. Máy tính xách tay mới vẫn chưa có sẵn, nhưng chúng ta sẽ phải chờ xem áp lực mà các tính năng AI mới gây ra cho bộ xử lý thần kinh là bao nhiêu.
But if you’re truly curious about what’s going on with NPUs and why everyone from Apple to Intel to small PC startups are talking about them, we’ve concocted an explainer to get you up to speed.
Explaining the NPU and ‘TOPS’

So first, we should offer the people in the background a quick rundown of your regular PC’s computing capabilities. The CPU, or “central processing unit,” is—essentially—the “brain” of the computer processing most of the user’s tasks. The GPU, or “graphics processing unit,” is more specialized for handling tasks requiring large amounts of data, such as rendering a 3D object or playing a video game. GPUs can either be a discrete unit inside the PC, or they can come packed in the CPU itself.
In that way, the NPU is closer to the GPU in terms of its specialized nature, but you won’t find a separate neural processor outside the central or graphics processing unit, at least for now. It’s a type of processor designed to handle the mathematical computations specific to machine learning algorithms. These tasks are processed “in parallel,” meaning it will break up requests into smaller tasks and then process them simultaneously. It’s specifically engineered to handle the intense demands of neural networks without leveraging any of the other systems’ processors.
The standard for judging NPU speed is in TOPS, or “trillions of operations per second.” Currently, it’s the only way big tech companies are comparing their neural processing capability with each other. It’s also an incredibly reductive way to compare processing speeds. CPUs and GPUs offer many different points of comparison, from the numbers and types of cores to general clock speeds or teraflops, and even that doesn’t scratch the surface of the complications involved with chip architecture. Qualcomm explains that TOPS is just a quick and dirty math equation combining the neural processors’ speed and accuracy.
Perhaps one day, we’ll look at NPUs with the same granularity as CPUs or GPUs, but that may only come after we’re over the current AI hype cycle. And even then, none of this delineation of processors is set in stone. There’s also the idea of GPNPUs, which are basically a combo platter of GPU and NPU capabilities. Soon enough, we’ll need to break up the capabilities of smaller AI-capable PCs with larger ones that could handle hundreds or even thousands of TOPS.
NPUs Have Been Around for Several Years on Both Phones and PCs

Phones were also using NPUs long before most people or companies cared. Google talked about NPUs and AI capabilities as far back as the Pixel 2 . Chinese-centric Huawei and Asus debuted NPUs on phones like 2017’s Mate 10 and the 2018 Zenphone 5 . Both companies tried to push the AI capabilities on both devices back then, though customers and reviewers were much more skeptical about their capabilities than today.
Indeed, today’s NPUs are far more powerful than they were six or eight years ago, but if you hadn’t paid attention, the neural capacity of most of these devices would have slipped by you.
Computer chips have already sported neural processors for years before 2023. For instance, Apple’s M-series CPUs, the company’s proprietary ARC-based chips, already supported neural capabilities in 2020. The M1 chip had 11 TOPS, and the M2 and M3 had 15.8 and 19 TOPS, respectively. It’s only with the M4 chip inside the new iPad Pro 2024 that Apple decided it needed to boast about the 38 TOPS speed of its latest neural engine. And what iPad Pro AI applications truly make use of that new capability? Not many, to be honest. Perhaps we’ll see more in a few weeks at WWDC 2024 , but we’ll have to wait and see .
The Current Obsession with NPUs Is Part Hardware and Part Hype

The idea behind the NPU is that it should be able to take the burden of running on-device AI off the CPU or GPU, allowing users to run AI programs, whether they’re AI art generators or chatbots, without slowing down their PCs. The problem is we’re all still searching for that one true AI program that can use the increased AI capabilities.
Gizmodo has had conversations with the major chipmakers over the past year, and the one thing we keep hearing is that the hardware makers feel that, for once, they’ve outpaced software demand. For the longest time, it was the opposite. Software makers would push the boundaries of what’s available on consumer-end hardware, forcing the chipmakers to catch up.
But since 2023, we’ve only seen some marginal AI applications capable of running on-device. Most demos of the AI capabilities of Qualcomm’s or Intel’s chips usually involve running the Zoom background blur feature. Lately, we’ve seen companies benchmarking their NPUs with AI music generator model Riffusion in existing applications like Audacity or with live captions on OBS Studio. Sure, you can find some apps running chatbots capable of running on-device, but a less capable, less nuanced LLM doesn’t feel like the giant killer app that will make everybody run out to purchase the latest new smartphone or “AI PC.”
Thay vào đó, chúng tôi bị giới hạn ở các ứng dụng tương đối đơn giản với Gemini Nano trên điện thoại Pixel , như tóm tắt văn bản và âm thanh . Phiên bản AI nhỏ nhất của Google sắp có trên Pixel 8 và Pixel 8a . Các tính năng AI của Samsung từng chỉ dành riêng cho Galaxy S24 đã được áp dụng cho các điện thoại cũ hơn và sẽ sớm có trên các thiết bị đeo của công ty . Chúng tôi chưa đánh giá tốc độ của các khả năng AI này trên các thiết bị cũ hơn, nhưng nó chỉ ra rằng các thiết bị cũ hơn từ năm 2021 đã có nhiều khả năng xử lý thần kinh như thế nào.
AI trên thiết bị vẫn bị cản trở do thiếu sức mạnh xử lý cho các sản phẩm dành cho người tiêu dùng. Microsoft, OpenAi và Google cần vận hành các trung tâm dữ liệu lớn với hàng trăm GPU AI tiên tiến từ Nvidia , như H100 (Microsoft và các hãng khác được cho là đang làm việc trên chip AI của riêng họ ), để xử lý một số LLM hoặc chatbot tiên tiến hơn bằng các mô hình như Gemini Advanced hoặc GPT 4o . Điều này không hề rẻ xét về mặt tiền bạc hoặc tài nguyên như điện và nước , nhưng đó là lý do tại sao rất nhiều người tiêu dùng AI tiên tiến hơn có thể trả tiền cho nó đang chạy trên đám mây. Việc AI chạy trên thiết bị mang lại lợi ích cho người dùng và môi trường. Nếu các công ty cho rằng người tiêu dùng yêu cầu các mẫu AI mới nhất và tốt nhất thì phần mềm sẽ tiếp tục vượt xa những gì có thể có trên thiết bị dành cho người tiêu dùng.