Arsitektur Komputer Paralel - Panduan Cepat
Dalam 50 tahun terakhir, telah terjadi perkembangan besar dalam kinerja dan kapabilitas sistem komputer. Hal ini dimungkinkan dengan bantuan teknologi Very Large Scale Integration (VLSI). Teknologi VLSI memungkinkan sejumlah besar komponen untuk ditampung pada satu chip dan kecepatan clock meningkat. Oleh karena itu, lebih banyak operasi dapat dilakukan dalam satu waktu, secara paralel.
Pemrosesan paralel juga dikaitkan dengan lokalitas data dan komunikasi data. Parallel Computer Architecture adalah metode pengorganisasian semua sumber daya untuk memaksimalkan kinerja dan kemampuan program dalam batas yang diberikan oleh teknologi dan biaya pada setiap waktu.
Mengapa Arsitektur Paralel?
Arsitektur komputer paralel menambah dimensi baru dalam perkembangan sistem komputer dengan menggunakan jumlah prosesor yang semakin banyak. Pada prinsipnya, kinerja yang dicapai dengan memanfaatkan prosesor dalam jumlah besar lebih tinggi daripada kinerja prosesor tunggal pada suatu titik waktu tertentu.
Tren Aplikasi
Dengan kemajuan kapasitas perangkat keras, permintaan akan aplikasi yang berkinerja baik juga meningkat, yang pada gilirannya menuntut perkembangan arsitektur komputer.
Sebelum era mikroprosesor, sistem komputer berkinerja tinggi diperoleh oleh teknologi sirkuit eksotis dan organisasi mesin, yang membuatnya mahal. Sekarang, sistem komputer berkinerja tinggi diperoleh dengan menggunakan banyak prosesor, dan aplikasi yang paling penting dan menuntut ditulis sebagai program paralel. Dengan demikian, untuk kinerja yang lebih tinggi, baik arsitektur paralel maupun aplikasi paralel perlu dikembangkan.
Untuk meningkatkan kinerja suatu aplikasi, Speedup adalah faktor kunci yang harus dipertimbangkan. Speedup pada prosesor p didefinisikan sebagai -
$$Speedup(p \ processors)\equiv\frac{Performance(p \ processors)}{Performance(1 \ processor)}$$Untuk satu masalah tetap,
$$performance \ of \ a \ computer \ system = \frac{1}{Time \ needed \ to \ complete \ the \ problem}$$ $$Speedup \ _{fixed \ problem} (p \ processors) =\frac{Time(1 \ processor)}{Time(p \ processor)}$$Komputasi Ilmiah dan Rekayasa
Arsitektur paralel telah menjadi sangat diperlukan dalam komputasi ilmiah (seperti fisika, kimia, biologi, astronomi, dll.) Dan aplikasi teknik (seperti pemodelan reservoir, analisis aliran udara, efisiensi pembakaran, dll.). Di hampir semua aplikasi, terdapat permintaan yang sangat besar untuk visualisasi keluaran komputasi yang mengakibatkan permintaan untuk pengembangan komputasi paralel untuk meningkatkan kecepatan komputasi.
Komputasi Komersial
Dalam komputasi komersial (seperti video, grafik, database, OLTP, dll.), Komputer berkecepatan tinggi juga diperlukan untuk memproses data dalam jumlah besar dalam waktu tertentu. Desktop menggunakan program multithread yang hampir seperti program paralel. Ini pada gilirannya menuntut untuk mengembangkan arsitektur paralel.
Tren Teknologi
Dengan perkembangan teknologi dan arsitektur, ada permintaan yang kuat untuk pengembangan aplikasi berkinerja tinggi. Eksperimen menunjukkan bahwa komputer paralel dapat bekerja lebih cepat daripada prosesor tunggal yang paling berkembang. Selain itu, komputer paralel dapat dikembangkan dalam batasan teknologi dan biaya.
Teknologi utama yang digunakan di sini adalah teknologi VLSI. Oleh karena itu, saat ini semakin banyak transistor, gerbang, dan sirkuit dapat dipasang di area yang sama. Dengan pengurangan ukuran fitur VLSI dasar, clock rate juga meningkat secara proporsional, sementara jumlah transistor bertambah sebagai persegi. Penggunaan banyak transistor sekaligus (paralelisme) diharapkan dapat bekerja jauh lebih baik daripada meningkatkan clock rate
Tren teknologi menunjukkan bahwa blok penyusun chip tunggal dasar akan memberikan kapasitas yang semakin besar. Oleh karena itu, kemungkinan menempatkan banyak prosesor pada satu chip meningkat.
Tren Arsitektur
Perkembangan teknologi menentukan apa yang layak; arsitektur mengubah potensi teknologi menjadi kinerja dan kemampuan.Parallelism dan localityadalah dua metode di mana volume sumber daya yang lebih besar dan lebih banyak transistor meningkatkan kinerja. Namun, kedua metode ini bersaing untuk mendapatkan sumber daya yang sama. Ketika beberapa operasi dijalankan secara paralel, jumlah siklus yang diperlukan untuk menjalankan program berkurang.
Namun, sumber daya diperlukan untuk mendukung setiap aktivitas bersamaan. Sumber daya juga diperlukan untuk mengalokasikan penyimpanan lokal. Kinerja terbaik dicapai dengan rencana tindakan perantara yang menggunakan sumber daya untuk memanfaatkan derajat paralelisme dan derajat lokalitas.
Secara umum, sejarah arsitektur komputer telah dibagi menjadi empat generasi yang mengikuti teknologi dasar -
- Tabung vakum
- Transistors
- Sirkuit terintegrasi
- VLSI
Hingga tahun 1985, durasi didominasi oleh pertumbuhan paralelisme tingkat bit. Mikroprosesor 4-bit diikuti oleh 8-bit, 16-bit, dan seterusnya. Untuk mengurangi jumlah siklus yang diperlukan untuk melakukan operasi 32-bit penuh, lebar jalur data digandakan. Kemudian, operasi 64-bit diperkenalkan.
Pertumbuhan instruction-level-parallelismmendominasi pertengahan 80-an hingga pertengahan 90-an. Pendekatan RISC menunjukkan bahwa sangat mudah untuk memilah langkah-langkah pemrosesan instruksi sehingga rata-rata instruksi dieksekusi di hampir setiap siklus. Pertumbuhan teknologi penyusun telah membuat alur instruksi lebih produktif.
Pada pertengahan 80-an, komputer berbasis mikroprosesor terdiri dari
- Unit pemrosesan integer
- Unit floating-point
- Pengontrol cache
- SRAM untuk data cache
- Penyimpanan tag
Saat kapasitas chip meningkat, semua komponen ini digabungkan menjadi satu chip. Jadi, satu chip terdiri dari perangkat keras terpisah untuk aritmatika integer, operasi floating point, operasi memori dan operasi cabang. Selain instruksi individual pemipaan, ia mengambil beberapa instruksi sekaligus dan mengirimkannya secara paralel ke unit fungsional yang berbeda bila memungkinkan. Jenis paralelisme tingkat instruksi disebutsuperscalar execution.
Mesin paralel telah dikembangkan dengan beberapa arsitektur berbeda. Pada bagian ini, kita akan membahas arsitektur komputer paralel yang berbeda dan sifat konvergensinya.
Arsitektur Komunikasi
Arsitektur paralel meningkatkan konsep konvensional arsitektur komputer dengan arsitektur komunikasi. Arsitektur komputer mendefinisikan abstraksi kritis (seperti batas sistem pengguna dan batas perangkat keras-perangkat lunak) dan struktur organisasi, sedangkan arsitektur komunikasi mendefinisikan komunikasi dasar dan operasi sinkronisasi. Ini juga membahas struktur organisasi.
Model pemrograman adalah lapisan atas. Aplikasi ditulis dalam model pemrograman. Model pemrograman paralel meliputi -
- Ruang alamat bersama
- Pengiriman pesan
- Pemrograman paralel data
Shared addresspemrograman sama seperti menggunakan papan buletin, di mana seseorang dapat berkomunikasi dengan satu atau banyak individu dengan memasang informasi di lokasi tertentu, yang dibagikan oleh semua individu lainnya. Kegiatan individu dikoordinasikan dengan mencatat siapa mengerjakan tugas apa.
Message passing seperti panggilan telepon atau surat di mana penerima tertentu menerima informasi dari pengirim tertentu.
Data parallelpemrograman adalah bentuk kerjasama yang terorganisir. Di sini, beberapa individu melakukan tindakan pada elemen terpisah dari kumpulan data secara bersamaan dan berbagi informasi secara global.
Berbagi memori
Multiprosesor memori bersama adalah salah satu kelas terpenting dari mesin paralel. Ini memberikan throughput yang lebih baik pada beban kerja multiprogramming dan mendukung program paralel.
Dalam hal ini, semua sistem komputer memungkinkan prosesor dan satu set pengontrol I / O untuk mengakses kumpulan modul memori dengan beberapa interkoneksi perangkat keras. Kapasitas memori ditingkatkan dengan menambahkan modul memori dan kapasitas I / O ditingkatkan dengan menambahkan perangkat ke pengontrol I / O atau dengan menambahkan pengontrol I / O tambahan. Kapasitas pemrosesan dapat ditingkatkan dengan menunggu prosesor yang lebih cepat tersedia atau dengan menambahkan lebih banyak prosesor.
Semua sumber daya diatur di sekitar bus memori pusat. Melalui mekanisme akses bus, prosesor apa pun dapat mengakses alamat fisik apa pun di sistem. Karena semua prosesor memiliki jarak yang sama dari semua lokasi memori, waktu akses atau latensi semua prosesor sama di lokasi memori. Ini disebutsymmetric multiprocessor.
Arsitektur Penyampaian Pesan
Arsitektur message passing juga merupakan kelas penting dari mesin paralel. Ini menyediakan komunikasi antar prosesor sebagai operasi I / O eksplisit. Dalam hal ini, komunikasi digabungkan pada level I / O, bukan pada sistem memori.
Dalam arsitektur pengiriman pesan, komunikasi pengguna dijalankan dengan menggunakan sistem operasi atau panggilan perpustakaan yang melakukan banyak tindakan tingkat yang lebih rendah, termasuk operasi komunikasi yang sebenarnya. Akibatnya, ada jarak antara model pemrograman dan operasi komunikasi pada tingkat perangkat keras fisik.
Send dan receiveadalah operasi komunikasi tingkat pengguna yang paling umum dalam sistem penyampaian pesan. Kirim menentukan buffer data lokal (yang akan dikirim) dan prosesor jarak jauh penerima. Terima menentukan proses pengiriman dan buffer data lokal di mana data yang dikirim akan ditempatkan. Dalam operasi pengiriman, sebuahidentifier atau a tag dilampirkan ke pesan dan operasi penerimaan menentukan aturan yang cocok seperti tag tertentu dari prosesor tertentu atau tag apa pun dari prosesor apa pun.
Kombinasi pengiriman dan penerimaan yang cocok melengkapi penyalinan memori-ke-memori. Setiap ujung menentukan alamat data lokalnya dan acara sinkronisasi pasangan bijaksana.
Konvergensi
Pengembangan perangkat keras dan perangkat lunak telah memudarkan batas yang jelas antara memori bersama dan kamp yang melewati pesan. Pengiriman pesan dan ruang alamat bersama mewakili dua model pemrograman yang berbeda; masing-masing memberikan paradigma transparan untuk berbagi, sinkronisasi, dan komunikasi. Namun, struktur mesin dasar telah menyatu menuju organisasi bersama.
Pengolahan Data Paralel
Kelas penting lainnya dari mesin paralel disebut - array prosesor, arsitektur data paralel, dan mesin data banyak instruksi tunggal. Fitur utama dari model pemrograman adalah bahwa operasi dapat dijalankan secara paralel pada setiap elemen dari struktur data reguler yang besar (seperti array atau matriks).
Bahasa pemrograman paralel data biasanya dipaksakan dengan melihat ruang alamat lokal dari sekelompok proses, satu per prosesor, membentuk ruang global eksplisit. Karena semua prosesor berkomunikasi bersama dan ada tampilan global dari semua operasi, jadi baik ruang alamat bersama atau penyampaian pesan dapat digunakan.
Masalah Desain Fundamental
Pengembangan model pemrograman hanya tidak dapat meningkatkan efisiensi komputer dan pengembangan perangkat keras saja tidak dapat melakukannya. Namun perkembangan arsitektur komputer dapat membuat perbedaan dalam kinerja komputer. Kami dapat memahami masalah desain dengan berfokus pada bagaimana program menggunakan mesin dan teknologi dasar apa yang disediakan.
Pada bagian ini, kita akan membahas tentang abstraksi komunikasi dan persyaratan dasar model pemrograman.
Abstraksi Komunikasi
Abstraksi komunikasi adalah antarmuka utama antara model pemrograman dan implementasi sistem. Ini seperti set instruksi yang menyediakan platform sehingga program yang sama dapat berjalan dengan benar pada banyak implementasi. Operasi pada level ini harus sederhana.
Abstraksi komunikasi seperti kontrak antara perangkat keras dan perangkat lunak, yang memungkinkan satu sama lain meningkatkan fleksibilitas tanpa mempengaruhi pekerjaan.
Persyaratan Model Pemrograman
Program paralel memiliki satu atau lebih utas yang beroperasi pada data. Model pemrograman paralel menentukan data apa yang dapat dilakukan threadname, yang operations dapat dilakukan pada data bernama, dan urutan mana yang diikuti oleh operasi.
Untuk mengonfirmasi bahwa ketergantungan antara program diberlakukan, program paralel harus mengoordinasikan aktivitas utasnya.
Pemrosesan paralel telah dikembangkan sebagai teknologi yang efektif dalam komputer modern untuk memenuhi permintaan kinerja yang lebih tinggi, biaya yang lebih rendah dan hasil yang akurat dalam aplikasi kehidupan nyata. Peristiwa serentak biasa terjadi di komputer saat ini karena praktik multiprogramming, multiprocessing, atau multicomputing.
Komputer modern memiliki paket perangkat lunak yang kuat dan ekstensif. Untuk menganalisis perkembangan kinerja komputer, pertama-tama kita harus memahami dasar-dasar pengembangan perangkat keras dan perangkat lunak.
Computer Development Milestones - Ada dua tahap utama perkembangan komputer - mechanical atau electromechanicalbagian. Komputer modern berkembang setelah pengenalan komponen elektronik. Elektron mobilitas tinggi di komputer elektronik menggantikan bagian operasional di komputer mekanis. Untuk transmisi informasi, sinyal listrik yang bergerak hampir dengan kecepatan cahaya menggantikan roda gigi atau tuas mekanis.
Elements of Modern computers - Sistem komputer modern terdiri dari perangkat keras komputer, set instruksi, program aplikasi, perangkat lunak sistem, dan antarmuka pengguna.
Masalah komputasi dikategorikan sebagai komputasi numerik, penalaran logis, dan pemrosesan transaksi. Beberapa masalah kompleks mungkin memerlukan kombinasi ketiga mode pemrosesan.
Evolution of Computer Architecture- Dalam empat dekade terakhir, arsitektur komputer telah mengalami perubahan revolusioner. Kami mulai dengan arsitektur Von Neumann dan sekarang kami memiliki multikomputer dan multiprosesor.
Performance of a computer system- Kinerja sistem komputer bergantung pada kemampuan mesin dan perilaku program. Kemampuan mesin dapat ditingkatkan dengan teknologi perangkat keras yang lebih baik, fitur arsitektur canggih, dan manajemen sumber daya yang efisien. Perilaku program tidak dapat diprediksi karena bergantung pada aplikasi dan kondisi waktu proses
Multiprosesor dan Multikomputer
Pada bagian ini, kita akan membahas dua jenis komputer paralel -
- Multiprocessors
- Multicomputers
Multikomputer Memori Bersama
Tiga model multiprosesor memori bersama yang paling umum adalah -
Uniform Memory Access (UMA)
Dalam model ini, semua prosesor berbagi memori fisik secara seragam. Semua prosesor memiliki waktu akses yang sama ke semua kata memori. Setiap prosesor mungkin memiliki memori cache pribadi. Aturan yang sama diikuti untuk perangkat periferal.
Ketika semua prosesor memiliki akses yang sama ke semua perangkat periferal, sistem itu disebut a symmetric multiprocessor. Ketika hanya satu atau beberapa prosesor yang dapat mengakses perangkat periferal, sistem itu disebutasymmetric multiprocessor.
Akses Memori Non-seragam (NUMA)
Dalam model multiprosesor NUMA, waktu akses bervariasi dengan lokasi kata memori. Di sini, memori bersama didistribusikan secara fisik di antara semua prosesor, yang disebut memori lokal. Pengumpulan semua memori lokal membentuk ruang alamat global yang dapat diakses oleh semua prosesor.
Cache Only Memory Architecture (COMA)
Model COMA adalah kasus khusus dari model NUMA. Di sini, semua memori utama yang didistribusikan diubah menjadi memori cache.
Distributed - Memory Multicomputers- Sebuah sistem multikomputer memori terdistribusi terdiri dari beberapa komputer, yang dikenal sebagai node, yang saling terhubung oleh jaringan yang melewati pesan. Setiap node bertindak sebagai komputer otonom yang memiliki prosesor, memori lokal, dan terkadang perangkat I / O. Dalam hal ini, semua memori lokal bersifat pribadi dan hanya dapat diakses oleh prosesor lokal. Inilah mengapa, mesin tradisional disebutno-remote-memory-access (NORMA) mesin.
Komputer Multivector dan SIMD
Pada bagian ini, kita akan membahas superkomputer dan prosesor paralel untuk pemrosesan vektor dan paralelisme data.
Superkomputer Vektor
Dalam komputer vektor, prosesor vektor dipasang ke prosesor skalar sebagai fitur opsional. Komputer host pertama kali memuat program dan data ke memori utama. Kemudian unit kontrol skalar menerjemahkan semua instruksi. Jika instruksi yang didekodekan adalah operasi skalar atau operasi program, prosesor skalar menjalankan operasi tersebut menggunakan pipeline fungsional skalar.
Sebaliknya, jika instruksi yang didekodekan adalah operasi vektor maka instruksi tersebut akan dikirim ke unit kontrol vektor.
Superkomputer SIMD
Di komputer SIMD, sejumlah prosesor 'N' terhubung ke unit kontrol dan semua prosesor memiliki unit memori masing-masing. Semua prosesor dihubungkan oleh jaringan interkoneksi.
Model PRAM dan VLSI
Model ideal memberikan kerangka kerja yang sesuai untuk mengembangkan algoritme paralel tanpa mempertimbangkan batasan fisik atau detail implementasi.
Model dapat diterapkan untuk mendapatkan batasan kinerja teoritis pada komputer paralel atau untuk mengevaluasi kompleksitas VLSI pada area chip dan waktu operasional sebelum chip dibuat.
Mesin Akses Acak Paralel
Sheperdson dan Sturgis (1963) memodelkan komputer Uniprocessor konvensional sebagai mesin akses-acak (RAM). Fortune dan Wyllie (1978) mengembangkan model paralel random-access-machine (PRAM) untuk pemodelan komputer paralel ideal dengan overhead akses memori nol dan sinkronisasi.
PRAM prosesor N memiliki unit memori bersama. Memori bersama ini dapat dipusatkan atau didistribusikan di antara prosesor. Prosesor ini beroperasi pada memori baca, memori tulis, dan siklus komputasi yang disinkronkan. Jadi, model ini menentukan cara penanganan operasi baca dan tulis bersamaan.
Berikut ini adalah operasi pembaruan memori yang mungkin -
Exclusive read (ER) - Dalam metode ini, dalam setiap siklus hanya satu prosesor yang diizinkan untuk membaca dari lokasi memori mana pun.
Exclusive write (EW) - Dalam metode ini, setidaknya satu prosesor diizinkan untuk menulis ke lokasi memori dalam satu waktu.
Concurrent read (CR) - Ini memungkinkan banyak prosesor untuk membaca informasi yang sama dari lokasi memori yang sama dalam siklus yang sama.
Concurrent write (CW)- Ini memungkinkan operasi tulis simultan ke lokasi memori yang sama. Untuk menghindari konflik tulis, beberapa kebijakan disiapkan.
Model Kompleksitas VLSI
Komputer paralel menggunakan chip VLSI untuk membuat array prosesor, array memori, dan jaringan switching skala besar.
Saat ini, teknologi VLSI bersifat 2 dimensi. Ukuran chip VLSI sebanding dengan jumlah ruang penyimpanan (memori) yang tersedia di chip tersebut.
Kita dapat menghitung kompleksitas ruang dari suatu algoritma dengan area chip (A) dari implementasi chip VLSI dari algoritma tersebut. Jika T adalah waktu (latensi) yang diperlukan untuk mengeksekusi algoritme, maka AT memberikan batas atas pada jumlah total bit yang diproses melalui chip (atau I / O). Untuk komputasi tertentu, terdapat batas bawah, f (s), sedemikian rupa
Masuk 2 > = O (f (s))
Dimana A = luas chip dan T = waktu
Jalur Pembangunan Arsitektur
Evolusi komputer paralel saya menyebar di sepanjang trek berikut -
- Beberapa Trek Prosesor
- Trek multiprosesor
- Trek multikomputer
- Beberapa jalur data
- Lagu vektor
- Trek SIMD
- Trek beberapa utas
- Trek multithread
- Trek Dataflow
Di multiple processor track, diasumsikan bahwa utas yang berbeda dijalankan secara bersamaan pada prosesor yang berbeda dan berkomunikasi melalui memori bersama (jalur multiprosesor) atau sistem penyaluran pesan (jalur multikomputer).
Di multiple data track, diasumsikan bahwa kode yang sama dijalankan pada sejumlah besar data. Ini dilakukan dengan menjalankan instruksi yang sama pada urutan elemen data (jalur vektor) atau melalui eksekusi urutan instruksi yang sama pada kumpulan data yang serupa (jalur SIMD).
Di multiple threads track, Diasumsikan bahwa eksekusi interleaved berbagai thread pada prosesor yang sama untuk menyembunyikan penundaan sinkronisasi di antara thread yang dijalankan pada prosesor yang berbeda. Penyisipan benang bisa kasar (trek multithread) atau halus (trek aliran data).
Pada tahun 80-an, prosesor tujuan khusus populer untuk membuat multikomputer disebut Transputer. Transputer terdiri dari satu prosesor inti, memori SRAM kecil, antarmuka memori utama DRAM, dan empat saluran komunikasi, semuanya dalam satu chip. Untuk membuat komunikasi komputer paralel, saluran-saluran dihubungkan untuk membentuk jaringan Transputers. Tetapi ia memiliki kekurangan daya komputasi dan karenanya tidak dapat memenuhi permintaan aplikasi paralel yang semakin meningkat. Masalah ini diselesaikan dengan pengembangan prosesor RISC dan harganya juga murah.
Komputer paralel modern menggunakan mikroprosesor yang menggunakan paralelisme pada beberapa level seperti paralelisme level instruksi dan paralelisme level data.
Prosesor Berkinerja Tinggi
Prosesor RISC dan RISCy mendominasi pasar komputer paralel saat ini.
Karakteristik RISC tradisional adalah -
- Memiliki sedikit mode pengalamatan.
- Memiliki format tetap untuk instruksi, biasanya 32 atau 64 bit.
- Memiliki instruksi pemuatan / penyimpanan khusus untuk memuat data dari memori untuk mendaftar dan menyimpan data dari register ke memori.
- Operasi aritmatika selalu dilakukan pada register.
- Menggunakan pipelining.
Sebagian besar mikroprosesor saat ini adalah superskalar, yaitu dalam komputer paralel beberapa jalur pipa instruksi digunakan. Oleh karena itu, prosesor superscalar dapat menjalankan lebih dari satu instruksi pada waktu yang bersamaan. Efektivitas prosesor superskalar bergantung pada jumlah paralelisme tingkat instruksi (ILP) yang tersedia dalam aplikasi. Agar pipeline tetap terisi, instruksi pada level hardware dijalankan dalam urutan yang berbeda dari urutan program.
Banyak mikroprosesor modern menggunakan pendekatan super pipelining . Dalam super pipelining , untuk meningkatkan frekuensi clock, pekerjaan yang dilakukan dalam tahap pipeline dikurangi dan jumlah tahapan pipeline ditambah.
Prosesor Kata Instruksi Sangat Besar (VLIW)
Ini berasal dari mikroprogram horizontal dan pemrosesan superscalar. Instruksi dalam prosesor VLIW sangat besar. Operasi dalam satu instruksi dijalankan secara paralel dan diteruskan ke unit fungsional yang sesuai untuk dieksekusi. Jadi, setelah mengambil instruksi VLIW, operasinya didekodekan. Kemudian operasi dikirim ke unit fungsional di mana mereka dijalankan secara paralel.
Prosesor Vektor
Pemroses vektor adalah pemroses bersama untuk mikroprosesor tujuan umum. Prosesor vektor umumnya register-register atau memori-memori. Instruksi vektor diambil dan didekodekan dan kemudian operasi tertentu dilakukan untuk setiap elemen vektor operan, sedangkan dalam prosesor normal operasi vektor membutuhkan struktur loop dalam kode. Untuk membuatnya lebih efisien, prosesor vektor merangkai beberapa operasi vektor bersama-sama, yaitu hasil dari satu operasi vektor diteruskan ke operasi vektor lainnya sebagai operand.
Caching
Cache adalah elemen penting dari mikroprosesor berkinerja tinggi. Setelah setiap 18 bulan, kecepatan mikroprosesor menjadi dua kali lipat, tetapi chip DRAM untuk memori utama tidak dapat bersaing dengan kecepatan ini. Jadi, cache diperkenalkan untuk menjembatani kesenjangan kecepatan antara prosesor dan memori. Cache adalah memori SRAM yang cepat dan kecil. Banyak lagi cache yang diterapkan dalam prosesor modern seperti cache Translation Look-side Buffer (TLBs), cache instruksi dan data, dll.
Cache yang Dipetakan Langsung
Dalam cache yang dipetakan langsung, fungsi 'modulo' digunakan untuk pemetaan alamat satu-ke-satu di memori utama ke lokasi cache. Karena entri cache yang sama dapat memiliki beberapa blok memori utama yang dipetakan padanya, prosesor harus dapat menentukan apakah blok data dalam cache adalah blok data yang benar-benar diperlukan. Identifikasi ini dilakukan dengan menyimpan tag bersama dengan blok cache.
Cache Asosiatif Sepenuhnya
Pemetaan asosiatif sepenuhnya memungkinkan untuk menempatkan blok cache di mana saja dalam cache. Dengan menggunakan beberapa kebijakan penggantian, cache menentukan entri cache di mana ia menyimpan blok cache. Cache asosiatif penuh memiliki pemetaan fleksibel, yang meminimalkan jumlah konflik entri cache. Karena penerapan asosiatif sepenuhnya mahal, ini tidak pernah digunakan dalam skala besar.
Set-asosiatif Cache
Pemetaan asosiatif-himpunan adalah kombinasi dari pemetaan langsung dan pemetaan asosiatif penuh. Dalam kasus ini, entri cache dibagi lagi menjadi set cache. Seperti dalam pemetaan langsung, ada pemetaan tetap dari blok memori ke satu set dalam cache. Namun di dalam set cache, blok memori dipetakan dengan cara asosiatif sepenuhnya.
Strategi cache
Selain mekanisme pemetaan, cache juga membutuhkan berbagai strategi yang menentukan apa yang harus terjadi dalam kasus peristiwa tertentu. Dalam kasus cache asosiatif (set-), cache harus menentukan blok cache mana yang akan diganti dengan blok baru yang memasuki cache.
Beberapa strategi penggantian yang terkenal adalah -
- First-In First Out (FIFO)
- Paling Sedikit Baru Digunakan (LRU)
Kami akan membahas multiprosesor dan multikomputer dalam bab ini.
Interkoneksi Sistem Multiprosesor
Pemrosesan paralel membutuhkan penggunaan interkoneksi sistem yang efisien untuk komunikasi cepat antara Input / Output dan perangkat periferal, multiprosesor, dan memori bersama.
Sistem Bus Hierarki
Sistem bus hirarkis terdiri dari hierarki bus yang menghubungkan berbagai sistem dan sub-sistem / komponen dalam sebuah komputer. Setiap bus terdiri dari sejumlah saluran sinyal, kontrol, dan listrik. Bus yang berbeda seperti bus lokal, bus bidang belakang dan bus I / O digunakan untuk menjalankan fungsi interkoneksi yang berbeda.
Bus lokal adalah bus yang diimplementasikan pada papan sirkuit tercetak. Bus bidang belakang adalah sirkuit tercetak di mana banyak konektor digunakan untuk memasang papan fungsional. Bus yang menghubungkan perangkat input / output ke sistem komputer dikenal sebagai bus I / O.
Sakelar palang dan Memori Multiport
Jaringan switch memberikan interkoneksi dinamis antara input dan output. Sistem ukuran kecil atau menengah kebanyakan menggunakan jaringan palang. Jaringan multistage dapat diperluas ke sistem yang lebih besar, jika masalah latensi yang meningkat dapat diselesaikan.
Baik sakelar palang maupun organisasi memori multiport adalah jaringan satu tahap. Meskipun jaringan satu tahap lebih murah untuk dibangun, tetapi beberapa lintasan mungkin diperlukan untuk membuat koneksi tertentu. Jaringan multistage memiliki lebih dari satu tahap kotak sakelar. Jaringan ini harus dapat menghubungkan masukan apa pun ke keluaran apa pun.
Multistage dan Menggabungkan Jaringan
Jaringan multistage atau jaringan interkoneksi multistage adalah kelas jaringan komputer berkecepatan tinggi yang terutama terdiri dari elemen pemrosesan di satu ujung jaringan dan elemen memori di ujung lainnya, dihubungkan dengan elemen switching.
Jaringan ini diterapkan untuk membangun sistem multiprosesor yang lebih besar. Ini termasuk Omega Network, Butterfly Network, dan banyak lagi.
Multikomputer
Multikomputer adalah arsitektur MIMD memori terdistribusi. Diagram berikut menunjukkan model konseptual multikomputer -
Multikomputer adalah mesin pengirim pesan yang menerapkan metode packet switching untuk melakukan pertukaran data. Di sini, setiap prosesor memiliki memori pribadi, tetapi tidak ada ruang alamat global karena prosesor hanya dapat mengakses memori lokalnya sendiri. Jadi, komunikasi tidak transparan: di sini programmer harus secara eksplisit meletakkan komunikasi primitif dalam kode mereka.
Tidak memiliki memori yang dapat diakses secara global adalah kelemahan multikomputer. Ini dapat diselesaikan dengan menggunakan dua skema berikut -
- Memori Bersama Virtual (VSM)
- Memori Virtual Bersama (SVM)
Dalam skema ini, pemrogram aplikasi mengasumsikan memori bersama yang besar yang dapat dialamatkan secara global. Jika diperlukan, referensi memori yang dibuat oleh aplikasi diterjemahkan ke dalam paradigma penyampaian pesan.
Memori Bersama Virtual (VSM)
VSM adalah implementasi perangkat keras. Jadi, sistem memori virtual Sistem Operasi diimplementasikan secara transparan di atas VSM. Jadi, sistem operasi mengira itu berjalan pada mesin dengan memori bersama.
Memori Virtual Bersama (SVM)
SVM adalah implementasi perangkat lunak pada level Sistem Operasi dengan dukungan perangkat keras dari Memory Management Unit (MMU) prosesor. Di sini, unit berbagi adalah halaman memori Sistem Operasi.
Jika prosesor mengalamatkan lokasi memori tertentu, MMU menentukan apakah halaman memori yang terkait dengan akses memori ada di memori lokal atau tidak. Jika halaman tidak ada di memori, dalam sistem komputer normal halaman tersebut ditukar dari disk oleh Sistem Operasi. Namun, dalam SVM, Sistem Operasi mengambil halaman dari node jauh yang memiliki halaman tersebut.
Tiga Generasi Multikomputer
Pada bagian ini, kita akan membahas tiga generasi multikomputer.
Pilihan Desain di Masa Lalu
Saat memilih teknologi prosesor, perancang multikomputer memilih pengolah biji-bijian menengah berbiaya rendah sebagai blok bangunan. Mayoritas komputer paralel dibangun dengan mikroprosesor standar. Memori terdistribusi dipilih untuk multi-komputer daripada menggunakan memori bersama, yang akan membatasi skalabilitas. Setiap prosesor memiliki unit memori lokalnya sendiri.
Untuk skema interkoneksi, multikomputer memiliki penyampaian pesan, jaringan langsung point-to-point daripada jaringan pengalih alamat. Untuk strategi kontrol, perancang multi-komputer memilih operasi asynchronous MIMD, MPMD, dan SMPD. Cosmic Cube Caltech (Seitz, 1983) adalah yang pertama dari multi-komputer generasi pertama.
Perkembangan Sekarang dan Masa Depan
Komputer generasi berikutnya berevolusi dari komputer multikomputer medium hingga fine grain dengan menggunakan memori virtual bersama secara global. Multi-komputer generasi kedua masih digunakan sampai sekarang. Tetapi menggunakan prosesor yang lebih baik seperti i386, i860, dll. Komputer generasi kedua telah berkembang pesat.
Komputer generasi ketiga adalah komputer generasi berikutnya di mana node yang diimplementasikan VLSI akan digunakan. Setiap node mungkin memiliki prosesor 14-MIPS, saluran perutean 20-Mbytes / s dan 16 Kbytes RAM yang terintegrasi pada satu chip.
Sistem Paragon Intel
Sebelumnya, node homogen digunakan untuk membuat multikomputer hypercube, karena semua fungsi diberikan ke host. Jadi, ini membatasi bandwidth I / O. Jadi untuk memecahkan masalah skala besar secara efisien atau dengan throughput yang tinggi, komputer ini tidak dapat digunakan. Sistem Paragon Intel dirancang untuk mengatasi kesulitan ini. Itu mengubah multikomputer menjadi server aplikasi dengan akses multipengguna di lingkungan jaringan.
Mekanisme Pengiriman Pesan
Mekanisme pengiriman pesan dalam jaringan multikomputer membutuhkan dukungan perangkat keras dan perangkat lunak khusus. Pada bagian ini, kita akan membahas beberapa skema.
Skema Perutean Pesan
Dalam multikomputer dengan skema store and forward routing, paket merupakan unit terkecil dari transmisi informasi. Dalam jaringan wormhole-routed, paket dibagi lagi menjadi flits. Panjang paket ditentukan oleh skema routing dan implementasi jaringan, sedangkan panjang flit dipengaruhi oleh ukuran jaringan.
Di Store and forward routing, paket adalah unit dasar transmisi informasi. Dalam hal ini, setiap node menggunakan buffer paket. Paket ditransmisikan dari node sumber ke node tujuan melalui urutan node perantara. Latensi berbanding lurus dengan jarak antara sumber dan tujuan.
Di wormhole routing, transmisi dari node sumber ke node tujuan dilakukan melalui urutan router. Semua flits dari paket yang sama ditransmisikan dalam urutan yang tidak terpisahkan secara pipelined. Dalam hal ini, hanya header flit yang tahu kemana tujuan paket tersebut.
Kebuntuan dan Saluran Virtual
Saluran virtual adalah penghubung logis antara dua node. Ini dibentuk oleh buffer flit di node sumber dan node penerima, dan saluran fisik di antara mereka. Ketika saluran fisik dialokasikan untuk pasangan, satu buffer sumber dipasangkan dengan satu buffer penerima untuk membentuk saluran virtual.
Ketika semua saluran ditempati oleh pesan dan tidak ada saluran dalam siklus yang dibebaskan, situasi kebuntuan akan terjadi. Untuk menghindari ini, skema penghindaran kebuntuan harus diikuti.
Pada bab ini, kita akan membahas protokol koherensi cache untuk mengatasi masalah inkonsistensi multicache.
Masalah Koherensi Cache
Dalam sistem multiprosesor, ketidakkonsistenan data dapat terjadi di antara level yang berdekatan atau dalam level yang sama dari hierarki memori. Misalnya, cache dan memori utama mungkin memiliki salinan objek yang sama yang tidak konsisten.
Karena beberapa prosesor beroperasi secara paralel, dan beberapa cache secara independen mungkin memiliki salinan berbeda dari blok memori yang sama, ini menciptakan cache coherence problem. Cache coherence schemes membantu menghindari masalah ini dengan mempertahankan status seragam untuk setiap blok data yang di-cache.
Misalkan X adalah elemen data bersama yang telah direferensikan oleh dua prosesor, P1 dan P2. Pada awalnya, tiga salinan X konsisten. Jika prosesor P1 menulis data baru X1 ke dalam cache, dengan menggunakanwrite-through policy, salinan yang sama akan segera ditulis ke dalam memori bersama. Dalam kasus ini, terjadi inkonsistensi antara memori cache dan memori utama. Ketika sebuahwrite-back policy digunakan, memori utama akan diperbarui ketika data yang dimodifikasi dalam cache diganti atau tidak valid.
Secara umum, ada tiga sumber masalah inkonsistensi -
- Berbagi data yang dapat ditulis
- Proses migrasi
- Aktivitas I / O
Protokol Bus Snoopy
Protokol Snoopy mencapai konsistensi data antara memori cache dan memori bersama melalui sistem memori berbasis bus. Write-invalidate dan write-update kebijakan digunakan untuk menjaga konsistensi cache.
Dalam hal ini, kami memiliki tiga prosesor P1, P2, dan P3 yang memiliki salinan elemen data 'X' yang konsisten di memori cache lokalnya dan di memori bersama (Gambar-a). Prosesor P1 menulis X1 dalam memori cache-nya menggunakanwrite-invalidate protocol. Jadi, semua salinan lainnya dibatalkan melalui bus. Ini dilambangkan dengan 'I' (Gambar-b). Blok yang tidak divalidasi juga dikenal sebagaidirty, yaitu mereka tidak boleh digunakan. Ituwrite-update protocolmemperbarui semua salinan cache melalui bus. Dengan menggunakanwrite back cache, salinan memori juga diperbarui (Gambar-c).
Peristiwa dan Tindakan Cache
Peristiwa dan tindakan berikut terjadi pada eksekusi akses memori dan perintah pembatalan -
Read-miss- Ketika prosesor ingin membaca sebuah blok dan itu tidak ada di cache, terjadi kesalahan baca. Ini memulai abus-readoperasi. Jika tidak ada salinan kotor, maka memori utama yang memiliki salinan yang konsisten, memasok salinan ke memori cache yang meminta. Jika salinan kotor ada di memori cache jarak jauh, cache itu akan menahan memori utama dan mengirim salinan ke memori cache yang meminta. Dalam kedua kasus tersebut, salinan cache akan memasuki status valid setelah kesalahan baca.
Write-hit - Jika salinan kotor atau reservedstate, menulis dilakukan secara lokal dan state baru kotor. Jika status baru valid, perintah write-invalidate disiarkan ke semua cache, membuat salinannya tidak valid. Saat memori bersama ditulis, status yang dihasilkan disimpan setelah penulisan pertama ini.
Write-miss- Jika prosesor gagal menulis di memori cache lokal, salinan harus berasal dari memori utama atau dari memori cache jarak jauh dengan blok kotor. Ini dilakukan dengan mengirimkan fileread-invalidateperintah, yang akan membatalkan semua salinan cache. Kemudian salinan lokal diperbarui dengan keadaan kotor.
Read-hit - Baca-hit selalu dilakukan di memori cache lokal tanpa menyebabkan transisi status atau menggunakan bus snoopy untuk pembatalan.
Block replacement- Salinan yang kotor harus ditulis kembali ke memori utama dengan metode penggantian blok. Namun, jika salinan dalam status valid atau dicadangkan atau tidak valid, penggantian tidak akan dilakukan.
Protokol Berbasis Direktori
Dengan menggunakan jaringan multistage untuk membangun multiprosesor besar dengan ratusan prosesor, protokol cache snoopy perlu dimodifikasi agar sesuai dengan kemampuan jaringan. Penyiaran menjadi sangat mahal untuk dilakukan dalam jaringan multistage, perintah konsistensi dikirim hanya ke cache yang menyimpan salinan blok. Ini adalah alasan untuk pengembangan protokol berbasis direktori untuk multiprosesor yang terhubung ke jaringan.
Dalam sistem protokol berbasis direktori, data yang akan dibagikan ditempatkan di direktori umum yang menjaga koherensi di antara cache. Di sini, direktori bertindak sebagai filter di mana prosesor meminta izin untuk memuat entri dari memori utama ke memori cache-nya. Jika entri diubah, direktori memperbaruinya atau membuat cache lain tidak valid dengan entri itu.
Mekanisme Sinkronisasi Perangkat Keras
Sinkronisasi adalah bentuk komunikasi khusus di mana alih-alih kontrol data, informasi dipertukarkan antara proses komunikasi yang berada di prosesor yang sama atau berbeda.
Sistem multiprosesor menggunakan mekanisme perangkat keras untuk mengimplementasikan operasi sinkronisasi tingkat rendah. Kebanyakan multiprosesor memiliki mekanisme perangkat keras untuk memaksakan operasi atom seperti operasi baca, tulis, atau baca-ubah-tulis memori untuk mengimplementasikan beberapa primitif sinkronisasi. Selain operasi memori atom, beberapa interupsi antar prosesor juga digunakan untuk tujuan sinkronisasi.
Koherensi Cache di Mesin Memori Bersama
Mempertahankan koherensi cache adalah masalah dalam sistem multiprosesor ketika prosesor berisi memori cache lokal. Ketidakkonsistenan data antara cache yang berbeda dengan mudah terjadi di sistem ini.
Area perhatian utama adalah -
- Berbagi data yang dapat ditulis
- Proses migrasi
- Aktivitas I / O
Berbagi data yang dapat ditulis
Ketika dua prosesor (P1 dan P2) memiliki elemen data yang sama (X) di cache lokalnya dan satu proses (P1) menulis ke elemen data (X), karena cache tersebut adalah cache lokal write-through P1, memori utamanya adalah juga diperbarui. Sekarang ketika P2 mencoba membaca elemen data (X), ia tidak menemukan X karena elemen data dalam cache P2 telah kedaluwarsa.
Proses migrasi
Pada tahap pertama, cache P1 memiliki elemen data X, sedangkan P2 tidak memiliki apa pun. Sebuah proses di P2 pertama kali menulis di X dan kemudian bermigrasi ke P1. Sekarang, proses mulai membaca elemen data X, tetapi karena prosesor P1 memiliki data yang kedaluwarsa, proses tidak dapat membacanya. Jadi, proses pada P1 menulis ke elemen data X dan kemudian bermigrasi ke P2. Setelah migrasi, proses di P2 mulai membaca elemen data X tetapi menemukan versi X yang kedaluwarsa di memori utama.
Aktivitas I / O
Seperti yang diilustrasikan pada gambar, perangkat I / O ditambahkan ke bus dalam arsitektur multiprosesor dua prosesor. Pada awalnya, kedua cache berisi elemen data X. Saat perangkat I / O menerima elemen X baru, perangkat I / O tersebut menyimpan elemen baru secara langsung di memori utama. Sekarang, saat P1 atau P2 (anggap P1) mencoba membaca elemen X, salinannya sudah usang. Jadi, P1 menulis ke elemen X. Sekarang, jika perangkat I / O mencoba mentransmisikan X, salinannya sudah usang.
Uniform Memory Access (UMA)
Arsitektur Uniform Memory Access (UMA) berarti memori bersama sama untuk semua prosesor di sistem. Kelas populer dari mesin UMA, yang biasa digunakan untuk server (file-), disebut Symmetric Multiprocessors (SMP). Di SMP, semua sumber daya sistem seperti memori, disk, perangkat I / O lainnya, dll. Dapat diakses oleh prosesor dengan cara yang seragam.
Akses Memori Non-Seragam (NUMA)
Dalam arsitektur NUMA, ada beberapa cluster SMP yang memiliki jaringan internal tidak langsung / bersama, yang terhubung dalam jaringan penyampaian pesan yang dapat diskalakan. Jadi, arsitektur NUMA secara logis membagi arsitektur memori yang didistribusikan secara fisik.
Dalam mesin NUMA, pengontrol-cache dari sebuah prosesor menentukan apakah referensi memori bersifat lokal ke memori SMP atau jarak jauh. Untuk mengurangi jumlah akses memori jarak jauh, arsitektur NUMA biasanya menerapkan prosesor caching yang dapat menyimpan data jarak jauh ke dalam cache. Tetapi ketika cache terlibat, koherensi cache perlu dipertahankan. Jadi sistem ini juga dikenal sebagai CC-NUMA (Cache Coherent NUMA).
Cache Only Memory Architecture (COMA)
Mesin COMA mirip dengan mesin NUMA, dengan satu-satunya perbedaan bahwa memori utama mesin COMA bertindak sebagai cache yang dipetakan langsung atau set-asosiatif. Blok data di-hash ke lokasi di cache DRAM sesuai dengan alamatnya. Data yang diambil dari jarak jauh sebenarnya disimpan di memori utama lokal. Selain itu, blok data tidak memiliki lokasi rumah tetap, mereka dapat dengan bebas bergerak di seluruh sistem.
Arsitektur COMA sebagian besar memiliki jaringan penerusan pesan hierarkis. Sakelar di pohon seperti itu berisi direktori dengan elemen data sebagai sub-pohonnya. Karena data tidak memiliki lokasi rumah, data harus dicari secara eksplisit. Ini berarti bahwa akses jarak jauh memerlukan traversal di sepanjang sakelar di pohon untuk mencari data yang diperlukan di direktori mereka. Jadi, jika sakelar di jaringan menerima banyak permintaan dari subpohonnya untuk data yang sama, itu menggabungkannya menjadi satu permintaan yang dikirim ke induk sakelar. Ketika data yang diminta kembali, sakelar mengirimkan banyak salinannya ke subpohonnya.
COMA versus CC-NUMA
Berikut adalah perbedaan antara COMA dan CC-NUMA.
COMA cenderung lebih fleksibel daripada CC-NUMA karena COMA secara transparan mendukung migrasi dan replikasi data tanpa memerlukan OS.
Mesin COMA mahal dan rumit untuk dibuat karena mereka membutuhkan perangkat keras manajemen memori non-standar dan protokol koherensi lebih sulit untuk diterapkan.
Akses jarak jauh di COMA sering kali lebih lambat daripada di CC-NUMA karena jaringan pohon perlu dilintasi untuk menemukan data.
Ada banyak metode untuk mengurangi biaya perangkat keras. Salah satu metodenya adalah dengan mengintegrasikan bantuan komunikasi dan jaringan yang tidak terlalu erat ke dalam node pemrosesan dan meningkatkan latensi dan okupansi komunikasi.
Metode lain adalah menyediakan replikasi otomatis dan koherensi dalam perangkat lunak daripada perangkat keras. Metode terakhir menyediakan replikasi dan koherensi dalam memori utama, dan dapat dijalankan pada berbagai perincian. Ini memungkinkan penggunaan suku cadang komoditas off-the-shelf untuk node dan interkoneksi, meminimalkan biaya perangkat keras. Hal ini memberikan tekanan pada programmer untuk mencapai kinerja yang baik.
Model Konsistensi Memori Santai
Model konsistensi memori untuk ruang alamat bersama mendefinisikan batasan dalam urutan di mana operasi memori di lokasi yang sama atau berbeda tampaknya dijalankan satu sama lain. Sebenarnya, setiap lapisan sistem yang mendukung model penamaan ruang alamat bersama harus memiliki model konsistensi memori yang mencakup antarmuka pemrogram, antarmuka sistem pengguna, dan antarmuka perangkat keras-perangkat lunak. Perangkat lunak yang berinteraksi dengan lapisan itu harus menyadari model konsistensi memorinya sendiri.
Spesifikasi Sistem
Spesifikasi sistem dari suatu arsitektur menentukan pengurutan dan pengubahan urutan operasi memori dan seberapa banyak kinerja yang sebenarnya dapat diperoleh darinya.
Berikut adalah beberapa model spesifikasi yang menggunakan relaksasi dalam urutan program -
Relaxing the Write-to-Read Program Order- Model kelas ini memungkinkan perangkat keras untuk menekan latensi operasi tulis yang terlewat di memori cache tingkat pertama. Ketika kesalahan tulis ada di buffer tulis dan tidak terlihat oleh prosesor lain, prosesor dapat menyelesaikan pembacaan yang mengenai memori cache-nya atau bahkan satu pembacaan yang terlewat di memori cache-nya.
Relaxing the Write-to-Read and Write-to-Write Program Orders- Mengizinkan penulisan untuk melewati penulisan luar biasa sebelumnya ke berbagai lokasi memungkinkan beberapa penulisan untuk digabungkan dalam buffer tulis sebelum memperbarui memori utama. Dengan demikian beberapa kesalahan tulis menjadi tumpang tindih dan menjadi terlihat rusak. Motivasinya adalah untuk lebih meminimalkan dampak latensi tulis pada waktu istirahat prosesor, dan untuk meningkatkan efisiensi komunikasi di antara prosesor dengan membuat nilai data baru terlihat oleh prosesor lain.
Relaxing All Program Orders- Tidak ada perintah program yang dijamin secara default kecuali data dan ketergantungan kontrol dalam suatu proses. Jadi, keuntungannya adalah bahwa beberapa permintaan baca dapat menjadi luar biasa pada saat yang sama, dan dalam urutan program dapat dilewati oleh penulisan kemudian, dan dapat diselesaikan dengan sendirinya, memungkinkan kita untuk menyembunyikan latensi baca. Jenis model ini sangat berguna untuk prosesor yang dijadwalkan secara dinamis, yang dapat melanjutkan kesalahan pembacaan sebelumnya ke referensi memori lainnya. Mereka mengizinkan banyak pengurutan ulang, bahkan penghapusan akses yang dilakukan oleh pengoptimalan compiler.
Antarmuka Pemrograman
Antarmuka pemrograman mengasumsikan bahwa urutan program tidak harus dipertahankan sama sekali di antara operasi sinkronisasi. Dipastikan bahwa semua operasi sinkronisasi secara eksplisit diberi label atau diidentifikasi seperti itu. Pustaka runtime atau compiler menerjemahkan operasi sinkronisasi ini ke dalam operasi pemeliharaan pesanan yang sesuai yang dipanggil oleh spesifikasi sistem.
Sistem kemudian memastikan eksekusi yang konsisten secara berurutan meskipun sistem dapat menyusun ulang operasi di antara operasi sinkronisasi dengan cara apa pun yang diinginkannya tanpa mengganggu ketergantungan ke lokasi dalam suatu proses. Hal ini memungkinkan kompiler yang cukup fleksibel di antara titik-titik sinkronisasi untuk pengurutan ulang yang diinginkannya, dan juga memberikan prosesor untuk melakukan pengurutan ulang sebanyak yang diizinkan oleh model memorinya. Pada antarmuka pemrogram, model konsistensi harus sekurang-kurangnya sama lemahnya dengan antarmuka perangkat keras, tetapi tidak harus sama.
Mekanisme Terjemahan
Di sebagian besar mikroprosesor, menerjemahkan label untuk memesan mekanisme pemeliharaan sama dengan memasukkan instruksi penghalang memori yang sesuai sebelum dan / atau setelah setiap operasi diberi label sebagai sinkronisasi. Ini akan menghemat instruksi dengan muatan / penyimpanan individu yang menunjukkan pemesanan apa yang harus diberlakukan dan menghindari instruksi tambahan. Namun, karena operasi biasanya jarang, ini bukanlah cara yang diambil kebanyakan mikroprosesor sejauh ini.
Mengatasi Keterbatasan Kapasitas
Kami telah membahas sistem yang menyediakan replikasi otomatis dan koherensi dalam perangkat keras hanya dalam memori cache prosesor. Cache prosesor, tanpa itu direplikasi di memori utama lokal terlebih dahulu, mereplikasi data yang dialokasikan dari jarak jauh secara langsung setelah referensi.
Masalah dengan sistem ini adalah cakupan replikasi lokal terbatas pada cache perangkat keras. Jika sebuah blok diganti dari memori cache, blok itu harus diambil dari memori jarak jauh saat diperlukan lagi. Tujuan utama dari sistem yang dibahas dalam bagian ini adalah untuk memecahkan masalah kapasitas replikasi tetapi tetap memberikan koherensi dalam perangkat keras dan perincian yang bagus dari blok cache untuk efisiensi.
Cache Tersier
Untuk mengatasi masalah kapasitas replikasi, salah satu metode adalah menggunakan cache akses jarak jauh yang besar tetapi lebih lambat. Ini diperlukan untuk fungsionalitas, ketika node mesin itu sendiri multiprosesor skala kecil dan dapat dibuat lebih besar untuk kinerja. Ini juga akan menahan blok jarak jauh yang direplikasi yang telah diganti dari memori cache prosesor lokal.
Arsitektur Memori Cache-only (COMA)
Di mesin COMA, setiap blok memori di seluruh memori utama memiliki tag perangkat keras yang terhubung dengannya. Tidak ada node tetap di mana selalu ada jaminan akan ada ruang yang dialokasikan untuk blok memori. Data bermigrasi secara dinamis ke atau direplikasi dalam memori utama node yang mengakses / menariknya. Ketika sebuah blok jarak jauh diakses, itu direplikasi dalam memori atraksi dan dibawa ke cache, dan dijaga konsisten di kedua tempat tersebut oleh perangkat keras. Blok data dapat berada di memori daya tarik apa pun dan dapat berpindah dengan mudah dari satu ke yang lain.
Mengurangi Biaya Perangkat Keras
Mengurangi biaya berarti memindahkan beberapa fungsionalitas perangkat keras khusus ke perangkat lunak yang berjalan pada perangkat keras yang ada. Jauh lebih mudah bagi perangkat lunak untuk mengelola replikasi dan koherensi dalam memori utama daripada di cache perangkat keras. Metode berbiaya rendah cenderung memberikan replikasi dan koherensi dalam memori utama. Agar koherensi dapat dikontrol secara efisien, masing-masing komponen fungsional bantuan lainnya dapat memanfaatkan spesialisasi dan integrasi perangkat keras.
Upaya penelitian bertujuan untuk menurunkan biaya dengan pendekatan yang berbeda, seperti dengan melakukan kontrol akses pada perangkat keras khusus, tetapi menetapkan aktivitas lain ke perangkat lunak dan perangkat keras komoditas. Pendekatan lain adalah dengan melakukan kontrol akses dalam perangkat lunak, dan dirancang untuk membagikan abstraksi ruang alamat bersama yang koheren pada node komoditas dan jaringan tanpa dukungan perangkat keras khusus.
Implikasi untuk Perangkat Lunak Paralel
Model konsistensi memori yang rileks membutuhkan program paralel yang memberi label akses berkonflik yang diinginkan sebagai titik sinkronisasi. Sebuah bahasa pemrograman menyediakan dukungan untuk memberi label pada beberapa variabel sebagai sinkronisasi, yang kemudian akan diterjemahkan oleh compiler ke instruksi pemeliharaan pesanan yang sesuai. Untuk membatasi pengubahan urutan akses sendiri ke memori bersama, kompilator dapat menggunakan label dengan sendirinya.
Sebuah interconnection networkdalam mesin paralel mentransfer informasi dari node sumber ke node tujuan yang diinginkan. Tugas ini harus diselesaikan dengan latensi sekecil mungkin. Ini harus memungkinkan sejumlah besar transfer semacam itu terjadi secara bersamaan. Selain itu, biayanya harus murah dibandingkan dengan biaya mesin lainnya.
Jaringan terdiri dari tautan dan sakelar, yang membantu mengirimkan informasi dari node sumber ke node tujuan. Jaringan ditentukan oleh topologi, algoritme perutean, strategi pengalihan, dan mekanisme kontrol alirannya.
Struktur organisasi
Jaringan interkoneksi terdiri dari tiga komponen dasar berikut -
Links- Tautan adalah kabel dari satu atau lebih serat optik atau kabel listrik dengan konektor di setiap ujungnya yang terpasang ke sakelar atau port antarmuka jaringan. Melalui ini, sinyal analog ditransmisikan dari satu ujung, diterima di ujung lain untuk mendapatkan aliran informasi digital asli.
Switches- Sakelar terdiri dari satu set port input dan output, "palang silang" internal yang menghubungkan semua input ke semua output, buffering internal, dan logika kontrol untuk mempengaruhi koneksi input-output pada setiap titik waktu. Umumnya jumlah port input sama dengan jumlah port output.
Network Interfaces- Antarmuka jaringan berperilaku sangat berbeda dari node sakelar dan dapat dihubungkan melalui tautan khusus. Antarmuka jaringan memformat paket dan membangun informasi perutean dan kontrol. Ini mungkin memiliki buffering input dan output, dibandingkan dengan sakelar. Ini mungkin melakukan pemeriksaan kesalahan ujung-ke-ujung dan kontrol aliran. Oleh karena itu, biayanya dipengaruhi oleh kompleksitas pemrosesan, kapasitas penyimpanan, dan jumlah portnya.
Jaringan Interkoneksi
Jaringan interkoneksi terdiri dari elemen switching. Topologi adalah pola untuk menghubungkan sakelar individu ke elemen lain, seperti prosesor, memori, dan sakelar lainnya. Sebuah jaringan memungkinkan pertukaran data antar prosesor dalam sistem paralel.
Direct connection networks- Jaringan langsung memiliki koneksi point-to-point antara node tetangga. Jaringan ini bersifat statis, yang berarti koneksi point-to-point sudah diperbaiki. Beberapa contoh jaringan langsung adalah cincin, jerat, dan kubus.
Indirect connection networks- Jaringan tidak langsung tidak memiliki tetangga tetap. Topologi komunikasi dapat diubah secara dinamis berdasarkan permintaan aplikasi. Jaringan tidak langsung dapat dibagi menjadi tiga bagian: jaringan bus, jaringan multistage, dan sakelar palang.
Bus networks- Jaringan bus terdiri dari sejumlah baris bit di mana sejumlah sumber daya dilampirkan. Ketika bus menggunakan jalur fisik yang sama untuk data dan alamat, data dan jalur alamat digandakan waktu. Jika ada beberapa master bus yang terpasang pada bus, diperlukan wasit.
Multistage networks- Jaringan multistage terdiri dari beberapa tahap sakelar. Ini terdiri dari sakelar 'axb' yang dihubungkan menggunakan pola koneksi interstage (ISC) tertentu. Elemen sakelar 2x2 kecil adalah pilihan umum untuk banyak jaringan multistage. Jumlah tahapan menentukan penundaan jaringan. Dengan memilih pola koneksi antarnegara yang berbeda, berbagai jenis jaringan multistage dapat dibuat.
Crossbar switches- Sakelar palang berisi matriks elemen sakelar sederhana yang dapat dinyalakan dan dimatikan untuk membuat atau memutus koneksi. Menghidupkan elemen sakelar dalam matriks, koneksi antara prosesor dan memori dapat dibuat. Sakelar palang tidak memblokir, yaitu semua permutasi komunikasi dapat dilakukan tanpa pemblokiran.
Mengevaluasi Pengorbanan Desain dalam Topologi Jaringan
Jika perhatian utamanya adalah jarak routing, maka dimensinya harus dimaksimalkan dan dibuat hypercube. Dalam perutean simpan-dan-maju, dengan asumsi bahwa tingkat sakelar dan jumlah tautan bukanlah faktor biaya yang signifikan, dan jumlah tautan atau tingkat sakelar adalah biaya utama, dimensi harus diminimalkan dan mesh dibangun di.
Dalam kasus pola lalu lintas terburuk untuk setiap jaringan, lebih disukai memiliki jaringan berdimensi tinggi di mana semua jalurnya pendek. Dalam pola di mana setiap node berkomunikasi hanya dengan satu atau dua tetangga terdekat, lebih disukai memiliki jaringan dimensi rendah, karena hanya beberapa dimensi yang benar-benar digunakan.
Rute
Algoritma perutean jaringan menentukan jalur mana yang mungkin dari sumber ke tujuan yang digunakan sebagai rute dan bagaimana rute yang diikuti oleh setiap paket tertentu ditentukan. Perutean urutan dimensi membatasi kumpulan jalur legal sehingga hanya ada satu rute dari setiap sumber ke setiap tujuan. Dimensi yang diperoleh dengan terlebih dahulu menempuh jarak yang benar dalam dimensi orde tinggi, lalu dimensi berikutnya, dan seterusnya.
Mekanisme Perutean
Aritmatika, pemilihan port berbasis sumber, dan pencarian tabel adalah tiga mekanisme yang digunakan switch berkecepatan tinggi untuk menentukan saluran keluaran dari informasi di header paket. Semua mekanisme ini lebih sederhana daripada jenis komputasi perutean umum yang diterapkan di router LAN dan WAN tradisional. Dalam jaringan komputer paralel, sakelar perlu membuat keputusan perutean untuk semua inputnya di setiap siklus, sehingga mekanismenya harus sederhana dan cepat.
Routing Determinan
Algoritme perutean bersifat deterministik jika rute yang diambil oleh pesan ditentukan secara eksklusif oleh sumber dan tujuannya, dan bukan oleh lalu lintas lain dalam jaringan. Jika algoritme perutean hanya memilih jalur terpendek menuju tujuan, itu minimal, jika tidak maka tidak minimal.
Kebebasan Deadlock
Kebuntuan bisa terjadi dalam berbagai situasi. Ketika dua node mencoba untuk mengirim data satu sama lain dan masing-masing mulai mengirim sebelum menerima, kebuntuan 'head-on' dapat terjadi. Kasus kebuntuan lain terjadi, ketika ada beberapa pesan yang bersaing untuk mendapatkan sumber daya di dalam jaringan.
Teknik dasar untuk membuktikan jaringan bebas dari kebuntuan, adalah untuk menghapus ketergantungan yang dapat terjadi antar saluran sebagai akibat dari pesan yang bergerak melalui jaringan dan untuk menunjukkan bahwa tidak ada siklus dalam grafik ketergantungan saluran secara keseluruhan; sehingga tidak ada pola lalu lintas yang dapat menyebabkan kebuntuan. Cara umum untuk melakukan ini adalah memberi nomor sumber daya saluran sedemikian rupa sehingga semua rute mengikuti urutan naik atau turun tertentu, sehingga tidak ada siklus ketergantungan yang muncul.
Desain Switch
Desain jaringan bergantung pada desain sakelar dan bagaimana sakelar dihubungkan bersama. Derajat switch, mekanisme routing internalnya, dan buffering internalnya menentukan topologi apa yang dapat didukung dan algoritma routing apa yang dapat diimplementasikan. Seperti komponen perangkat keras lain dari sistem komputer, sakelar jaringan berisi jalur data, kontrol, dan penyimpanan.
Pelabuhan
Jumlah pin sebenarnya adalah jumlah total port input dan output dikalikan lebar saluran. Karena perimeter chip tumbuh lambat dibandingkan dengan area, sakelar cenderung dibatasi pin.
Datapath Internal
Datapath adalah konektivitas antara setiap himpunan port input dan setiap port output. Ini umumnya disebut sebagai palang internal. Palang non-pemblokiran adalah satu di mana setiap port input dapat dihubungkan ke output yang berbeda dalam permutasi apa pun secara bersamaan.
Buffer Saluran
Organisasi penyimpanan buffer di dalam sakelar memiliki dampak penting pada kinerja sakelar. Router dan switch tradisional cenderung memiliki buffer SRAM atau DRAM yang besar di luar switch fabric, sedangkan di switch VLSI buffering internal ke switch dan keluar dari anggaran silikon yang sama seperti datapath dan bagian kontrol. Ketika ukuran dan kepadatan chip meningkat, lebih banyak buffering tersedia dan perancang jaringan memiliki lebih banyak pilihan, tetapi buffer real-estate tetap menjadi pilihan utama dan organisasinya penting.
Alur kontrol
Ketika beberapa aliran data di jaringan mencoba untuk menggunakan sumber daya jaringan bersama yang sama pada saat yang sama, beberapa tindakan harus diambil untuk mengontrol aliran ini. Jika kami tidak ingin kehilangan data apa pun, beberapa aliran harus diblokir sementara yang lain melanjutkan.
Masalah kontrol aliran muncul di semua jaringan dan di banyak tingkatan. Tetapi secara kualitatif berbeda dalam jaringan komputer paralel daripada di jaringan area lokal dan luas. Dalam komputer paralel, lalu lintas jaringan perlu dikirimkan seakurat lalu lintas melintasi bus dan ada sejumlah besar arus paralel dalam skala waktu yang sangat kecil.
Kecepatan mikroprosesor telah meningkat lebih dari sepuluh faktor per dekade, tetapi kecepatan memori komoditas (DRAM) hanya dua kali lipat, yaitu, waktu akses dikurangi setengahnya. Oleh karena itu, latensi akses memori dalam hal siklus jam prosesor tumbuh dengan faktor enam dalam 10 tahun. Multiprosesor memperparah masalah.
Dalam sistem berbasis bus, pembentukan bus bandwidth tinggi antara prosesor dan memori cenderung meningkatkan latensi dalam memperoleh data dari memori. Ketika memori didistribusikan secara fisik, latensi jaringan dan antarmuka jaringan ditambahkan ke yang mengakses memori lokal pada node.
Latensi biasanya tumbuh dengan ukuran mesin, karena lebih banyak node menyiratkan lebih banyak komunikasi relatif terhadap komputasi, lebih banyak lompatan dalam jaringan untuk komunikasi umum, dan kemungkinan lebih banyak pertengkaran. Tujuan utama desain perangkat keras adalah untuk mengurangi latensi akses data sambil mempertahankan bandwidth yang tinggi dan dapat diskalakan.
Ringkasan Toleransi Latensi
Cara menangani toleransi latensi paling baik dipahami dengan melihat sumber daya di mesin dan cara penggunaannya. Dari sudut pandang prosesor, arsitektur komunikasi dari satu node ke node lainnya dapat dilihat sebagai pipeline. Tahapan pipeline termasuk antarmuka jaringan di sumber dan tujuan, serta di tautan jaringan dan sakelar di sepanjang jalan. Ada juga tahapan dalam bantuan komunikasi, sistem memori / cache lokal, dan prosesor utama, tergantung pada bagaimana arsitektur mengelola komunikasi.
Masalah pemanfaatan dalam struktur komunikasi baseline adalah apakah prosesor atau arsitektur komunikasi sibuk pada waktu tertentu, dan dalam pipeline komunikasi hanya satu tahap yang sibuk pada satu waktu karena satu kata yang dikirimkan membuat jalannya dari sumber ke tujuan. Tujuan dalam toleransi latensi adalah untuk menumpang tindih penggunaan sumber daya ini sebanyak mungkin.
Toleransi Latensi dalam Penyampaian Pesan Eksplisit
Transfer data yang sebenarnya dalam penyampaian pesan biasanya dimulai oleh pengirim, menggunakan operasi pengiriman. Operasi terima tidak dengan sendirinya memotivasi data untuk dikomunikasikan, melainkan menyalin data dari buffer yang masuk ke dalam ruang alamat aplikasi. Komunikasi yang dimulai oleh penerima dilakukan dengan mengeluarkan pesan permintaan ke proses yang merupakan sumber data. Proses tersebut kemudian mengirimkan data kembali melalui pengiriman lain.
Operasi pengiriman sinkron memiliki latensi komunikasi yang sama dengan waktu yang diperlukan untuk mengkomunikasikan semua data dalam pesan ke tujuan, dan waktu pemrosesan penerimaan, dan waktu untuk pemberitahuan dikembalikan. Latensi dari operasi penerimaan sinkron adalah overhead pemrosesannya; yang termasuk menyalin data ke dalam aplikasi, dan latensi tambahan jika data belum sampai. Kami ingin menyembunyikan latensi ini, termasuk overhead jika memungkinkan, di kedua ujungnya.
Toleransi Latensi dalam Ruang Alamat Bersama
Komunikasi dasar adalah melalui membaca dan menulis di ruang alamat bersama. Untuk kemudahan, ini disebut komunikasi baca-tulis. Komunikasi yang dimulai oleh penerima dilakukan dengan operasi baca yang menghasilkan data dari memori atau cache prosesor lain sedang diakses. Jika tidak ada caching data bersama, komunikasi yang dimulai pengirim dapat dilakukan melalui penulisan ke data yang dialokasikan di memori jarak jauh.
Dengan koherensi cache, efek penulisan menjadi lebih kompleks: penulisan mengarah ke pengirim atau komunikasi yang dimulai oleh penerima bergantung pada protokol koherensi cache. Baik yang diprakarsai oleh penerima atau diprakarsai oleh pengirim, komunikasi dalam ruang alamat bersama baca tulis yang didukung perangkat keras secara alami halus, yang membuat latensi toleransi menjadi sangat penting.
Blokir Transfer Data di Ruang Alamat Bersama
Dalam ruang alamat bersama, baik dengan perangkat keras atau perangkat lunak, penggabungan data dan inisiasi transfer blok dapat dilakukan secara eksplisit dalam program pengguna atau secara transparan oleh sistem. Transfer blok eksplisit dimulai dengan menjalankan perintah yang mirip dengan pengiriman dalam program pengguna. Perintah kirim dijelaskan oleh bantuan komunikasi, yang mentransfer data secara pipeline dari node sumber ke tujuan. Di tempat tujuan, bantuan komunikasi menarik kata-kata data dari antarmuka jaringan dan menyimpannya di lokasi yang ditentukan.
Ada dua perbedaan utama dari pengiriman pesan terima, keduanya muncul dari fakta bahwa proses pengiriman dapat secara langsung menentukan struktur data program di mana data akan ditempatkan di tempat tujuan, karena lokasi ini berada di ruang alamat bersama. .
Melanjutkan Peristiwa Latensi Panjang yang Lalu di Ruang Alamat Bersama
Jika operasi memori dibuat tanpa pemblokiran, prosesor dapat melanjutkan melewati operasi memori ke instruksi lain. Untuk penulisan, ini biasanya cukup sederhana untuk diterapkan jika tulis diletakkan di buffer tulis, dan prosesor berjalan sementara buffer menangani penerbitan tulis ke sistem memori dan melacak penyelesaiannya sesuai kebutuhan. Perbedaannya adalah tidak seperti menulis, pembacaan biasanya segera diikuti oleh instruksi yang membutuhkan nilai yang dikembalikan oleh pembacaan.
Pra-komunikasi di Ruang Alamat Bersama
Pra-komunikasi adalah teknik yang telah diadopsi secara luas di mikroprosesor komersial, dan kepentingannya kemungkinan akan meningkat di masa depan. Instruksi prefetch tidak menggantikan pembacaan sebenarnya dari item data, dan instruksi prefetch itu sendiri harus non-pemblokiran, jika ingin mencapai tujuannya menyembunyikan latensi melalui tumpang tindih.
Dalam kasus ini, karena data bersama tidak disimpan dalam cache, data yang diambil sebelumnya dibawa ke dalam struktur perangkat keras khusus yang disebut buffer prefetch. Ketika kata tersebut benar-benar dibaca ke dalam register pada iterasi berikutnya, kata itu dibaca dari kepala buffer prefetch bukan dari memori. Jika latensi yang akan disembunyikan jauh lebih besar daripada waktu untuk menghitung iterasi loop tunggal, kita akan mengambil beberapa iterasi ke depan dan berpotensi ada beberapa kata dalam buffer prefetch pada satu waktu.
Multithreading di Ruang Alamat Bersama
Dalam hal menyembunyikan berbagai jenis latensi, multithreading yang didukung perangkat keras mungkin merupakan teknik serbaguna. Ini memiliki keunggulan konseptual berikut dibandingkan pendekatan lain -
Tidak memerlukan analisis atau dukungan perangkat lunak khusus.
Karena dipanggil secara dinamis, ia dapat menangani situasi yang tidak dapat diprediksi, seperti konflik cache, dll. Serta situasi yang dapat diprediksi.
Seperti prapengambilan, itu tidak mengubah model konsistensi memori karena tidak menyusun ulang akses dalam utas.
Meskipun teknik sebelumnya ditargetkan untuk menyembunyikan latensi akses memori, multithreading berpotensi dapat menyembunyikan latensi dari peristiwa latensi panjang dengan mudah, selama peristiwa tersebut dapat dideteksi pada waktu proses. Ini termasuk sinkronisasi dan latensi instruksi juga.
Tren ini dapat berubah di masa depan, karena latensi menjadi semakin lama dibandingkan dengan kecepatan prosesor. Juga dengan mikroprosesor yang lebih canggih yang telah menyediakan metode yang dapat diperluas untuk multithreading, dan dengan teknik multithreading baru yang sedang dikembangkan untuk menggabungkan multithreading dengan paralelisme tingkat instruksi, tren ini tampaknya akan mengalami beberapa perubahan di masa depan.