Memproses grafik trilion tepi tanpa menyentuh memori utama

Kemas kini: 7 Mei 2021

'Develop' adalah kata penting di sini, kerana penyelidikan ini merangkumi algoritma pengasah pada set data sintetik dan bukan pada data besar yang sebenarnya.

"Grafik digunakan secara meluas untuk mewakili dan menganalisis objek dunia nyata dalam banyak domain seperti jaringan sosial, kecerdasan perniagaan, biologi, dan ilmu saraf," kata Kaist. “Semasa mengembangkan dan menguji algoritma untuk grafik berskala besar, grafik sintetik biasanya digunakan dan bukannya grafik nyata. Ini kerana berkongsi dan menggunakan grafik sebenar berskala besar sangat terhad kerana kepunyaan mereka atau praktikal mustahil untuk dikumpulkan. "

Secara konvensional, menurut Kaist, pengembangan dan pengujian algoritma grafik dilakukan melalui pendekatan dua langkah berikut:

Langkah pertama menghasilkan graf sintetik dan menyimpannya pada cakera. Grafik biasanya dihasilkan oleh generasi berdasarkan parameter atau peningkatan skala - yang pertama mengekstrak sebilangan kecil parameter yang dapat menangkap beberapa sifat grafik nyata yang diberikan dan menghasilkan grafik sintetik dengan parameter, yang terakhir menaikkan skala a diberikan graf nyata kepada yang lebih besar sehingga dapat memelihara sifat-sifat grafik sebenar yang asal sebanyak mungkin.

Langkah dua memuatkan grafik yang tersimpan ke dalam memori utama mesin pemprosesan grafik, seperti Apache GraphX, dan melaksanakan algoritma grafik yang diberikan pada mesin. "Oleh kerana grafik terlalu besar untuk dimasukkan ke dalam memori utama satu komputer, mesin grafik biasanya berjalan pada sekumpulan beberapa puluh atau ratusan komputer," kata Kaist, "oleh itu kos pendekatan dua langkah konvensional adalah tinggi . "

Pasukan Korea tidak menghasilkan dan menyimpan grafik sintetik berskala besar.

Sebaliknya, ia memuatkan grafik nyata kecil awal ke dalam memori utama. Kemudian, dengan menggunakan teknik yang dijuluki T-GPS (simulasi pemrosesan grafik trilion skala), algoritma grafik berhadapan dengan graf nyata kecil seolah-olah graf sintetik berskala besar yang harus dihasilkan dari grafik nyata wujud dalam memori utama, kata Kaist , sambil menambah bahawa setelah algoritma dilakukan, T-GPS mengembalikan hasil yang sama dengan pendekatan dua langkah konvensional.

"Idea utama T-GPS adalah menghasilkan hanya bahagian grafik sintetik yang perlu diakses oleh algoritma dengan cepat dan mengubah mesin pemprosesan grafik untuk mengenali bahagian yang dihasilkan dengan cepat sebagai bahagian dari grafik sintetik yang sebenarnya dihasilkan, "Kata Kaist.

T-GPS memproses grafik satu trilion tepi pada satu komputer, sementara pendekatan dua langkah konvensional memerlukan sekumpulan sebelas komputer dengan spesifikasi yang sama untuk memproses grafik satu miliar tepi. Tidak memerlukan akses rangkaian, T-GPS mencapai 43 kali lebih cepat daripada pendekatan konvensional yang mempunyai overhead komunikasi yang signifikan.

Karya ini dibentangkan di persidangan IEEE ICDE 2021 sebagai 'Simulasi Pemrosesan Graf Skala Trilion berdasarkan Peningkatan Graf Atas-Bawah'.