Memproses grafik triliun tepi tanpa menyentuh memori utama

Pembaruan: 7 Mei 2021

'Kembangkan' adalah kata yang penting di sini, karena penelitian mencakup mengasah algoritme pada kumpulan data sintetis daripada pada data besar yang nyata.

"Grafik banyak digunakan untuk mewakili dan menganalisis objek dunia nyata di banyak domain seperti jaringan sosial, kecerdasan bisnis, biologi, dan ilmu saraf," kata Kaist. “Saat mengembangkan dan menguji algoritme untuk grafik skala besar, grafik sintetis biasanya digunakan sebagai pengganti grafik nyata. Ini karena berbagi dan menggunakan grafik nyata berskala besar sangat terbatas karena grafik tersebut merupakan hak milik atau praktis tidak mungkin dikumpulkan. ”

Secara konvensional, menurut Kaist, pengembangan dan pengujian algoritma grafik dilakukan melalui pendekatan dua langkah berikut:

Langkah pertama membuat grafik sintetis dan menyimpannya di disk. Grafik biasanya dihasilkan oleh pembuatan berbasis parameter atau peningkatan skala grafik - grafik sebelumnya mengekstrak sejumlah kecil parameter yang dapat menangkap beberapa properti dari grafik nyata tertentu dan menghasilkan grafik sintetis dengan parameter, yang terakhir meningkatkan skala a memberikan grafik nyata ke grafik yang lebih besar untuk mempertahankan properti grafik nyata asli semaksimal mungkin.

Langkah kedua memuat grafik yang disimpan ke dalam memori utama mesin pemroses grafik, seperti Apache GraphX, dan menjalankan algoritme grafik tertentu pada mesin tersebut. “Karena grafik terlalu besar untuk dimasukkan ke dalam memori utama satu komputer, mesin grafik biasanya berjalan pada sekumpulan beberapa puluh atau ratusan komputer,” kata Kaist, “oleh karena itu biaya pendekatan dua langkah konvensional tinggi . ”

Tim Korea tidak membuat dan menyimpan grafik sintetis berskala besar.

Sebagai gantinya, ia memuat grafik nyata kecil awal ke dalam memori utama. Kemudian, dengan menggunakan teknik yang dijuluki T-GPS (simulasi pemrosesan grafik skala triliun), algoritma grafik dihadapkan pada grafik nyata kecil seolah-olah grafik sintetis skala besar yang seharusnya dihasilkan dari grafik nyata ada di memori utama, kata Kaist. , menambahkan bahwa setelah algoritme selesai, T-GPS mengembalikan hasil yang sama seperti pendekatan dua langkah konvensional.

“Gagasan utama T-GPS adalah menghasilkan hanya bagian dari grafik sintetis yang perlu diakses algoritme dengan cepat dan memodifikasi mesin pemroses grafik untuk mengenali bagian yang dihasilkan dengan cepat sebagai bagian dari grafik sintetis yang sebenarnya dibuat, Kata Kaist.

T-GPS memproses grafik satu triliun tepi pada satu komputer, sedangkan pendekatan dua langkah konvensional membutuhkan sekelompok sebelas komputer dengan spesifikasi yang sama untuk memproses grafik satu miliar tepi. Tidak membutuhkan akses jaringan, T-GPS hingga 43 kali lebih cepat daripada pendekatan konvensional yang memiliki overhead komunikasi yang signifikan.

Karya tersebut dipresentasikan pada konferensi IEEE ICDE 2021 sebagai 'Simulasi Pemrosesan Grafik Skala Triliun berdasarkan Peningkatan Skala Grafik Top-Down'.