سال انتشار:
2018
ترجمه فارسی عنوان مقاله:
GFlink: یک ساختار محاسباتی درون حافظه ای روی خوشه های ناهمگن CPU-GPU برای داده های بزرگ
عنوان انگلیسی مقاله:
GFlink: An In-Memory Computing Architecture on Heterogeneous CPU-GPU Clusters for Big Data
منبع:
IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS, VOL: 29, NO: 6, JUNE 2018
نویسنده:
Cen Chen , Kenli Li , Senior Member, IEEE, Aijia Ouyang, Zeng Zeng, and Keqin Li , Fellow, IEEE
چکیده انگلیسی:
The increasing main memory capacity and the explosion of big data have fueled the development of in-memory big data
management and processing. By offering an efficient in-memory parallel execution model which can eliminate disk I/O bottleneck,
existing in-memory cluster computing platforms (e.g., Flink and Spark) have already been proven to be outstanding platforms for big
data processing. However, these platforms are merely CPU-based systems. This paper proposes GFlink, an in-memory computing
architecture on heterogeneous CPU-GPU clusters for big data. Our proposed architecture extends the original Flink from CPU clusters
to heterogeneous CPU-GPU clusters, greatly improving the computational power of Flink. Furthermore, we have proposed a
programming framework based on Flink’s abstract model, i.e., DataSet (DST), hiding the programming complexity of GPUs behind the
simple and familiar high-level interfaces. To achieve high performance and good load-balance, an efficient JVM-GPU communication
strategy, a GPU cache scheme, and an adaptive locality-aware scheduling scheme for three-stage pipelining execution are proposed.
Extensive experiment results indicate that the high computational power of GPUs can be efficiently utilized, and the implementation on
GFlink outperforms that on the original CPU-based Flink.
Index Terms: Big data | GPGPU | heterogeneous cluster | in-memory computing | OpenCL
چکیده فارسی:
افزایش دادن ظرفیت حافظه اصلی و انفجار داده های بزرگ، توسعه مدیریت و پردازش داده های بزرگ درون – حافظه ای را تقویت کرده است. پیش از این با ارائه یک مدل کارآمد برای اجرای موازی درون حافظه ای که می تواند تنگنای دیسک I/O را حذف کند، اثبات شده است که بسترهای فعلی محاسبه خوشه ای درون حافظه ای (مثل فلینک و اسپارک) بسترهای برجسته ای برای پردازش داده های بزرگ هستند. با این حال، این بسترها صرفا" سیستمهای مبتنی بر واحد پزدارش مرکزی (سی پی یو) هستند. این مقاله جی فلینک (GFlink) را که یک ساختار محاسباتی درون حافظه ای روی خوشه های ناهمگن سی پی یو – جی پی یو برای داده های بزرگ می باشد، پیشنهاد می کند. ساختار پیشنهادی ما فلینک اصلی حاصل از خوشه های سی پی یو را به خوشه های ناهمگن سی پی یو – جی پی یو بسط می دهد که تاحد زیادی توان محاسباتی فلینک را بهبود می بخشد. به علاوه، ما یک چارچوب برنامه نویسی برمبنای مدل انتزاعی فلینک پیشنهاد کرده ایم یعنی سری داده ها (دیتا سِت) که پیچیدگی برنامه نویسی جی پی یو را که در پشت فصل مشترک های سطح بالای ساده و آشنا نفهته است، از بین می برد. برای دستیابی به عملکرد بالا و تعادل بار خوب، یک راهبرد ارتباطی جی وی ام (ماشین مجازی جاوا) – جی پی یو که یک طرح کَش برای جی پی یو است و یک طرح زمان بندی منطبقِ آگاه از موضع برای اجرای لوله کشی سه مرحله ای است پیشنهاد می شود. نتایج آزمایش مبسوط بیانگر این است که از توان محاسباتی بالای جی پی یو می توان به صورت کارآمد استفاده کرد و اجرا روی جی فلینک، عملکرد آن را روی فلینک اصلی مبتنی بر سی پی یو بالاتر از حد معمول می کند.
عبارتهای شاخص: داده های بزرگ | GPGPU | خوشه ناهمگن | محاسبات درون حافظه ای | OpenCL
حجم فایل: 1020 کیلوبایت
قیمت:
56250 تومان
45000 تومان
(20 % تخفیف)
توضیحات اضافی:
تعداد نظرات : 0