دسته بندی:
داده های بزرگ - big data
سال انتشار:
2020
ترجمه فارسی عنوان مقاله:
یک استخر بزرگ داده برای تجزیه و تحلیل جریان چند سطحی
عنوان انگلیسی مقاله:
A Big Data Lake for Multilevel Streaming Analytics
منبع:
https://arxiv:org/abs/2009:12415
نویسنده:
Ruoran Liu, Haruna Isah, Farhana Zulkernine
چکیده انگلیسی:
Large organizations are seeking to create new
architectures and scalable platforms to effectively handle data
management challenges due to the explosive nature of data rarely
seen in the past. These data management challenges are largely
posed by the availability of streaming data at high velocity from
various sources in multiple formats. The changes in data paradigm
have led to the emergence of new data analytics and management
architecture. This paper focuses on storing high volume, velocity
and variety data in the raw formats in a data storage architecture
called a data lake. First, we present our study on the limitations of
traditional data warehouses in handling recent changes in data
paradigms. We discuss and compare different open source and
commercial platforms that can be used to develop a data lake. We
then describe our end-to-end data lake design and implementation
approach using the Hadoop Distributed File System (HDFS) on
the Hadoop Data Platform (HDP). Finally, we present a real-world
data lake development use case for data stream ingestion, staging,
and multilevel streaming analytics which combines structured and
unstructured data. This study can serve as a guide for individuals
or organizations planning to implement a data lake solution for
their use cases.
Keywords: Hadoop Data Platform | Hadoop Distributed File System | NiFi | streaming data | unstructured data
چکیده فارسی:
سازمان های بزرگ در جستجوی برای ایجاد سبک معماری جدید و پلتفرم های قیاس پذیر برای تاثیرگذاری بر چالش های مدیریت داده های دستی وابسته به انفجار طبیعی داده هستند که در گذشته به ندرت دیده شده .چالش مدیریت این داده ها به قدری بزرگ به وسیله ی توانایی جریان داده ها در سرعت بالا از منابع متنوع در فرمت ها یا قالب های چندگانه مطرح شده است.تغییرات در نمونه داده منجر به ظهور تجزیه و تحلیل داده های جدید و معماری مدیریت می شود. این مقاله بر حجم بالای ذخیره سازی , سرعت و تنوع داده ها در فرمت های خام در یک معماری قوی داده تمرکز می کند که استخر داده نامیده شده.اول اینکه , ما مطالعه مان را روی محدودیت های انبارکردن داده سنتی در اداره تغییرات اخیر در نمونه داده ارائه می دهیم. ما پلتفرم های تجاری و (برنامه های ) متن باز مختلفی را مورد بحث و مقایسه انجام می دهیم که می تواند برای توسعه استخر داده مورد استفاده قرارگیرد. سپس ما طرح پایان استخر داده خودمان را توضیح می دهیم و از رویکرد سیستم فایل توزیع شده Hadoop (HDFS) روی پلتفرم داده Hadoop (HDP) استفاده می کنیم . در نهایت, ما یک جهان واقعی توسعه استخر داده را ارائه می دهیم که در مورد فروبردن جریان داده , چو بست زدن , و تجزیه و تحلیل جریان چند ترازه که داده بدون ساختار بندی و ساختار بندی شده ترکیب می شود. این مطالعه می تواند همانند یک راهنمای برای برنامه ریزی کردن سازمان ها و برنامه ریزی فردی جهت بکار رود تا راه حل هایی برای موارد مورد استفاده شان از استخر داده انجام شود.
کلمات کلیدی: پلتفرم داده هادوپ| سیستم فایل توزیع شده هادوپ | NiFi | جریان داده ها | داده ساختاربندی نشده
حجم فایل: 533 کیلوبایت
قیمت: 58500 تومان
توضیحات اضافی:
تعداد نظرات : 0