دسته بندی:
داده های بزرگ - big data
سال انتشار:
2017
ترجمه فارسی عنوان مقاله:
نرمال سازی داده های بزرگ برای پایگاه داده های پردازش موازی انبوه
عنوان انگلیسی مقاله:
Big Data normalization for massively parallel processing databases
منبع:
Sciencedirect - Elsevier - Computer Standards and Interfaces 54 (2017) 86–93
نویسنده:
Nikolay Golov, Lars Rönnbäck
چکیده انگلیسی:
High performance querying and ad-hoc querying are commonly viewed as mutually exclusive goals in massively
parallel processing databases. Furthermore, there is a contradiction between ease of extending the data model
and ease of analysis. The modern Data Lake approach, promises extreme ease of adding new data to a data
model, however it is prone to eventually becoming a Data Swamp – unstructured, ungoverned, and out of
control Data Lake where due to a lack of process, standards and governance, data is hard to find, hard to use and
is consumed out of context. This paper introduces a novel technique, highly normalized Big Data using Anchor
modeling, that provides a very efficient way to store information and utilize resources, thereby providing ad-hoc
querying with high performance for the first time in massively parallel processing databases. This technique is
almost as convenient for expanding data model as a Data Lake, while it is internally protected from
transforming to Data Swamp. A case study of how this approach is used for a Data Warehouse at Avito over
a three-year period, with estimates for and results of real data experiments carried out in HP Vertica, an MPP
RDBMS, is also presented. This paper is an extension of theses from The 34th International Conference on
Conceptual Modeling (ER 2015) (Golov and Rönnbäck 2015) [1], it is complemented with numerical results
about key operating areas of highly normalized big data warehouse, collected over several (1–3) years of
commercial operation. Also, the limitations, imposed by using a single MPP database cluster, are described, and
cluster fragmentation approach is proposed.
Keywords: Big Data | MPP | Database | Normalization | Analytics | Ad-hoc | Querying | Modeling | Performance | Data Lake
چکیده فارسی:
در پایگاه داده هایی که به پردازش موازی داده های انبوه یا به اختصار MPP می پردازند، معمولاً پرس و جو با عملکرد بالا و پرس وجوی اَدهاک به عنوان هدف های دو به دو ناسازگار در نظر گرفته می شوند. همچنین در این نوع از پایگاه دادده ها، میان سهولت توسعه ی مدل داده و سهولت تجزیه و تحلیل نیز تضاد وجود دارد. رویکرد جدیدی که "دریاچه داده " نام دارد، اینگونه وعده می دهد که با افزودن داده های جدید به مدل، توسعه ی مدل داده ساده تر خواهد شد، در حالیکه این دریاچه بسیار مستعد است که در نهایت تبدیل به باتلاقی بدون ساختار از داده ها شود؛ با توجه به عدم رعایت موازین و استانداردها، دریاچه ی داده از کنترل خارج می شود، یافتن داده ها و همچنین استفاده از داده ها، دشوار خواهد شد و بدین ترتیب دیگر داده ها قابل استفاده نخواهند بود. در این مقاله، تکنیک جدیدی معرفی می شود که با استفاده از مدلسازی لنگر داده های بزرگ را بسیار نرمال می کند؛ با استفاده از این تکنیک برای ذخیره ی اطلاعات و استفاده از منابع، روش بسیار مؤثری ارائه می شود، در نتیجه برای اولین بار در پایگاه داده هایی که به پردازش موازی داده های انبوه می-پردازند، پرس وجوی اَدهاک با کارایی بالا ارائه می شود (در این متن، منظور از پرس و جو، کوئری می باشد). این تکنیک برای توسعه ی مدل داده و تبدیل آن به دریاچه ی داده، روش تقریباً مناسبی است، این در حالی است که مدل، به صورت داخلی در برابر تبدیل شدن به دریاچه داده محافظت می شود. در اینجا یک مطالعه ی موردی نیز انجام شده است، این مطالعه به این مسأله می پردازد که چگونه این روش به مدت بیش از سه سال از انبارداده ا ی موجود در آویتو استفاده کرده است (آویتو یک وب سایت روسی است)؛ همچنین نتایج آزمایشاتی که با استفاده از داده های واقعی در HP Vertica انجام شده اند، نیز ارائه می شود. این مقاله براساس نتایج بدست آمده از یک پایان نامه گردآوری شده و در 34 اُمین کنفرانس بین المللی مدلسازی مفهومی در سال 2015 ارائه شده است ]1[؛ این مقاله با استفاده از نتایج عددی که در طی چندین سال (1 تا 3 سال) از نرمالسازی داده های بزرگ موجود در نواحی کلیدی انبار داده، بدست آمده است، تکمیل می شود. همچنین در اینجا به توصیف محدودیت ها نیز پرداخته می شود؛ این محدودیت ها به علت استفاده از تنها یک خوشه از پایگاه داده ی MPP ایجاد می شوند.
کلمات کلیدی: داده های بزرگ | MPP | پایگاه داده | نرمال سازی | تجزیه و تحلیل | اَدهاک | پرس وجو | مدل سازی | عملکرد | دریاچه داده.
حجم فایل: 0 کیلوبایت
قیمت: 56160 تومان
توضیحات اضافی:
تعداد نظرات : 0