دانلود مقاله و خرید ترجمه:نرمال سازی داده های بزرگ برای پایگاه داده های پردازش موازی انبوه - 2017
بلافاصله پس از پرداخت دانلود کنید
مقالات ترجمه شده داده های بزرگ ( big data )
  • Big Data normalization for massively parallel processing databases نرمال سازی داده های بزرگ برای پایگاه داده های پردازش موازی انبوه

    سال انتشار:

    2017


    ترجمه فارسی عنوان مقاله:

    نرمال سازی داده های بزرگ برای پایگاه داده های پردازش موازی انبوه


    عنوان انگلیسی مقاله:

    Big Data normalization for massively parallel processing databases


    منبع:

    Sciencedirect - Elsevier - Computer Standards and Interfaces 54 (2017) 86–93


    نویسنده:

    Nikolay Golov, Lars Rönnbäck


    چکیده انگلیسی:

    High performance querying and ad-hoc querying are commonly viewed as mutually exclusive goals in massively parallel processing databases. Furthermore, there is a contradiction between ease of extending the data model and ease of analysis. The modern Data Lake approach, promises extreme ease of adding new data to a data model, however it is prone to eventually becoming a Data Swamp – unstructured, ungoverned, and out of control Data Lake where due to a lack of process, standards and governance, data is hard to find, hard to use and is consumed out of context. This paper introduces a novel technique, highly normalized Big Data using Anchor modeling, that provides a very efficient way to store information and utilize resources, thereby providing ad-hoc querying with high performance for the first time in massively parallel processing databases. This technique is almost as convenient for expanding data model as a Data Lake, while it is internally protected from transforming to Data Swamp. A case study of how this approach is used for a Data Warehouse at Avito over a three-year period, with estimates for and results of real data experiments carried out in HP Vertica, an MPP RDBMS, is also presented. This paper is an extension of theses from The 34th International Conference on Conceptual Modeling (ER 2015) (Golov and Rönnbäck 2015) [1], it is complemented with numerical results about key operating areas of highly normalized big data warehouse, collected over several (1–3) years of commercial operation. Also, the limitations, imposed by using a single MPP database cluster, are described, and cluster fragmentation approach is proposed.
    Keywords: Big Data | MPP | Database | Normalization | Analytics | Ad-hoc | Querying | Modeling | Performance | Data Lake


    چکیده فارسی:

    در پایگاه داده هایی که به پردازش موازی داده های انبوه یا به اختصار MPP می پردازند، معمولاً پرس و جو با عملکرد بالا و پرس وجوی اَدهاک به عنوان هدف های دو به دو ناسازگار در نظر گرفته می شوند. همچنین در این نوع از پایگاه دادده ها، میان سهولت توسعه ی مدل داده و سهولت تجزیه و تحلیل نیز تضاد وجود دارد. رویکرد جدیدی که "دریاچه داده " نام دارد، اینگونه وعده می دهد که با افزودن داده های جدید به مدل، توسعه ی مدل داده ساده تر خواهد شد، در حالیکه این دریاچه بسیار مستعد است که در نهایت تبدیل به باتلاقی بدون ساختار از داده ها شود؛ با توجه به عدم رعایت موازین و استانداردها، دریاچه ی داده از کنترل خارج می شود، یافتن داده ها و همچنین استفاده از داده ها، دشوار خواهد شد و بدین ترتیب دیگر داده ها قابل استفاده نخواهند بود. در این مقاله، تکنیک جدیدی معرفی می شود که با استفاده از مدلسازی لنگر داده های بزرگ را بسیار نرمال می کند؛ با استفاده از این تکنیک برای ذخیره ی اطلاعات و استفاده از منابع، روش بسیار مؤثری ارائه می شود، در نتیجه برای اولین بار در پایگاه داده هایی که به پردازش موازی داده های انبوه می-پردازند، پرس وجوی اَدهاک با کارایی بالا ارائه می شود (در این متن، منظور از پرس و جو، کوئری می باشد). این تکنیک برای توسعه ی مدل داده و تبدیل آن به دریاچه ی داده، روش تقریباً مناسبی است، این در حالی است که مدل، به صورت داخلی در برابر تبدیل شدن به دریاچه داده محافظت می شود. در اینجا یک مطالعه ی موردی نیز انجام شده است، این مطالعه به این مسأله می پردازد که چگونه این روش به مدت بیش از سه سال از انبارداده ا ی موجود در آویتو استفاده کرده است (آویتو یک وب سایت روسی است)؛ همچنین نتایج آزمایشاتی که با استفاده از داده های واقعی در HP Vertica انجام شده اند، نیز ارائه می شود. این مقاله براساس نتایج بدست آمده از یک پایان نامه گردآوری شده و در 34 اُمین کنفرانس بین المللی مدلسازی مفهومی در سال 2015 ارائه شده است ]1[؛ این مقاله با استفاده از نتایج عددی که در طی چندین سال (1 تا 3 سال) از نرمالسازی داده های بزرگ موجود در نواحی کلیدی انبار داده، بدست آمده است، تکمیل می شود. همچنین در اینجا به توصیف محدودیت ها نیز پرداخته می شود؛ این محدودیت ها به علت استفاده از تنها یک خوشه از پایگاه داده ی MPP ایجاد می شوند.
    کلمات کلیدی: داده های بزرگ | MPP | پایگاه داده | نرمال سازی | تجزیه و تحلیل | اَدهاک | پرس وجو | مدل سازی | عملکرد | دریاچه داده.


    سطح: متوسط
    تعداد صفحات فایل pdf انگلیسی: 8
    تعداد صفحات فایل doc فارسی(با احتساب مراجع): 35

    وضعیت ترجمه عناوین تصاویر و جداول: به صورت کامل ترجمه شده است

    وضعیت ترجمه متون داخل تصاویر و جداول: به صورت کامل ترجمه شده است

    حجم فایل: 0 کیلوبایت


    قیمت: 36000 تومان    28800 تومان (20 % تخفیف)


    توضیحات اضافی:




اگر این مقاله را پسندیدید آن را در شبکه های اجتماعی به اشتراک بگذارید (برای به اشتراک گذاری بر روی ایکن های زیر کلیک کنید)

تعداد نظرات : 0

الزامی
الزامی
الزامی
rss مقالات ترجمه شده rss مقالات انگلیسی rss کتاب های انگلیسی rss مقالات آموزشی
logo-samandehi