هدوپ چیست و چگونه برای پردازش داده ها استفاده می شود؟

  • توسط جهانی
  • 1 دیدگاه
  • اخبار تکنولوژی
هدوپ چیست و چگونه برای پردازش داده ها استفاده می شود؟

تکنولوژی های بسیار زیادی هستند که در زمینه پردازش کلان داده ها مطرح شده­اند، اما هدوپ hadoop یکی از معروف ترین آنهاست. هدوپ یک چارچوب (Frame work) متن باز (Open source) است که برای پردازش و ذخیره سازی اطلاعات از انواع مختلف به کار می­رود که صنایع مبتنی بر داده را در دسترسی سریع به ارزش های نهان در داده ها و پردازش و کاوش آن­ها، یاری می­کند. ویژگی اصلی این ابزار به این شرح است:

  • این ابزار به صورت متن باز است و به همین دلیل منابع آن و کتابخانه ها و توابع به راحتی در دسترس است.
  • لایه ها و اجزا آن به صورت مستقل عمل می­کنند و یکپارچه نیستند. 
  • از دسترسی به فایل های خارجی پشتیبانی می­شود.
  • در هنگام بار زیاد سیستم، هدوپ عملیات انجام یک دستور را به چندین گروه وظیفه می­شکند و به همین دلیل برنامه ریزی برای کارهایی که نیاز به چندین گروه عملیات دارند ساده تر صورت می­گیرد.
  • برقراری تعادل خودکار بار در هر کدام از گره (Node) های سیستم توزیع شده، در هنگامی که ترافیک داده افزایش میابد.
  • پشتیبانی از جایگزینی ماشین­ها و گره­ها در هنگام خرابی.

این ابزار یک معماری لایه ای دارد. در پایین ترین سطح یک لایه ی حافظه ای مبتنی بر رکورد (Record) قرار دارد و این مجموعه داده ای به صورت سطری و ستونی مدیریت می­شود و در هر ماشین موجود در خوشه های توزیع شده، یک مدیر حافظه وجود دارد که حافظه ی موجود در سیستم را مدیریت می­کند. لایه ی وسط یک لایه­ی اجرایی جریان کاری است که در آن عملگرهای رابطه ای برای انجام عملیات بر روی مجموعه داده ها، وجود دارند. در پایین ترین سطح نرم افزاری هدوپ، یک فایل سیستم توزیع شده وجود دارد که به اختصار (Hadoop distributed file system) HDFS نامیده می­شود.

هر فایل در اینجا بخش بندی شده و در دنباله ای از مکان های حافظه آدرس پذیر و ادامه دار قرار می­گیرد. در لایه ی میانی نرم افزار، فایل ها تقسیم بندی شده و هر قسمتی از پردازش در اختیار یک گره قرار می­گیرد و در نهایت نتایج نیز از گره ها جمع آوری شده و تبدیل به خروجی نهایی خواهد شد این تقسیم بندی بر اساس تابع نگاشت-کاهش (Map Reduce)انجام می­شود.

لایه های هدوپ 

فایل سیستم توزیع شده هدوپ

سیستم فایل توزیع شده هدوپ نیازمند کامپیوترهای گران قیمت نیست و می­توان با استفاده از کامپیوترهای ارزان قیمت و معمول مورد استفاده قرار گیرد. این سیستم فایل از کارآیی بالایی برخوردار است.

این سیستم فایل توزیع شده تحت هدوپ کار می­کند و یک چارچوبی برای تحلیل و تغییر شکل مجموعه داده های بسیار بزرگ با استفاده از MapReduce می­باشد. یکی از مهمترین ویژگی های هدوپ، پارتیشن بندی داده ها و محاسبات میان هزاران میزبان و اجرای برنامه های محاسباتی موازی بر روی داده هایشان است.

HDFS جزئی از سیستم فایل هدوپ می­باشد و کلان داده و داده های برنامه را بر روی یک سرور اختصاصی به نام گره نام (Name node) ذخیره می­کند. داده های برنامه ها نیز بر روی سرورهای دیگر به نام گره داده (Data node) ذخیره می­شوند. تمامی این سرورها با هم از طریق پروتکل های مبتنی بر TCP با هم در ارتباط هستند.

معماری سیستم فایل توزیع شده هدوپ

  1. NameNode:

فضای نام  HDFS ، سلسله مراتبی از فایل ها و پوشه ها است. این فایل ها و پوشه ها برروی NameNode ذخیره می­شوند که خواصی مانند دسترسی ها ، تاریخ تغییرات، فضای نام و میزان استفاده از فضا را ذخیره می­کند. محتویات فایل به بخش های بزرگی  که عموما 128 مگابایت هستند تقسیم می­شوند و هرکدام از این بخش های فایل به صورت مستقل بین چندین NameNode تکثیر می­شوند.

NameNode فضای نام و نقشه یابی بخش های فایل را از DataNode (محل فیزیکی فایل های داده) نگه داری می­کند. یک سرویس گیرنده HDFS زمانی که می­خواهد یک فایل را بخواند می­بایست اول به NameNode متصل شود تا محل بخش های مختلف فایل را دریافت کند و بعد از نزدیک­ ترین DataNode به سرویس گیرنده فایل ها را بخواند. وقتی که سرویس گیرنده می­خواهد داده ها را بنویسد، ابتدا درخواست خود را به NameNode می­فرستد تا NameNode مجموعه DataNode ها را برای نگه داری بخش های تکثیر فایل کاندید کند.

سپس سرویس گیرنده داده ها را با استفاده از رایانش خط لوله بر روی DataNode ها می­نویسد. طراحی حاضر برای هر کلاستر یک NameNode دارد. کلاسترها می­توانند هزاران DataNode و 10 تا هزار سرویس گیرنده HDFS در هر کلاستر داشته باشند که هر DataNode می­تواند چندین وظیفه را به صورت همروند اجرا کنند.

data node 

معماری سیستم فایل توزیع شده هدوپ

  1. DataNode:

هربخش از داده های تکثیر شده روی DataNode توسط دو فایل در سیستم فایل محلی تعریف می­گردد. تمام داده های شما در DataNode ذخیره می­شود و به همین خاطر نیاز به منابع ذخیره سازی بیشتری دارد. این DataNode ها ، سخت افزار ارزان قیمت در یک محیط توزیع شده هستند (شاید چیزی نظیر لپ تاپ ها و کامپیوترهای شخصی) به همین علت است که راهکارهای ارائه شده توسط هدوپ بسیار مقرون به صرفه هستند.

هدوپ در کلان داده ها

گره های داده

هدوپ چیست و چگونه برای پردازش داده ها استفاده می شود؟ 4از 5براساس 104 رای

1 دیدگاه

  • ماهان

    کسی که با لینوکس آشنا باشه کامل به راحتی میتونه با هدوپ کار کنه یا هدوپ رو رو سیستمش نصب کنه چون نیازیم به سخت افزار خیلی عالی نداره

    پاسخ

دیدگاه خود را ارسال کنید

4 + 15 =