کلان داده (Big data) چیست؟ معیارهای تشخیص کلان داده ها کدام اند؟

یکی از مباحث مهم و مطرح در دنیای امروز ذخیره سازی و ‍‍‍پردازش کلان داده ها (Big data) می باشد. کلان داده، به داده هایی گفته میشود که مدیریت و پردازش آنها خارج از توانایی راه حلها و سیستم های موجود است.

حدود ۹۰ درصد کل داده هایی که در جهان موجود است در چند سال گذشته تولید شده است (عکس، ویدئو، حرکت ماوس، لایک ها و...). همچنین تنوع داده و افزایش داده های غیرساختارمند باعث شد شرکت های بزرگ همچون گوگل، یاهو و... باحجم و تنوع بسیار زیاد از داده هایی که کاربرانشان تولید میکنند روبه رو شوند. ذخیره این حجم بالایی از داده با تنوع زیاد بر روی کامپیوترها و ماشین های ارزان قیمت و ابزارهایی مانند اوراکل و ... امکان پذیر نیست.

یکی از کارهای اولیه که در این زمینه پیشنهاد میشود ، فشرده سازی داده هاست. این امر در داده های بزرگ چندان کارساز نیست ، زیرا یکی دیگر از خصوصیات داده های بزرگ ، تنوع آنها است. این داده ها از انواع مختلفی تشکیل شده اند که این غیرساخت یافتگی ، فشرده سازی آن ها را دشوار کرده و در بعضی شرایط به گونه ای است که همان زمانی که برای پردازش آنها به واسطه روش های سنتی صرف میشود ، برای فشرده سازی هدر میرود. به همین دلیل فشرده سازی کاربردی در پردازش داده های بزرگ ندارد.

از آنجا که پردازش و ذخیره سازی داده ها کاری بسیار مشکل است؛ با روبهرو شدن با این چالش جدید دانشمندان به دنبال راه حل و ابزارهای جدید برای مدیریت و پردازش کلان داده ابزارهای مختلفی را تولید کردند. یکی از این ابزارها و محبوب ترین آنها هدوپ نام دارد. هدوپ (Hadoop) را حتی بر روی سیستم های ارزان قیمت و معمولی میتوان نصب و اجرا کرد و دیگر نیازی به کامپیوترهای گران قیمت و غول آسا نیست و میتوان با شبکه کردن چند کامپیوتر معمولی و تقسیم داده ها بر روی این کامپیوترها، کلان داده ها را مدیریت کرد.

در تصویر زیر نمونه هایی از کلان داده که در یک دقیقه تولید میشوند نشان داده شده است:

کلان داده چیست؟

عبارت کلان داده مدتها است که برای اشاره به حجم عظیمی از داده ها که توسط سازمان های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل میشوند مورد استفاده قرار میگیرند و معمولا به دادههایی گفته میشود که اندازه آنها فراتر از حدی است که با نرمافزارهای معمول بتوان آنها را در یک زمان معقول پردازش کرد.

طبق تعریف مؤسسه تحقیقاتی گارتنر: کلان داده، داده هایی هستند بسیار انبوه، پرسرعت و گوناگون که نیاز به روش های پردازشی تازه ای دارند و دائما از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند.

معیارهای تشخیص کلان داده

حجم (Volume) بالا به تنهایی معیار مناسبی برای تشخیص کلان داده نیست؛ علاوه بر حجم سرعت (Velocity) و تنوع (Variety) نیز از معیارهای اصلی و مهم برای تشخیص کلان داده میباشند. معیارهای فرعی دیگری نیز وجود دارند که تا ده مورد را میتوان نام برد.

حجم داده

حجم داده ها به صورت نمایی در حال رشد است. منابع مختلفی نظیر شبکه های اجتماعی، سرورهای وب، تصاویر ماهواره ای، تراکنش های بانکی، محتوای صفحات وب، اسناد دولتی و ... وجود دارد که حجم بسیار زیادی تولید میکنند.

نرخ تولید داده یا سرعت

داده ها از طریق برنامه های کاربردی و سنسورها با سرعت بسیار زیاد و به صورت بلادرنگ تولید میشوند. بسیاری از کاربردها نیاز دارند به محض ورود داده به درخواست کاربر پاسخ دهند.

برای مثال شرکتی که نرخ تولید داده هایش درسال یا هر دو سال یکبار حدود 1درصد باشداستفاده از هدوپ و کلان داده توصیه نمیشود. اما توییتر یک بیلیون توییت در هر 72 ساعت از 140 میلیون فعالیت کاربران توییتر دارد که نرخ تولید قابل توجهی است.

تنوع

انواع منابع داده و تنوع در نوع داده بسیار زیاد است که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد. مثلا در وب افراد از نرم افزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده میکنند. بسیاری از اطلاعات مستقیما از انسان دریافت میشود و بنابراین وجود خطا اجتنابناپذیر است. این تنوع سبب میشود جامعیت داده تحت تاثیر قرار بگیرد؛ زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.

معیارهای اصلی تشخیص کلان داده:

صحت (Veracity)

با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیاری زیادی از اطلاعات گذشت. البته بعضی تحقیقات این چالش را به معنای حفظ همه ی مشخصه های داده اصلی بیان کرده اند که باید حفظ شود تا بتوان کیفیت و صحت داده را تضمین کرد.

اعتبار (Validity)

با فرض اینکه داده صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.

نمایش (Visualization)

یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است .اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.

ارزش (Value)

این موضوع دلالت بر این دارد که از نظر اطلاعاتی برای تصمیم گیری چقدر داده حائز ارزش است . به عبارت دیگر آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیمگیری دارد یا نه.

نوسان (Volatility)

سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در یک سیستم معمولی تجارت الکترونیک، سرعت نوسان داده ها زیاد نیست و ممکن است داده های موجود مثلا برای یک سال ارزش خود

را حفظ کنند. اما در کاربردهایی نظیر تحلیل ارز و بورس، داده ها با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود میگیرند. اگرچه نگه داری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است ؛ افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را در بر خواهد داشت که باید در نظر گرفته شود.