گھر رجحانات ہڈوپ ڈیٹا کے بڑے مسئلے کو حل کرنے میں کس طرح مدد کرتا ہے

ہڈوپ ڈیٹا کے بڑے مسئلے کو حل کرنے میں کس طرح مدد کرتا ہے

فہرست کا خانہ:

Anonim

بڑا ڈیٹا ہے … ٹھیک ہے … سائز میں بڑا ہے! بالکل اعداد و شمار کو کتنا درجہ بندی کیا جاسکتا ہے کیونکہ بڑے اعداد و شمار کو واضح کرنا ضروری نہیں ہے ، لہذا آئیے اس بحث میں مبتلا نہ ہوں۔ ایک چھوٹی کمپنی کے لئے جو گیگا بائٹس میں ڈیٹا سے نمٹنے کے لئے مستعمل ہے ، 10 TB ڈیٹا بڑا ہوگا۔ تاہم فیس بک اور یاہو جیسی کمپنیوں میں پیٹا بائٹس بڑی ہے۔


صرف بڑے اعداد و شمار کا سائز ، اس کو روایتی اسٹوریج جیسے ڈیٹا بیس یا روایتی فائلرس میں محفوظ کرنا ناممکن (یا کم از کم قیمت ممنوع) بنا دیتا ہے۔ ہم گیگا بائٹس کے ڈیٹا کو ذخیرہ کرنے کے لئے لاگت کے بارے میں بات کر رہے ہیں۔ روایتی اسٹوریج فائلرز کے استعمال سے بڑے اعداد و شمار کو ذخیرہ کرنے میں بہت زیادہ رقم خرچ ہوسکتی ہے۔


یہاں ہم بڑے اعداد و شمار ، اس کے چیلنجوں ، اور ہڈوپ ان کو حل کرنے میں کس طرح مدد کرسکتے ہیں پر ایک نظر ڈالیں گے۔ سب سے پہلے ، ڈیٹا کے سب سے بڑے چیلنجز۔


بڑا ڈیٹا غیر منظم یا نیم ساختہ ہے

بہت بڑا ڈیٹا غیر منظم ہے۔ مثال کے طور پر ، کلک اسٹریم لاگ ڈیٹا ایسا دکھائی دیتا ہے:


ٹائم اسٹیمپ ، صارف_ایڈ ، صفحہ ، حوالہ دینے والا_پیج


ڈھانچے کی کمی سے متعلقہ ڈیٹا بیس بڑے ڈیٹا کو محفوظ کرنے کے ل. مناسب نہیں بنتے ہیں۔ اس کے علاوہ ، بہت سارے ڈیٹا بیس اربوں قطار کے اعداد و شمار کو ذخیرہ کرنے کا مقابلہ نہیں کرسکتے ہیں۔

اگر ہم اس پر کارروائی نہیں کرسکتے ہیں تو بڑا ڈیٹا اسٹور کرنے کا کوئی فائدہ نہیں ہے

بڑا ڈیٹا اسٹور کرنا کھیل کا حصہ ہے۔ ہمیں اس سے خفیہ معلومات حاصل کرنے کے لئے اس پر کارروائی کرنا ہوگی۔ روایتی اسٹوریج سسٹم اس لحاظ سے خوبصورت "گونگے" ہیں کہ وہ صرف بٹس محفوظ کرتے ہیں۔ وہ کوئی پروسیسنگ پاور پیش نہیں کرتے ہیں۔


روایتی ڈیٹا پروسیسنگ ماڈل کے پاس اسٹوریج کلسٹر میں موجود ڈیٹا ہوتا ہے ، جسے پروسیسنگ کے لئے کمپیوٹ کلسٹر میں کاپی کیا جاتا ہے۔ نتائج اسٹوریج کلسٹر پر لکھے جاتے ہیں۔


تاہم ، یہ ماڈل بڑے اعداد و شمار کے ل quite کافی حد تک کام نہیں کرتا ہے کیونکہ کمپیوٹ کلسٹر میں اتنا ڈیٹا کاپی کرنا زیادہ وقت لگتا ہے یا ناممکن ہوسکتا ہے۔ تو اس کا کیا جواب ہے؟


ایک حل یہ ہے کہ کسی جگہ پر بڑے اعداد و شمار پر کارروائی کی جاسکے ، جیسے کسی اسٹوریج کلسٹر میں کمپیوٹ کلسٹر کی طرح دوگنا ہونا۔


لہذا جیسا کہ ہم نے اوپر دیکھا ہے ، بڑا ڈیٹا روایتی اسٹوریج سے انکار کرتا ہے۔ تو ہم کس طرح بڑا ڈیٹا سنبھال لیں گے؟

ہڈوپ بگ ڈیٹا مسئلہ کو کیسے حل کرتا ہے

ہڈوپ مشینوں کے جھرمٹ پر چلانے کے لئے بنایا گیا ہے

ایک مثال کے ساتھ شروع کرتے ہیں۔ ہم یہ کہتے ہیں کہ ہمیں بہت ساری تصاویر ذخیرہ کرنے کی ضرورت ہے۔ ہم ایک ڈسک سے شروع کریں گے۔ جب ہم کسی ایک ڈسک سے تجاوز کرتے ہیں تو ، ہم مشین پر اسٹیکڈ چند ڈسکوں کا استعمال کرسکتے ہیں۔ جب ہم ایک ہی مشین پر تمام ڈسکس کو زیادہ سے زیادہ کرتے ہیں تو ، ہمیں مشینوں کا ایک گروپ حاصل کرنے کی ضرورت ہوتی ہے ، ہر ایک میں ڈسکوں کا ایک گروپ ہوتا ہے۔


ہڈوپ اسی طرح تعمیر کیا گیا ہے۔ ہڈوپ کو جانے کے وقت سے مشینوں کے کلسٹر پر چلانے کے لئے ڈیزائن کیا گیا ہے۔



ہڈوپ کلسٹر افقی طور پر پیمانہ کرتے ہیں

ہڈوپ کلسٹر میں مزید نوڈس شامل کرکے مزید اسٹوریج اور کمپیوٹ پاور حاصل کی جاسکتی ہے۔ اس سے زیادہ سے زیادہ طاقتور اور مہنگے ہارڈ ویئر خریدنے کی ضرورت ختم ہوجاتی ہے۔


ہڈوپ غیر منظم / نیم ساختہ ڈیٹا کو سنبھال سکتا ہے

ہڈوپ اس کے ڈیٹا کو محفوظ نہیں کرتا جس کو وہ ذخیرہ کرتا ہے۔ یہ صوابدیدی متن اور بائنری ڈیٹا کو سنبھال سکتا ہے۔ لہذا ہڈوپ کسی بھی غیر منظم ڈیٹا کو آسانی سے ہضم کرسکتا ہے۔


ہڈوپ کلسٹر اسٹوریج اور کمپیوٹنگ فراہم کرتے ہیں

ہم نے دیکھا کہ کس طرح علیحدہ اسٹوریج اور پروسیسنگ کلسٹر رکھنا بڑے اعداد و شمار کے ل for بہترین فٹ نہیں ہے۔ ہڈوپ کلسٹرس ، بہرحال ، اسٹوریج فراہم کرتے ہیں اور کمپیوٹنگ کو سب میں تقسیم کرتے ہیں۔

بزنس کیس برائے ہڈوپ

ہڈوپ مناسب قیمت پر بڑے اعداد و شمار کے ل provides اسٹوریج فراہم کرتا ہے

روایتی اسٹوریج کا استعمال کرتے ہوئے بڑے ڈیٹا کو محفوظ کرنا مہنگا پڑسکتا ہے۔ ہڈوپ کموڈٹی ہارڈویئر کے آس پاس بنایا گیا ہے ، لہذا یہ مناسب قیمت کے لئے کافی بڑا اسٹوریج فراہم کرسکتا ہے۔ پیڈ بائٹ پیمانے پر ہیڈوپ کو فیلڈ میں استعمال کیا گیا ہے۔


کلوڈیرہ کے ایک مطالعے میں بتایا گیا ہے کہ عام طور پر کاروباری اداروں میں ہر سال تقریباy $ 25،000 سے $ 50،000 خرچ ہوتا ہے۔ ہڈوپ کے ساتھ ، یہ قیمت ہر ٹیر بائٹ سالانہ کچھ ہزار ڈالر رہ جاتی ہے۔ جب ہارڈویئر سستا اور ارزاں ہوتا جاتا ہے تو ، اس لاگت میں کمی ہوتی جارہی ہے۔


ہڈوپ نئے یا زیادہ ڈیٹا پر قبضہ کرنے کی اجازت دیتا ہے

بعض اوقات تنظیمیں کسی قسم کا ڈیٹا نہیں لیتے ہیں کیونکہ اس کو ذخیرہ کرنا کافی قیمت کی ممانعت تھی۔ چونکہ ہڈوپ مناسب قیمت پر اسٹوریج فراہم کرتا ہے ، لہذا اس قسم کا ڈیٹا قبضہ اور ذخیرہ کیا جاسکتا ہے۔


ایک مثال ویب سائٹ پر کلک کرنے والے نوشتہ ہوں گے۔ کیونکہ ان نوشتہ جات کا حجم بہت زیادہ ہوسکتا ہے ، بہت ساری تنظیموں نے ان پر قبضہ نہیں کیا۔ اب ہڈوپ کے ذریعہ نوشتہ جات پر گرفت اور ذخیرہ کرنا ممکن ہے۔


ہڈوپ کے ذریعہ ، آپ لمبے وقت تک ڈیٹا اسٹور کرسکتے ہیں

ذخیرہ کردہ ڈیٹا کے حجم کا نظم کرنے کے ل companies ، کمپنیاں وقتا فوقتا پرانے ڈیٹا کو صاف کرتی ہیں۔ مثال کے طور پر ، صرف پچھلے تین مہینوں میں ہی لاگز محفوظ کیا جاسکتا تھا ، جبکہ پرانے نوشتہ جات حذف کردیئے گئے تھے۔ ہڈوپ کے ذریعہ یہ ممکن ہے کہ تاریخی اعداد و شمار کو زیادہ سے زیادہ اسٹور کیا جائے۔ اس سے پرانے تاریخی اعداد و شمار پر نیا تجزیات کیا جاسکتا ہے۔


مثال کے طور پر ، کسی ویب سائٹ سے کلیک لاگز لیں۔ کچھ سال پہلے ، یہ نوشتہ مقبول صفحات جیسے اعدادوشمار کا حساب کتاب کرنے کے لئے تھوڑی مدت کے لئے محفوظ کیے گئے تھے۔ اب ہڈوپ کے ساتھ ، ان کلک لاگوں کو طویل عرصے تک محفوظ کرنا قابل عمل ہے۔


ہڈوپ اسکیل ایبل تجزیات فراہم کرتا ہے

اگر ہم ان کا تجزیہ نہیں کرسکتے تو اس سارے ڈیٹا کو اسٹور کرنے کا کوئی فائدہ نہیں ہے۔ ہڈوپ نہ صرف تقسیم شدہ اسٹوریج فراہم کرتا ہے بلکہ تقسیم شدہ پروسیسنگ کو بھی مہیا کرتا ہے ، جس کا مطلب ہے کہ ہم متوازی طور پر ڈیٹا کی ایک بڑی مقدار کو گھٹا سکتے ہیں۔ ہڈوپ کے کمپیوٹ فریم ورک کو میپریڈوس کہا جاتا ہے۔ پیپابائٹس کے پیمانے پر میپریڈوس ثابت ہوا ہے۔


ہڈوپ بھرپور تجزیات فراہم کرتا ہے

مقامی میپریڈویس جاوا کی بنیادی پروگرامنگ زبان کی حمایت کرتی ہے۔ دوسری زبانیں جیسے روبی ، ازگر اور آر کو بھی استعمال کیا جاسکتا ہے۔


یقینا، ، ہڈوپ میں اعداد و شمار کا تجزیہ کرنے کے لئے کسٹم میپریڈوس کوڈ لکھنا واحد طریقہ نہیں ہے۔ اعلی سطح کا نقشہ کم کرنا دستیاب ہے۔ مثال کے طور پر ، سور نامی ایک ٹول انگریزی کو ڈیٹا فلو لینگوئج کی طرح لیتے ہیں اور ان کا نقشہ ریڈوسیس میں ترجمہ کرتے ہیں۔ ایک اور ٹول ، Hive ، ایس کیو ایل کے سوالات لیتا ہے اور میپریڈس کا استعمال کرکے ان کو چلاتا ہے۔


بزنس انٹیلیجنس (BI) ٹولز بھی اعلی سطح کے تجزیہ فراہم کرسکتے ہیں۔ اس قسم کے تجزیہ کے ل tools اوزار بھی موجود ہیں۔


اس مشمول کا خلاصہ مارک کیزرر اور سوجی مانیئم کے "ہڈوپ الیومینیٹڈ" سے لیا گیا ہے۔ یہ تخلیقی العام انتساب - غیر تجارتی - شیئرآلک 3.0 غیر پورٹڈ لائسنس کے توسط سے دستیاب کیا گیا ہے۔

ہڈوپ ڈیٹا کے بڑے مسئلے کو حل کرنے میں کس طرح مدد کرتا ہے