گھر رجحانات ہڈوپ کے بارے میں جاننے کے لئے 7 چیزیں

ہڈوپ کے بارے میں جاننے کے لئے 7 چیزیں

فہرست کا خانہ:

Anonim

ہڈوپ کیا ہے؟ یہ ایک پیلے رنگ کا کھلونا ہاتھی ہے۔ آپ کی توقع کیا نہیں تھی؟ اس کے بارے میں: اس اوپن سورس سافٹ ویئر پروجیکٹ کے شریک تخلیق کار - ڈوگ کٹنگ نے اس کا نام اپنے بیٹے سے لیا جس نے کھلونا ہاتھی ہڈوپ کو پکارا۔ مختصر طور پر ، ہڈوپ اپاچی سافٹ ویئر فاؤنڈیشن کے ذریعہ تیار کردہ ایک سافٹ ویئر فریم ورک ہے جو ڈیٹا انٹیسیوٹ ، ڈسٹریبیوٹ کمپیوٹنگ تیار کرنے کے لئے استعمال ہوتا ہے۔ اور یہ ایک اور بز ورڈ ریڈرز کا کلیدی جزو ہے جس میں کبھی بھی کافی مقدار میں نہیں مل سکتا ہے: بڑا ڈیٹا۔ یہاں سات چیزیں ہیں جو آپ کو اس انوکھے ، آزادانہ طور پر لائسنس یافتہ سافٹ ویئر کے بارے میں جاننا چاہ.۔

ہڈوپ نے اس کا آغاز کیسے کیا؟

بارہ سال قبل ، گوگل نے بڑے پیمانے پر ڈیٹا اکٹھا کرنے کے لئے ایک پلیٹ فارم بنایا تھا۔ جیسا کہ کمپنی اکثر کرتی ہے ، گوگل نے اپنا ڈیزائن عوام کو دو کاغذات کی شکل میں فراہم کیا: گوگل فائل سسٹم اور میپریڈوسیس۔


اسی وقت ، ڈوگ کٹنگ اور مائک کافریلا ایک نئے سرچ انجن نچٹ پر کام کر رہے تھے۔ دونوں میں بڑی مقدار میں کوائف کو سنبھالنے کے معاملے میں بھی کشمکش جاری تھی۔ تب دونوں محققین کو گوگل کے کاغذات کی ہوا مل گئی۔ اس خوش قسمتی چوراہے نے کٹنگ اور کیفریلا کو ایک بہتر فائل سسٹم اور ڈیٹا کو ٹریک رکھنے کا ایک طریقہ متعارف کروا کر سب کچھ تبدیل کردیا ، آخر کار ہڈوپ کی تخلیق کا باعث بنی۔

ہڈوپ کے بارے میں کیا اہم ہے؟

آج ، ڈیٹا اکٹھا کرنا پہلے سے کہیں زیادہ آسان ہے۔ اس تمام اعداد و شمار کا ہونا بہت سے مواقع پیش کرتا ہے ، لیکن اس کے علاوہ چیلنجز بھی موجود ہیں:

  • ڈیٹا کی بڑی مقدار میں پروسیسنگ کے نئے طریقوں کی ضرورت ہوتی ہے۔
  • جو ڈیٹا ضبط کیا جارہا ہے وہ غیر ساختہ شکل میں ہے۔
غیر ساختہ اعداد و شمار کی بے تحاشا مقدار میں ہیرا پھیری کرنے کے چیلنجوں پر قابو پانے کے لئے ، کٹنگ اور کافریلا نے دو حصوں کا حل نکالا۔ اعداد و شمار کی مقدار کے مسئلے کو حل کرنے کے لئے ، ہڈوپ تقسیم شدہ ماحول یعنی کموڈٹی سرورز کا ایک نیٹ ورک استعمال کرتا ہے - ایک متوازی پروسیسنگ کلسٹر تشکیل دیتا ہے ، جو تفویض کردہ کام پر عملدرآمد کرنے کی زیادہ طاقت لاتا ہے۔


اگلا ، انہیں غیر ساختہ اعداد و شمار یا اعداد و شمار کو فارمیٹس میں نمٹانا پڑا کہ معیاری رشتہ دار ڈیٹا بیس سسٹم کو ہینڈل کرنے سے قاصر تھے۔ کٹنگ اور کیفریلا نے ہڈوپ کو کسی بھی قسم کے ڈیٹا کے ساتھ کام کرنے کے لئے ڈیزائن کیا ہے: تشکیل ، غیر منظم ، تصاویر ، آڈیو فائلیں ، یہاں تک کہ متن۔ یہ کلودیرا (ہڈوپ انٹیگریٹر) وائٹ پیپر وضاحت کرتا ہے کہ یہ کیوں ضروری ہے:

    "آپ کے تمام ڈیٹا کو قابل استعمال بناتے ہوئے ، نہ کہ آپ کے ڈیٹا بیس میں کیا ہے ، ہڈوپ آپ کو پوشیدہ تعلقات کو ننگا کرنے دیتا ہے اور ایسے جوابات ظاہر کرتا ہے جو ہمیشہ پہنچ سے دور رہتے ہیں۔ آپ ہنچوں کی بجائے ہارڈ ڈیٹا کی بنیاد پر مزید فیصلے کرنا شروع کرسکتے ہیں ، اور دیکھو مکمل اعداد و شمار کے سیٹ پر ، نہ صرف نمونے اور خلاصے۔ "

پڑھنے پر سکیما کیا ہے؟

جیسا کہ پہلے ذکر ہوا ، ہڈوپ کے فوائد میں سے ایک غیر ساختہ ڈیٹا کو ہینڈل کرنے کی صلاحیت ہے۔ ایک لحاظ سے ، وہ "سڑک کے نیچے ڈنڈے کو لات مار رہا ہے۔" آخر کار اعداد و شمار کو تجزیہ کرنے کے لئے کسی نہ کسی طرح کی ساخت کی ضرورت ہوتی ہے۔


یہی وجہ ہے کہ پڑھنے پر اسکیما عمل میں آتا ہے۔ پڑھا ہوا اسکیما اس میں ڈھل جاتا ہے کہ اعداد و شمار کی شکل کس طرح موجود ہے ، اعداد و شمار کو کہاں تلاش کرنا ہے (یاد رکھیں ڈیٹا کئی سروروں میں بکھر گیا ہے) ، اور اعداد و شمار کو کیا کرنا ہے - کوئی آسان کام نہیں۔ یہ کہا جاتا ہے کہ ہڈوپ سسٹم میں ڈیٹا کو جوڑنے میں کسی تجارتی تجزیہ کار ، اعدادوشمار اور جاوا پروگرامر کی مہارت کی ضرورت ہوتی ہے۔ بدقسمتی سے ، ان قابلیت کے ساتھ بہت سے لوگ نہیں ہیں۔

Hive کیا ہے؟

اگر ہڈوپ کامیاب ہونے والا تھا تو ، اعداد و شمار کے ساتھ کام کرنا آسان بنانا پڑا۔ تو ، اوپن سورس ہجوم کام کرنے کو ملا اور چھتہ پیدا کیا:

    "Hive اس اعداد و شمار پر ڈھانچے کو پروجیکٹ کرنے اور HiveQL نامی SQL نما ​​زبان کا استعمال کرتے ہوئے ڈیٹا سے استفسار کرنے کے لئے ایک طریقہ کار مہیا کرتا ہے۔ اسی وقت یہ زبان روایتی نقشہ / کم پروگرامرز کو اپنی مرضی کے مطابق نقشہ سازی اور کم کرنے والوں کو پلگ کرنے کی بھی اجازت دیتی ہے جب اس میں تکلیف ہوتی ہے یا HiveQL میں اس منطق کا اظہار کرنے سے قاصر ہے۔ "

Hive دونوں جہانوں کو بہترین بناتا ہے: ایس کیو ایل کمانڈز سے واقف ڈیٹا بیس کے اہلکار ڈیٹا میں ہیرا پھیری کرسکتے ہیں ، اور پڑھنے کے عمل سے متعلق اسکیما سے واقف ڈویلپر اپنی مرضی کے مطابق سوالات پیدا کرنے کے اہل ہیں۔

ہڈوپ کس طرح کے ڈیٹا کا تجزیہ کرتا ہے؟

ویب تجزیات پہلی چیز ہے جو ذہن میں آتی ہے ، ویب سائٹوں کو بہتر بنانے کے ل Web ویب لاگز اور ویب ٹریفک کا تجزیہ کرتے ہیں۔ مثال کے طور پر ، فیس بک یقینی طور پر ویب تجزیات میں شامل ہے ، ہڈوپ کو استعمال کرتے ہوئے کمپنی کے جمع کردہ ڈیٹا کی ٹیرابائٹس کو ترتیب دیتا ہے۔


کمپنیاں خطرے کے تجزیے ، فراڈ کا پتہ لگانے اور کسٹمر بیس قطعہ بندی انجام دینے کے لئے ہڈوپ کلسٹرز کا استعمال کرتی ہیں۔ یوٹیلیٹی کمپنیاں ہڈوپ کو اپنے الیکٹریکل گرڈ سے سینسر ڈیٹا کا تجزیہ کرنے کے لئے استعمال کرتی ہیں ، جس سے وہ بجلی کی پیداوار کو بہتر بناتے ہیں۔ ہدف ، 3 ایم اور میڈٹروکس جیسی بڑی کمپنیاں مصنوعات کی تقسیم ، کاروباری خطرے کی تشخیص اور کسٹمر بیس قطعہ بندی کو بہتر بنانے کے لئے ہڈوپ استعمال کرتی ہیں۔


ہڈوپ میں بھی یونیورسٹیوں کی سرمایہ کاری ہوتی ہے۔ سافٹ ویئر میں یونیورسٹی آف سینٹ تھامس گریجویٹ پروگراموں کے ایک ایسوسی ایٹ پروفیسر ، بریڈ روبین نے ذکر کیا کہ ان کی ہڈوپ مہارت یونیورسٹی میں تحقیقی گروپوں کے ذریعہ مرتب کردہ اعداد و شمار کی کثیر مقدار میں مدد فراہم کررہی ہے۔

کیا آپ ہڈوپ کی حقیقی دنیا کی مثال دے سکتے ہیں؟

ایک معروف مثال ٹائمز مچائن ہے۔ نیو یارک ٹائمز میں پورے صفحے کے اخبار TIFF کی تصاویر ، اس سے وابستہ میٹا ڈیٹا ، اور آرٹیکل متن کا مجموعہ ہے جس میں 1851 سے لے کر 1922 تک ڈیٹا کی ٹیرا بائٹس کی رقم ہے۔ EY2 / S3 / ہڈوپ سسٹم اور خصوصی کوڈ کا استعمال کرتے ہوئے NYT کا ڈیریک گوٹفریڈ ،:

    "TFF میں 405،000 بہت بڑی TIFF تصاویر ، SGML میں 3.3 ملین آرٹیکلز اور 405،000 ایکس ایم ایل فائلوں کو آئتاکار خطوں میں آرٹیکلز کی نقشہ سازی کی گئ ہے۔ یہ ڈیٹا زیادہ ویب دوستانہ 810،000 PNG تصاویر (تمبنےل اور مکمل تصاویر) اور 405،000 جاوا اسکرپٹ فائلوں میں تبدیل کردیا گیا تھا۔ "

ایمیزون ویب سروسز کے کلاؤڈ میں سرورز کا استعمال کرتے ہوئے ، گوٹفریڈ نے بتایا کہ وہ ٹائمس مچین کے لئے مطلوبہ تمام اعداد و شمار پر 36 گھنٹے سے بھی کم وقت میں کارروائی کرنے میں کامیاب ہیں۔

کیا ہڈوپ پہلے ہی متروک ہے یا صرف مارفنگ ہے؟

ہڈوپ کو ایک دہائی سے زیادہ عرصہ گزر چکا ہے۔ اس کا متعدد قول یہ متروک ہے۔ ایک ماہر ، ڈاکٹر ڈیوڈ ریکو ، نے کہا ہے کہ "آئی ٹی کی مصنوعات کم وقت کی ہوتی ہیں۔ کتے کے سالوں میں ، گوگل کی مصنوعات تقریبا about 70 ہوتی ہیں ، جبکہ ہڈوپ کی عمریں 56 ہوتی ہیں۔"


ریکو کے کہنے سے کچھ حقیقت ہوسکتی ہے۔ ایسا معلوم ہوتا ہے کہ ہڈوپ ایک بڑی حد سے گزر رہا ہے۔ اس کے بارے میں مزید جاننے کے لئے ، روبین نے مجھے جڑواں شہروں ہڈوپ صارف گروپ کے اجلاس میں مدعو کیا ، اور تبادلہ خیال کا موضوع یاران کا تعارف تھا:

    "اپاچی ہڈوپ 2 میں ایک نیا میپریڈس انجن شامل ہے ، جس میں پچھلے عمل درآمد کے مقابلے میں بہت سارے فوائد ہیں جن میں بہتر اسکیل ایبلٹی اور وسائل کے استعمال شامل ہیں۔ نیا عمل درآمد شدہ ایپلی کیشنز کو چلانے کے لئے عام وسائل کے انتظام کے نظام پر بنایا گیا ہے جسے یاران کہا جاتا ہے۔"
ہڈوپ کو ڈیٹا بیس اور مشمولات کے نظم و نسق کے حلقوں میں بہت ساری بازگشت ملتی ہے ، لیکن اس کے آس پاس ابھی بھی بہت سارے سوالات موجود ہیں اور اس کا بہتر استعمال کس طرح کیا جاسکتا ہے۔ یہ کچھ ہی ہیں۔ اگر آپ کے پاس اور ہے تو ، انہیں ہمارے راستے بھیجیں۔ ہم Techopedia.com پر بہترین جواب دیں گے۔

ہڈوپ کے بارے میں جاننے کے لئے 7 چیزیں