ایڈیٹر کا نوٹ: یہ براہ راست ویب کاسٹ کا نقل ہے۔ آپ یہاں مکمل طور پر ویب کاسٹ دیکھ سکتے ہیں۔
ایرک کااناگ: خواتین و حضرات ، سمجھدار ہونے کا وقت آگیا ہے! یہ بالکل نیا شو ، ٹیک وائسز کا وقت ہے! میرا نام ایرک کااناگ ہے۔ میں ٹیک وائسز کے افتتاحی قسط کے لئے آپ کا ناظم بننے جا رہا ہوں۔ بالکل ٹھیک ہے۔ یہ ٹیکوپیڈیا اور بلور گروپ کی شراکت ہے ، یقینا اندر تجزیہ شہرت کی۔
میرا نام ایرک کااناگ ہے۔ لوگ ، میں واقعتا interesting اس میں دلچسپ اور ملوث ایونٹ کو معتدل کروں گا۔ ھودوپ نامی اس بڑی چیز کے ساتھ کیا ہورہا ہے اس کو سمجھنے کے لئے ہم باندھا میں گہری کھودنے جارہے ہیں۔ کمرے میں ہاتھی کیا ہے؟ اسے ہڈوپ کہتے ہیں۔ ہم یہ جاننے کی کوشش کریں گے کہ اس کا کیا مطلب ہے اور اس کے ساتھ کیا ہو رہا ہے۔
سب سے پہلے ، بڑے ، ہمارے اسپانسرز ، گرڈگین ، ایکٹین ، زیٹسیٹ اور ڈیٹا ٹورنٹ کا شکریہ۔ ہمیں اس پروگرام کے اختتام کے قریب ان میں سے ہر ایک سے کچھ مختصر الفاظ ملیں گے۔ ہمارے پاس بھی سوال و جواب ہوگا ، لہذا شرمندہ نہ ہوں - اپنے سوالات کو کسی بھی وقت بھیجیں۔
ہم تفصیلات کھودیں گے اور اپنے ماہروں پر سخت سوالات پھینکیں گے۔ اور ماہرین کی بات کرتے ہو ، ارے ، وہیں ہیں۔ لہذا ، ہم اپنے ہی ڈاکٹر رابن بلور ، اور لوگوں سے سننے جا رہے ہیں ، میں افسانوی رے وانگ ، پرنسپل تجزیہ کار اور نکشتر ریسرچ کے بانی کے بارے میں بہت خوش ہوں۔ وہ آج ہمیں اپنے خیالات دینے کے لئے آن لائن ہے اور وہ رابن کی طرح ہے کہ وہ حیرت انگیز طور پر متنوع ہے اور واقعتا a بہت سے مختلف شعبوں پر توجہ مرکوز کرتا ہے اور ان کو ترکیب کرنے کی صلاحیت رکھتا ہے اور انفارمیشن ٹکنالوجی کے اس پورے شعبے میں واقعی یہ سمجھنے کی صلاحیت رکھتا ہے کہ وہاں کیا ہورہا ہے۔ اور ڈیٹا مینجمنٹ۔
تو ، وہ چھوٹا سا پیارا ہاتھی ہے۔ وہ سڑک کے آغاز پر ہے ، جیسا کہ آپ دیکھ سکتے ہیں۔ یہ ابھی ابھی شروع ہوچکی ہے ، یہ صرف ایک قسم کی شروعات ہے ، یہ پوری ہڈوپ چیز ہے۔ یقینا. ، 2006 یا 2007 میں ، مجھے لگتا ہے ، جب یہ اوپن سورس کمیونٹی کے لئے جاری کیا گیا تھا ، لیکن لوگوں میں بہت ساری چیزیں چل رہی ہیں۔ بہت بڑی پیشرفت ہوئی ہے۔ در حقیقت ، میں کہانی کو سامنے لانا چاہتا ہوں ، لہذا میں ایک تیز ڈیسک ٹاپ شیئر کرنے جارہا ہوں ، کم از کم مجھے لگتا ہے کہ میں ہوں۔ آئیے ایک تیز ڈیسک ٹاپ شیئر کرتے ہیں۔
میں آپ کو یہ صرف پاگل ، پاگل اسٹوری لوگوں کو دکھا رہا ہوں۔ لہذا انٹیل نے 18 فیصد کلدیرا خریدنے کے لئے 740 ملین ڈالر کی سرمایہ کاری کی۔ میں نے سوچا اور میں اس طرح ہوں ، "ہولی کرسمس!" میں نے ریاضی کرنا شروع کی اور یہ اس طرح ہے ، "یہ 1 4.1 بلین کی قیمت ہے۔" آئیے اس کے بارے میں ایک سیکنڈ کے لئے سوچیں۔ میرا مطلب ہے ، اگر واٹس ایپ کی مالیت 2 بلین ڈالر ہے تو ، میں سمجھتا ہوں کہ کلوڈرا کی بھی قیمت 4.1 بلین ڈالر ہے ، ٹھیک ہے؟ جس کا مطلب بولوں: کیوں نہیں؟ لوگ ، ان دنوں کچھ کھڑکی سے باہر ہیں۔ میرا مطلب ہے ، عام طور پر سرمایہ کاری کے معاملے میں ، آپ کے پاس EBITDA اور یہ سب دیگر مختلف میکانزم ، محصولات کے متعدد اور اسی طرح ہیں۔ ٹھیک ہے ، یہ کلوڈیرہ کے لئے $ 4.1 بلین تک پہنچنے کے لئے متعدد محصول کی ایک حد ہوگی ، جو ایک حیرت انگیز کمپنی ہے۔ مجھے غلط مت سمجھو - وہاں کچھ بہت ، بہت ہوشیار لوگ ہیں جن میں لڑکا بھی شامل ہے جس نے پورا ہڈوپ تمیز شروع کیا تھا ، ڈوگ کٹنگ ، وہ وہاں سے ہے - بہت ذہین لوگ ہیں جو واقعتا، بہت کچھ کررہے ہیں ، واقعتا، ٹھنڈی چیزیں ، لیکن سب سے اہم بات یہ ہے کہ 1 4.1 بلین ، بہت زیادہ رقم ہے۔
تو یہاں اس طرح ایک قیدی واضح لمحہ ہے جو ابھی میرے سر سے گزر رہا ہے جو ایک چپ ، انٹیل ہے۔ ان کے چپ ڈیزائنرز کچھ ہڈوپ - مرضی کے مطابق چپ دیکھنے کے ل bringing لے رہے ہیں - مجھے ایسا سوچنا ہوگا ، لوگ۔ بس یہ میرا اندازہ ہے۔ یہ صرف ایک افواہ ہے ، مجھ سے آرہی ہے ، اگر آپ چاہیں گے ، لیکن اس سے اس کی سمجھ آجاتی ہے۔ اور اس سب کا کیا مطلب ہے؟
تو یہاں میرا نظریہ ہے۔ کیا ہو رہا ہے؟ اس میں سے بہت ساری چیزیں نئی نہیں ہیں۔ بڑے پیمانے پر متوازی پروسیسنگ بہت نیا نہیں ہے۔ متوازی پروسیسنگ یقینی ہے کہ کوئی نئی بات نہیں ہے۔ میں تھوڑی دیر کے لئے سپرکمپٹنگ کی دنیا میں رہا ہوں۔ ان چیزوں میں سے جو کچھ ہو رہا ہے وہ نئی نہیں ہیں ، لیکن عام طور پر آگاہی یہ ہے کہ ان پریشانیوں میں سے کچھ پر حملہ کرنے کا ایک نیا طریقہ ہے۔ مجھے کیا ہو رہا ہے ، اگر آپ کلودریرا یا ہارٹن ورکس کے کچھ بڑے دکانداروں اور ان دیگر لڑکوں میں سے کچھ کو دیکھیں تو ، وہ واقعی کیا کر رہے ہیں اگر آپ اسے سب سے زیادہ دانے دار آست سطح تک اُبلتے ہیں تو درخواست کی ترقی ہوتی ہے۔ یہی وہ کر رہے ہیں۔
وہ نئی ایپلی کیشنز تیار کر رہے ہیں۔ ان میں کچھ تجارتی تجزیات شامل ہیں۔ ان میں سے کچھ صرف سپرچارجنگ سسٹم میں شامل ہیں۔ ہمارے ایک دکاندار جس نے اس کے بارے میں بات کی ہے ، وہ آج کے شو میں سارا دن اس طرح کی چیزیں کرتے ہیں۔ لیکن اگر یہ بہت نیا ہے ، تو پھر جواب "واقعی نہیں" ہے ، لیکن یہاں بہت بڑی چیزیں واقع ہورہی ہیں ، اور ذاتی طور پر ، مجھے لگتا ہے کہ انٹیل کے ساتھ اس بہت بڑی سرمایہ کاری کو کیا کرنا ایک مارکیٹ سازی کا اقدام ہے۔ وہ آج کی دنیا کو دیکھتے ہیں اور دیکھتے ہیں کہ یہ آج کی اجارہ داری کی دنیا ہے۔ وہاں فیس بک ہے اور انہوں نے مااس اسپیس سے ہٹ کر صرف شکست دی ہے۔ لنکڈ ان نے ناقص کون ہے کون نے اس نٹ کو شکست دی ہے۔ لہذا آپ آس پاس نظر ڈالیں اور یہ ایک خدمت ہے جو آج ہماری دنیا میں ان تمام مختلف مقامات پر غلبہ حاصل کر رہی ہے ، اور میرے خیال میں یہ خیال ہے کہ انٹیل اپنی تمام چپس کو کلڈیرا پر پھینک دے گا اور اسے اسٹیک کے اوپری حصے تک پہنچانے کی کوشش کرے گا - بس میرا نظریہ
چنانچہ لوگ ، جیسا کہ میں نے کہا ، ہمارے پاس طویل سوال و جواب کا اجلاس ہونے والا ہے ، لہذا شرمندہ نہ ہوں۔ اپنے سوالات کو کسی بھی وقت بھیجیں۔ آپ اپنے ویب کاسٹ کنسول کے سوال و جواب کے جزو کا استعمال کرکے ایسا کرسکتے ہیں۔ اور اس کے ساتھ ہی ، میں اپنے مشمولات پر جانا چاہتا ہوں کیونکہ ہمارے پاس بہت ساری چیزیں گزرنے کے لئے مل گئی ہیں۔
تو ، رابن بلور ، مجھے چابیاں آپ کے حوالے کردیں اور منزل آپ کی ہے۔
رابن بلور: ٹھیک ہے ، ایرک ، اس کے لئے شکریہ۔ آئیے ڈانسنگ ہاتھیوں کو لائیں۔ یہ ایک حیرت انگیز بات ہے ، دراصل ، یہ کہ ہاتھی واحد زمین دار ستنداری ہیں جو حقیقت میں چھلانگ نہیں لگا سکتے۔ اس خاص گرافک میں ان تمام ہاتھیوں کو کم سے کم ایک فٹ زمین پر مل گیا ہے ، لہذا مجھے لگتا ہے کہ یہ ممکن ہے ، لیکن ایک حد تک ، یہ واضح طور پر ہڈوپ ہاتھی ہیں ، لہذا بہت قابل۔
یہ سوال ، واقعتا that ، جو میرے خیال میں ہے اس پر بھی تبادلہ خیال کرنا ہوگا اور پوری ایمانداری سے اس پر تبادلہ خیال کرنا ہوگا۔ آپ کو کہیں اور جانے سے پہلے اس پر تبادلہ خیال کرنا ہوگا ، جو واقعی ہڈوپ کے بارے میں بات کرنا شروع کردے۔
ان چیزوں میں سے ایک جو کلی طور پر مین پلے کی بنیاد سے ہے کلیدی ویلیو اسٹور ہے۔ ہمارے پاس اہم قدر والے اسٹور ہوتے تھے۔ ہم انہیں IBM مین فریم پر رکھتے تھے۔ ہمارے پاس ان کو منی کمپیوٹرز پر رکھا گیا تھا۔ DEC VAX میں IMS فائلیں تھیں۔ اسامہ کی صلاحیتیں ایسی تھیں جو آپ کے ہاتھوں پر ہاتھ ڈالنے کے ل every ہر منی کمپیوٹر پر تھیں۔ لیکن 80 کی دہائی کے آخر میں ، یونکس آگیا اور یونکس کے پاس اس میں کوئی اہم قیمت والا اسٹور نہیں تھا۔ جب یونکس نے اسے تیار کیا تو ، وہ بہت تیزی سے ترقی کرتے ہیں۔ واقعی یہ ہوا کہ ڈیٹا بیس فروشوں خاص طور پر اوریکل وہاں بھاپ میں چلے گئے اور انہوں نے آپ کے ڈیٹا بیس کو کسی بھی ڈیٹا کی دیکھ بھال کے لئے بیچ دیا جس کی آپ یونکس پر انتظام کرنے کی دیکھ بھال کرتے ہیں۔ ونڈوز اور لینکس ایک جیسے نکلے۔ لہذا ، صنعت عام مقصد والے اہم قدر والے اسٹور کے بغیر 20 سال کے بہترین حص forہ میں چلا گیا۔ ٹھیک ہے ، اب واپس آ گیا ہے۔ نہ صرف یہ واپس ہے ، یہ توسیع پزیر ہے۔
اب ، مجھے لگتا ہے کہ واقعی میں ہڈوپ واقعی کی بنیاد ہے اور ایک خاص حد تک ، یہ طے کرتا ہے کہ یہ کہاں جانا ہے۔ کلیدی قدر کی دکانوں کے بارے میں ہم کیا پسند کرتے ہیں؟ آپ میں سے جو عمر کی عمر میں ہیں اور اصل میں اہم قدر والے اسٹورز کے ساتھ کام کرنا یاد رکھتے ہیں وہ سمجھتے ہیں کہ آپ ان کو غیر رسمی طور پر ڈیٹا بیس ترتیب دینے کے لئے استعمال کرسکتے ہیں ، لیکن صرف غیر رسمی طور پر۔ آپ جانتے ہیں کہ پروگرام کے کوڈ میں میٹا ڈیٹا جلدی سے اسٹورز کی قدر کرتا ہے ، لیکن آپ واقعی اس کو ایک بیرونی فائل بنا سکتے ہیں ، اور اگر آپ کسی ڈیٹا بیس کی طرح ایک اہم قدر والے اسٹور کا علاج شروع کرنا چاہتے ہیں تو۔ لیکن یقینا it اس میں بحالی کی وہ ساری صلاحیت نہیں تھی جو ڈیٹا بیس کے پاس ہے اور اس میں ڈیٹا بیس کے پاس اب بہت سی چیزیں موجود نہیں ہیں ، لیکن یہ ڈویلپرز کے لئے واقعی ایک مفید خصوصیت تھی اور یہی ایک وجہ ہے جو میرے خیال میں ہے۔ کہ ہڈوپ نے اتنا مقبول ثابت کیا ہے - صرف اس وجہ سے کہ یہ کوڈرز ، پروگرامر ، ڈویلپرز ہیں جو جلدی میں ہیں۔ انہوں نے محسوس کیا کہ نہ صرف اسٹور کی کلیدی قدر ہے بلکہ یہ ایک کلیدی قیمت والا اسٹور ہے۔ یہ کافی حد تک غیر معینہ مدت تک ترازو کرتا ہے۔ میں نے ان ترازو کو ہزاروں سرورز میں بھجوایا ، لہذا ہڈوپ کے بارے میں یہ واقعی بڑی بات ہے ، یہی ہے۔
اس کے اوپر بھی نقشہ ریڈس ہے ، جو ایک متوازی الگورتھم ہے ، لیکن اصل میں یہ میری رائے میں ، اہم نہیں ہے۔ تو ، آپ جانتے ہو ، ہیدوپ گرگٹ ہے۔ یہ صرف ایک فائل سسٹم نہیں ہے۔ میں نے ہڈوپ کیلئے طرح طرح کے دعوے دیکھے ہیں: یہ ایک خفیہ ڈیٹا بیس ہے۔ یہ کوئی خفیہ ڈیٹا بیس نہیں ہے۔ یہ ایک عام اسٹور ہے۔ یہ تجزیاتی ٹول باکس ہے۔ یہ ELT ماحول ہے۔ یہ ڈیٹا صاف کرنے کا آلہ ہے۔ یہ ایک اسٹریمنگ پلیٹ فارم کا ڈیٹا گودام ہے۔ یہ ایک محفوظ شدہ دستاویزات کی دکان ہے۔ یہ کینسر کا علاج ہے ، وغیرہ۔ ان میں سے زیادہ تر چیزیں وینیلا ہیدوپ کے لئے واقعی میں درست نہیں ہیں۔ ہڈوپ غالبا a ایک پروٹو ٹائپنگ ہے - یہ یقینی طور پر ایس کیو ایل ڈیٹا بیس کے لئے ایک پروٹو ٹائپنگ ماحول ہے ، لیکن واقعتا یہ نہیں ہے ، اگر آپ ہڈوپ پر عمر کی فہرست کے ساتھ عمر کی جگہ ڈال دیتے ہیں تو ، آپ کو کچھ ایسا مل گیا ہے جو ڈیٹا بیس کی طرح لگتا ہے ، لیکن یہ واقعی ایسا نہیں ہے کسی کو بھی صلاحیت کے معاملے میں ایک ڈیٹا بیس کال کریں گے. ان صلاحیتوں میں سے بہت سے ، آپ انہیں یقینی طور پر ہڈوپ پر حاصل کرسکتے ہیں۔ یقینا ان میں بہت کچھ ہے۔ اصل میں ، آپ ہڈوپ کا کوئی ذریعہ حاصل کرسکتے ہیں ، لیکن ہڈوپ خود وہ نہیں ہے جس کو میں عملی طور پر سخت کہا جاتا ہوں ، اور اسی وجہ سے ہڈوپ کے بارے میں معاہدہ ، واقعتا really میں کسی اور چیز پر نہیں ہوں گا ، کیا آپ کو کسی قسم کا تیسرا ہونا ضروری ہے؟ اس میں اضافہ کرنے کے لئے پارپیئر مصنوعات.
لہذا ، آپ کے بارے میں بات کرنے سے آپ صرف چند سطروں میں پھینک سکتے ہیں کیوں کہ میں ہڈوپ سے زیادہ کی بات کر رہا ہوں۔ سب سے پہلے ، اصل وقت کے استفسار کی اہلیت ، اچھی طرح سے آپ جانتے ہو کہ اصل وقت کاروباری وقت کی طرح ہوتا ہے ، واقعی میں ، ہمیشہ ہمیشہ کارکردگی کا مظاہرہ کرنا ضروری ہوتا ہے۔ جس کا مطلب بولوں: آپ حقیقی وقت کے لئے انجینئر کیوں کریں گے؟ ہڈوپ واقعی میں یہ نہیں کرتا ہے۔ یہ ایسا کچھ کرتا ہے جو اصل وقت کے قریب ہوتا ہے لیکن یہ حقیقت میں اصل وقت کی چیزیں نہیں کرتا ہے۔ یہ سلسلہ بندی کرتا ہے ، لیکن اس سلسلے میں اس طرح سلسلہ بند نہیں ہوتا ہے کہ میں واقعی مشن-کٹیکل نوعیت کی ایپلی کیشن اسٹریمنگ پلیٹ فارم کے ذریعہ کال کروں گا۔ ایک ڈیٹا بیس اور کلیئرنس اسٹور میں فرق ہے۔ اسے ہڈوپ سے زیادہ ہم آہنگی کرنے سے آپ کو ایک کلیئئبل ڈیٹا اسٹور ملتا ہے۔ اس طرح کا ایک ڈیٹا بیس کی طرح ہے لیکن یہ ڈیٹا بیس جیسا نہیں ہے۔ ہڈوپ اپنی آبائی شکل میں ، میری رائے میں ، واقعتا at ایک ڈیٹا بیس کی حیثیت سے اہل نہیں ہے کیونکہ اس میں ڈیٹا بیس کے پاس ہونے والی کچھ چیزوں کی کمی ہے۔ ہڈوپ بہت کچھ کرتا ہے ، لیکن یہ خاص طور پر اچھا نہیں کرتا ہے۔ ایک بار پھر ، صلاحیت موجود ہے لیکن ہم واقعی میں ان تمام علاقوں میں تیز رفتار صلاحیت رکھنے سے ایک راستہ دور ہیں۔
ہادوپ کے بارے میں سمجھنے کی دوسری بات یہ ہے کہ ، اس کی ترقی کے بعد سے یہ ایک لمبا فاصلہ طے کرتا ہے۔ یہ ابتدائی دنوں میں تیار کیا گیا تھا؛ یہ اس وقت تیار کیا گیا تھا جب ہمارے پاس سرور موجود تھے جن میں فی سرور پر اصل میں صرف ایک پروسیسر ہوتا تھا۔ ہمارے پاس ملٹی کور پروسیسر کبھی نہیں تھا اور یہ گرڈ ، لانچ گرڈ اور سیورز کو چلانے کے لئے بنایا گیا تھا۔ ہڈوپ کے ڈیزائن مقاصد میں سے ایک یہ تھا کہ کام کو کبھی نہیں کھونا۔ اور یہ واقعی ڈسک کی ناکامی کے بارے میں تھا ، کیونکہ اگر آپ کو سیکڑوں سرورز مل گئے ہیں ، تو پھر امکان یہ ہے کہ ، اگر آپ کو سرورز پر ڈسک مل گئی ہیں تو ، امکان یہ ہے کہ آپ کو 99.8 جیسی کسی چیز کی اپ ٹائم دستیابی ملے گی۔ اس کا مطلب یہ ہے کہ آپ کو سال میں ایک دن ، ہر 300 یا 350 دن میں ایک بار اوسطا ان سرورز کی ناکامی ہوگی۔ لہذا اگر آپ کے سینکڑوں افراد موجود ہیں تو ، امکان اس سال کے کسی بھی دن ہوگا کہ آپ کو سرور کی ناکامی ہوگی۔
ہڈوپ خاص طور پر اس مسئلے کو حل کرنے کے لئے تعمیر کیا گیا تھا - تاکہ ، اگر کچھ ناکام ہو جائے تو ، یہ ہر خاص سرور پر چلنے والی ہر چیز کا سنیپ شاٹ لے رہا ہے اور اس سے جاری بیچ کی ملازمت بحال ہوسکتی ہے۔ اور یہ سب کچھ در حقیقت بیچ نوکریوں میں ہی ہڈوپ پر چل رہا تھا اور یہ واقعی ایک مفید صلاحیت ہے ، یہ کہنا ضروری ہے۔ کچھ بیچ کی ملازمتیں جو چل رہی تھیں - خاص کر یاہو میں ، جہاں میرے خیال میں ہڈوپ قسم کے طور پر پیدا ہوا تھا ، دو یا تین دن چلتا رہے گا ، اور اگر یہ ایک دن کے بعد بھی ناکام ہو جاتا ہے تو ، آپ واقعی اس کام کو کھونا نہیں چاہتے تھے۔ جو ہوچکا تھا۔ تو یہ ہڈوپ پر دستیابی کے پیچھے ڈیزائن پوائنٹ تھا۔ آپ اس اعلی دستیابی کو فون نہیں کریں گے ، لیکن آپ اسے سیریل بیچ ملازمتوں کے لئے اعلی دستیابی کا نام دے سکتے ہیں۔ شاید اسے دیکھنے کا یہی طریقہ ہے۔ اعلی دستیابی ہمیشہ کام کی لائن خصوصیات کے مطابق تشکیل دی جاتی ہے۔ اس وقت ، ہڈوپ کو واقعی سیریل بیچ ملازمتوں کے لئے صرف اس قسم کی بازیابی کے سلسلے میں تشکیل دیا جاسکتا ہے۔ ممکنہ طور پر ٹرانزیکشنل ایل ایل پی کے معاملے میں انٹرپرائز اعلی دستیابی کو بہتر سمجھا جائے۔ مجھے یقین ہے کہ اگر آپ اسے کسی اصل وقت کی چیز کے طور پر نہیں دیکھ رہے ہیں ، تو ہڈوپ ابھی تک ایسا نہیں کرتا ہے۔ شاید یہ کرنے سے بہت لمبا فاصلہ ہے۔
لیکن یہاں ہڈوپ کے بارے میں خوبصورت بات ہے۔ دائیں طرف کا یہ گرافک جس کے کنارے کے آس پاس دکانداروں کی فہرست ملی ہے اور اس میں موجود تمام لائنوں میں ہڈوپ ماحولیاتی نظام میں ان دکانداروں اور دیگر مصنوعات کے مابین روابط کی نشاندہی کی گئی ہے۔ اگر آپ اس پر نظر ڈالیں تو ، یہ ایک حیرت انگیز طور پر متاثر کن ماحولیاتی نظام ہے۔ یہ کافی قابل ذکر ہے۔ ہم ظاہر ہے ، ہم ان کی صلاحیتوں کے لحاظ سے بہت سارے دکانداروں سے بات کرتے ہیں۔ جن وینڈروں سے میں نے بات کی ہے ، ان میں کچھ واقعی غیر معمولی صلاحیتیں ہیں ہڈوپ اور میموری میں ، ہڈوپ کو کمپریسڈ آرکائیو کے طور پر استعمال کرنے کا طریقہ ، ہڈوپ کو ای ٹی ایل ماحول کے طور پر استعمال کرنے کا طریقہ ، اور اسی طرح کے کچھ اور۔ لیکن واقعی ، اگر آپ خود ہیڈوپ میں پروڈکٹ شامل کرتے ہیں تو ، یہ کسی خاص جگہ میں انتہائی بہتر کام کرتا ہے۔ لہذا جب میں مقامی ہیدوپ پر تنقید کر رہا ہوں ، جب میں واقعی اس میں کچھ طاقت شامل کرو تو میں ہیدوپ کا تنقید نہیں کرتا ہوں۔ میری رائے میں ، ہڈوپ کی مقبولیت کی قسم اس کے مستقبل کی ضمانت دیتا ہے۔ اس کا مطلب ہے ، یہاں تک کہ اگر ہڈوپ پر اب تک لکھا گیا کوڈ کی ہر سطر غائب ہوجاتی ہے ، مجھے یقین نہیں ہے کہ ایچ ڈی ایف ایس API ختم ہوجائے گا۔ دوسرے لفظوں میں ، میں سمجھتا ہوں کہ فائل سسٹم ، API ، یہاں رہنے کے لئے ہے ، اور ممکنہ طور پر YARN ، جو اس کے اوپر نظر آتا ہے۔
جب آپ واقعی اس پر نظر ڈالتے ہیں تو ، یہ ایک بہت ہی اہم صلاحیت ہے اور میں ایک منٹ میں اس پر موم قسم کی قسمت کروں گا ، لیکن دوسری بات یہ ہے کہ ، کہتے ہیں ، ہڈوپ کے بارے میں دلچسپ لوگوں کی پوری اوپن سورس تصویر ہے۔ لہذا یہ بات قابل قدر ہے کہ اوپن سورس تصویر میں جس چیز کو میں واقعی قابلیت سمجھتا ہوں اس لحاظ سے اس کے بارے میں جاننے کے قابل ہوں۔ جب کہ ہڈوپ اور اس کے تمام اجزا یقینی طور پر وہی کرسکتے ہیں جسے ہم ڈیٹا لمبائی کہتے ہیں - یا جیسا کہ میں اس کو فون کرنا پسند کرتا ہوں ، ایک ڈیٹا ذخیرہ۔ - یقینی طور پر یہ ایک بہت ہی اچھا اسٹیجنگ ایریا ہے جو ڈیٹا کو تنظیم میں چھوڑنے یا تنظیم میں ڈیٹا اکٹھا کرنا ہے۔ سینڈ بکس اور اینگلنگ ڈیٹا کیلئے۔ یہ ایک پروٹو ٹائپنگ ڈویلپمنٹ پلیٹ فارم کی حیثیت سے بہت اچھا ہے جسے آپ دن کے آخر میں نافذ کرسکتے ہیں ، لیکن آپ ایک ترقیاتی ماحول کے طور پر جانتے ہیں کہ ہر وہ چیز جو آپ چاہتے ہیں وہاں ہے۔ محفوظ شدہ دستاویزات کی دکان کے طور پر ، اس میں آپ کو درکار سب کچھ مل گیا ، اور یقینا یہ مہنگا نہیں ہے۔ مجھے نہیں لگتا کہ ہمیں ہیدوپ سے ان دونوں چیزوں میں سے کسی کو طلاق دینی چاہئے اگرچہ وہ باضابطہ طور پر نہیں ہیں ، اگر آپ چاہیں تو ہڈوپ کے اجزاء۔ آن لائن پچر اوپن سورس دنیا میں بہت سارے تجزیات لے کر آیا ہے اور اب تجزیاتی تجزیہ ہڈوپ پر چل رہا ہے کیونکہ اس سے آپ کو ایک ایسا مناسب ماحول مل جاتا ہے جس میں آپ حقیقت میں بہت سارے بیرونی اعداد و شمار لے سکتے ہیں اور صرف کھیلنا شروع کردیتے ہیں۔ تجزیاتی سینڈ باکس میں۔
اور پھر آپ کو اوپن سورس کی قابلیت مل گئی ہے ، یہ دونوں ہی مشین لرننگ ہیں۔ یہ دونوں اس لحاظ سے انتہائی طاقت ور ہیں کہ وہ طاقتور تجزیاتی الگورتھم کو نافذ کرتے ہیں۔ اگر آپ ان چیزوں کو ایک ساتھ رکھتے ہیں تو ، آپ کو کچھ بہت ہی اہم صلاحیت کی دانی مل گئی ہے ، جو ایک طرح سے ہے یا کسی دوسرے کے بہت زیادہ امکان ہے - چاہے وہ خود ہی ترقی کرتا ہے یا آیا دکاندار گمشدہ ٹکڑوں کو پُر کرنے آتا ہے۔ اس کا طویل عرصہ تک جاری رہنے کا بہت امکان ہے اور یقینی طور پر مجھے لگتا ہے کہ مشین لرننگ کا دنیا پر پہلے ہی بہت بڑا اثر پڑ رہا ہے۔
ہیدوپ ، یاران کے ارتقا نے سب کچھ تبدیل کردیا۔ کیا ہوا تھا ، میپریڈس ابتدائی فائل سسٹم ایچ ڈی ایف ایس پر بہت زیادہ ویلڈیڈ تھا۔ جب یاران متعارف کرایا گیا تھا ، تو اس نے اپنی پہلی ریلیز میں نظام الاوقات کی اہلیت پیدا کردی۔ آپ کو پہلی ریلیز سے انتہائی پیچیدہ نظام الاوقات کی توقع نہیں کی جائے گی ، لیکن اس کا مطلب یہ تھا کہ اب یہ ضروری نہیں کہ پیچ کا ماحول ہو۔ یہ ایک ایسا ماحول تھا جس میں متعدد نوکریوں کا شیڈول کیا جاسکتا تھا۔ جیسے ہی یہ ہوا ، وہاں فروشوں کی ایک پوری سیریز تھی جو ہڈوپ سے دور ہی رہے تھے - وہ ابھی آئے اور اس سے جڑ گئے کیونکہ تب وہ اسے کسی فائل سسٹم کے شیڈولنگ ماحول کی حیثیت سے دیکھ سکتے ہیں اور وہ چیزوں کو ایڈریس کرسکتے ہیں۔ یہ. یہاں تک کہ ڈیٹا بیس فروش بھی موجود ہیں جنہوں نے اپنے ڈیٹا بیس کو ایچ ڈی ایف ایس پر نافذ کیا ہے ، کیونکہ وہ صرف انجن لے کر صرف ایچ ڈی ایف ایس پر ڈال دیتے ہیں۔ کاسکیڈنگ اور یاران کے ساتھ ، یہ ایک بہت ہی دلچسپ ماحول بن جاتا ہے کیونکہ آپ ایچ ڈی ایف ایس پر پیچیدہ ورک فلو تشکیل دے سکتے ہیں اور اس کا واقعی مطلب یہ ہے کہ آپ اس کے بارے میں سوچنا واقعی ایک پلیٹ فارم کے طور پر شروع کر سکتے ہیں جو بیک وقت متعدد ملازمتوں کو چلا سکتا ہے اور اپنے آپ کو مقام کی طرف بڑھا رہا ہے۔ مشن اہم چیزیں کر رہا ہے۔ اگر آپ یہ کرنے جا رہے ہیں تو ، آپ کو شاید تیسری پارٹی کے کچھ اجزاء جیسے سیکیورٹی اور اسی طرح کے کچھ دوسرے سامان خریدنے کی ضرورت ہوگی ، جو خالی جگہوں کو پُر کرنے کے لئے ہڈوپ کے پاس واقعی آڈٹ اکاؤنٹ نہیں ہے ، لیکن آپ اس مقام پر پہنچیں جہاں آبائی اوپن سورس کے ساتھ بھی آپ کچھ دلچسپ چیزیں کرسکتے ہیں۔
اس معاملے میں جہاں مجھے لگتا ہے کہ ہڈوپ واقعتا go جا رہا ہے ، میں ذاتی طور پر یقین کرتا ہوں کہ ایچ ڈی ایف ایس ڈیفالٹ اسکیل آؤٹ فائل سسٹم بننے جا رہا ہے اور اسی وجہ سے ڈیٹا فلو کے لئے گرڈ کے لئے او ایس ، آپریٹنگ سسٹم بننے جارہا ہے۔ میرے خیال میں اس کا بہت بڑا مستقبل مل گیا ہے اور مجھے نہیں لگتا کہ یہ وہیں رکے گا۔ اور میں سمجھتا ہوں کہ حقیقت میں ماحولیاتی نظام صرف اس لئے مدد کرتا ہے کیونکہ اس جگہ پر موجود سبھی بیچنے والے ، حقیقت میں ہڈوپ کو ایک یا کسی اور طریقے سے مربوط کر رہے ہیں اور وہ صرف اسے قابل بنارہے ہیں۔ ایک اور بات قابل قدر بنانے کے معاملے میں ، ہڈوپ اوورج کے معاملے میں ، کیا یہ ایک بہت ہی اچھا پلیٹ فارم ہے جس کے ساتھ ہم آہنگی نہیں ہے۔ اگر آپ دراصل یہ دیکھ رہے ہیں کہ یہ کیا کر رہا ہے ، یہ اصل میں کیا کر رہا ہے وہ یہ ہے کہ وہ ہر سرور پر باقاعدگی سے اسنیپ شاٹ لے رہا ہے کیونکہ یہ اپنی میپریڈس نوکریوں کو انجام دے رہا ہے۔ اگر آپ واقعی میں تیزی سے ہم آہنگی کے لئے ڈیزائن کرنے جارہے ہیں تو آپ ایسا کچھ نہیں کر رہے ہوں گے۔ اصل حقیقت میں ، آپ شاید خود ہی میپریڈس کا استعمال نہیں کر رہے ہوں گے۔ میپریڈویس صرف وہی ہے جو میں کہنا چاہتا ہوں کہ آداب ہم آہنگی کے قابل ہے۔
متوازی ہونے کے لئے دو نقطہ نظر ہیں: ایک پائپ لائننگ کے عمل سے ہے اور دوسرا ڈیٹا میپریڈس کو تقسیم کرکے ہے اور یہ اعداد و شمار کو تقسیم کرتا ہے لہذا بہت ساری ملازمتیں ایسی ہیں جہاں میپریڈوس واقعتا do اس کا تیز رفتار طریقہ نہیں ہوگا ، لیکن یہ کام کرے گا۔ آپ کو ہم آہنگی دیں اور اس سے کوئی فائدہ نہیں اٹھا سکتا۔ جب آپ کو بہت سارے ڈیٹا مل جاتے ہیں تو ، اس قسم کی طاقت عام طور پر اتنی کارآمد نہیں ہوتی ہے۔ یارن ، جیسا کہ میں نے پہلے ہی کہا ہے ، ایک بہت ہی نوجوان شیڈولنگ کی اہلیت ہے۔
ہڈوپ ، یہاں ریت میں لکیر کھینچنے کی طرح ہے ، ہڈوپ ڈیٹا کا گودام نہیں ہے۔ اعداد و شمار کے گودام کی حیثیت سے یہ اتنا دور ہے کہ یہ کہنا تقریبا almost ایک مضحکہ خیز تجویز ہے۔ اس آریجام میں ، میں جو کچھ اوپر دکھا رہا ہوں وہ ایک طرح کا ڈیٹا فلو ہے ، جو ایک ہڈوپ ڈیٹا ذخائر سے ایک گرانٹین اسکیل آؤٹ ڈاٹا بیس میں جانا ہے ، جو ہم اصل میں کریں گے ، ایک انٹرپرائز ڈیٹا گودام۔ میں وراثت کے ڈیٹا بیس دکھا رہا ہوں ، ڈیٹا گودام میں ڈیٹا کو کھانا کھلانا اور آف لوڈ سرگرمی سے اعداد و شمار کے گودام سے آف لوڈ ڈیٹا بیس بناتا ہوں ، لیکن حقیقت میں یہ وہ تصویر ہے جسے میں نے ابھرنا شروع کیا ہے ، اور میں کہوں گا کہ یہ پہلی نسل کی طرح ہے ہڈوپ کے ساتھ ڈیٹا گودام کا کیا ہوتا ہے۔ لیکن اگر آپ خود ڈیٹا گودام کو دیکھیں تو آپ کو احساس ہوگا کہ ڈیٹا گودام کے نیچے آپ کو ایک اصلاح کار مل گیا ہے۔ آپ کو بہت سارے پروسیس کے دوران استفسار کرنے والے استفسار کارکنان مل چکے ہیں جن میں شاید بہت ساری تعداد میں ڈسکیں موجود ہیں۔ ڈیٹا گودام میں یہی ہوتا ہے۔ یہ دراصل اس طرح کا فن تعمیر ہے جو ڈیٹا گودام کے لئے بنایا گیا ہے اور اس طرح کی کوئی چیز بنانے میں کافی وقت لگتا ہے ، اور ہڈوپ کو اس میں سے کوئی چیز نہیں ہے۔ لہذا ہڈوپ ڈیٹا کا گودام نہیں ہے اور یہ میری رائے میں جلد کسی بھی وقت ایک بننے والا نہیں ہے۔
اس میں اعداد و شمار کا یہ نسبتا ذخیرہ موجود ہے ، اور یہ ایک طرح سے دلچسپ نظر آتا ہے اگر آپ دنیا کو صرف تنظیم میں بہنے والے واقعات کی ایک سیریز کے طور پر دیکھیں۔ میں اس آریھ کے بائیں طرف دکھا رہا ہوں۔ اس میں فلٹرنگ اور روٹنگ کی صلاحیت سے گزرنا اور جس چیز کو اسٹریمنگ کے ل go جانے کی ضرورت ہوتی ہے وہ اسٹرنگ ایپس سے دور ہوجاتی ہے اور باقی سبھی سیدھے ڈیٹا ذخائر میں جاتا ہے جہاں اسے تیار اور صاف کیا جاتا ہے ، اور پھر ای ٹی ایل کے ذریعہ کسی ایک اعداد و شمار میں منتقل کردیا جاتا ہے گودام یا ایک سے زیادہ انجنوں پر مشتمل منطقی ڈیٹا کا گودام۔ یہ ، میری رائے میں ، ہڈوپ کے لئے قدرتی ترقی کی لکیر ہے۔
ای ٹی ڈبلیو کے لحاظ سے ، ایک ایسی چیز جس کی نشاندہی کرنے کے قابل ہے وہ یہ ہے کہ خود کوائف گودام منتقل کیا گیا تھا - یہ وہ نہیں تھا جو تھا۔ یقینی طور پر ، آج کل ، آپ کو توقع ہے کہ لوگ ، یا کچھ لوگ ، ڈیٹا گودام میں موجود دستاویزات کو کال کرتے ہیں اس کے فی ہائرانکلیکل ڈیٹا ہوگا۔ یہ JSON ہے۔ ممکنہ طور پر ، نیٹ ورک کے سوالات جو گراف ڈیٹا بیس ، ممکنہ طور پر تجزیات ہیں۔ لہذا ، ہم جس ای ٹی کی طرف بڑھ رہے ہیں وہ ایک ای ٹی ڈبلیو ہے جس میں واقعتا اس سے کہیں زیادہ پیچیدہ کام کا بوجھ مل گیا ہے جو ہم استعمال کر رہے ہیں۔ تو یہ ایک طرح کی دلچسپ بات ہے کیونکہ ایک طرح سے اس کا مطلب یہ ہے کہ ڈیٹا گودام اور زیادہ نفیس ہوتا جارہا ہے ، اور اس کی وجہ سے ، ہڈوپ اس کے قریب جانے سے بھی زیادہ طویل عرصہ ہوگا۔ ڈیٹا گودام کے معنی میں توسیع ہو رہی ہے ، لیکن اس میں ابھی بھی اصلاح شامل ہے۔ آپ کو نہ صرف ابھی کے سوالات بلکہ ان تمام سرگرمیوں پر ایک اصلاح کی صلاحیت حاصل کرنی ہوگی۔
واقعی یہ ہے۔ ہڈوپ کے بارے میں میں اتنا ہی کہنا چاہتا تھا۔ مجھے لگتا ہے کہ میں رے کے حوالے کرسکتا ہوں ، جن کو کوئی سلائیڈ نہیں ملی ، لیکن وہ بات کرنے میں ہمیشہ اچھا رہتا ہے۔
ایرک کااناگ: میں سلائیڈز لے کر جاؤں گا۔ ہمارے دوست رے وانگ ہیں۔ تو ، رے ، اس سب پر آپ کے خیالات کیا ہیں؟
رے وانگ: اب ، میں سمجھتا ہوں کہ یہ شاید اہم قدر والے اسٹورز کی سب سے زیادہ کامیابی اور عظیم تاریخ تھی اور جہاں ہڈوپ انٹرپرائز کے ساتھ تعلقات میں چلا گیا تھا ، لہذا میں روبن کو سنتے وقت ہمیشہ بہت کچھ سیکھتا ہوں۔
اصل میں ، میرے پاس ایک سلائڈ ہے۔ میں یہاں ایک سلائڈ پاپ اپ کرسکتا ہوں۔
ایرک کااناگ: بس آگے بڑھیں اور پر کلک کریں ، اسٹارٹ پر کلک کریں اور اپنے ڈیسک ٹاپ کا اشتراک کرنے کے لئے جائیں۔
رے وانگ: سمجھ گیا ، وہاں جاؤ۔ میں واقعتا میں حصہ لوں گا۔ آپ خود ایپ دیکھ سکتے ہیں۔ آئیے دیکھتے ہیں کہ یہ کیسے جاتا ہے۔
ہڈوپ کے بارے میں یہ ساری باتیں اور پھر ہم وہاں موجود ٹکنالوجیوں کے بارے میں بات چیت میں گہری بات کرتے ہیں جہاں ہڈوپ آگے جارہا ہے ، اور بہت ساری بار میں اس بات کو پسند کرتا ہوں کہ واقعی کاروباری بحث ہو۔ ٹیکنالوجی کی سمت بہت ساری چیزیں واقع ہورہی ہیں جہاں ہم ڈیٹا گوداموں ، انفارمیشن مینجمنٹ ، ڈیٹا کوالٹی ، اس ڈیٹا کو عبور حاصل کرنے کے بارے میں بات کرتے رہے ہیں اور اسی وجہ سے ہم اس کو دیکھنے کی کوشش کرتے ہیں۔ لہذا اگر آپ یہاں اس گراف کو بالکل نیچے دیکھتے ہیں تو ، یہ بہت دلچسپ ہے کہ ہم ہڈوپ کے بارے میں بات کرنے والے افراد کی اقسام کو ٹھوکتے ہیں۔ ہمارے پاس ٹیکنولوجسٹ اور ڈیٹا سائنسدان موجود ہیں جو بہت سارے جوش و خروش میں مبتلا ہیں ، اور یہ عام طور پر ڈیٹا کے ذرائع کے بارے میں ہے ، ٹھیک ہے؟ ہم اعداد و شمار کے ذرائع کو کس طرح مہارت حاصل کرسکتے ہیں؟ ہم اسے معیار کے صحیح سطح میں کیسے حاصل کریں گے؟ گورننس کے بارے میں ہم کیا کرتے ہیں؟ مختلف قسم کے ذرائع سے ملنے کے لئے ہم کیا کر سکتے ہیں؟ ہم نسب کو کیسے برقرار رکھیں؟ اور اس طرح کی ساری گفتگو۔ اور ہم اپنے ہڈوپ سے مزید SQL کیسے حاصل کرسکتے ہیں؟ تو یہ حصہ اس سطح پر ہو رہا ہے۔
پھر معلومات اور آرکیسٹریشن کے پہلو میں ، یہیں سے دلچسپ ہوتا ہے۔ ہم اس بصیرت کی آؤٹ پٹس کو باندھنا شروع کر رہے ہیں جو ہمیں مل رہا ہے یا ہم اسے کاروباری عمل میں واپس لے رہے ہیں۔ ہم اسے کسی بھی طرح کے میٹا ڈیٹا ماڈل میں کیسے باندھ سکتے ہیں؟ کیا ہم اشیاء کے درمیان نقطوں کو جوڑ رہے ہیں؟ اور اس طرح ہم اس فعل کے بارے میں نئی فعل اور مباحثے کرتے ہیں ، جو روایتی طور پر ہم CRUD کی دنیا میں ہیں اس سے آگے بڑھ رہے ہیں: ایسی دنیا میں تخلیق کریں ، پڑھیں ، اپ ڈیٹ کریں ، حذف کریں ، جو اس بحث و مباحثے میں ہے کہ ہم کس طرح مشغول یا اشتراک یا تعاون کرتے ہیں یا جیسے یا کچھ کھینچنا۔
اسی جگہ سے ہم بہت زیادہ جوش و خروش اور بدعت دیکھنا شروع کر رہے ہیں ، خاص طور پر اس بارے میں کہ اس معلومات کو کس طرح کھینچیں اور اس کو قدر کی نگاہ سے لاسکیں۔ یہی سرخ رنگ کے نیچے ٹیکنالوجی پر مبنی مباحثہ ہے۔ اس سرخ لکیر کے اوپر ، ہمیں وہی سوالات مل رہے ہیں جو ہم ہمیشہ پوچھنا چاہتے ہیں اور ان میں سے ایک جو ہم ہمیشہ اٹھاتے ہیں ، مثال کے طور پر ، شاید آپ کے لئے خوردہ میں سوال یہ ہے کہ ، "ریڈ سویٹر کیوں بہتر فروخت ہورہے ہیں؟ مشی گن میں نیلے رنگ کے سویٹر کے مقابلے میں الاباما میں؟ " آپ اس کے بارے میں سوچ سکتے ہیں اور کہہ سکتے ہیں ، "اس طرح کی دلچسپ بات ہے۔" آپ نے وہ نمونہ دیکھا۔ ہم یہ سوال پوچھتے ہیں ، اور ہم حیرت سے پوچھتے ہیں ، "ارے ، ہم کیا کر رہے ہیں؟" شاید اس کا تعلق ریاستی اسکولوں - مشی گن بمقابلہ الاباما کے بارے میں ہے۔ ٹھیک ہے ، مجھے یہ مل گیا ، میں دیکھ رہا ہوں کہ ہم کہاں جارہے ہیں۔ اور اس طرح ہم گھر کے کاروبار کی طرف ، مالیہ میں لوگوں ، روایتی BI صلاحیتوں ، مارکیٹنگ میں لوگوں ، اور HR میں شامل لوگوں کو ، "میرے نمونے کہاں ہیں؟" حاصل کرنا شروع کر رہے ہیں۔ ہم ان نمونوں پر کیسے پہنچیں گے؟ اور اس طرح ھودوپ کی طرف ہم بدعت کا ایک اور طریقہ دیکھتے ہیں۔ یہ واقعی اس بارے میں ہے کہ ہم کس طرح اپ ڈیٹ کی بصیرت کو تیزی سے سطح پر رکھتے ہیں۔ ہم اس طرح کے رابطے کیسے کرتے ہیں؟ یہ سب لوگوں تک پہنچتا ہے جو اس طرح کر رہے ہیں ، اشتہار: ٹیک جو بنیادی طور پر اشتہارات اور متعلقہ مواد کو کسی بھی چیز سے حقیقی وقت کی بولی لگانے والے نیٹ ورکس سے متعلقہ اشتہارات اور اشتہارات کی جگہ سے جوڑنے کی کوشش کرتے ہیں اور یہ اڑان پر کرتے ہیں۔
تو یہ دلچسپ ہے. آپ ہڈوپ کی پیشرفت کو دیکھتے ہیں ، "ارے ، یہاں ٹیکنالوجی حل ہے۔ لوگوں کو یہ معلومات پہنچانے کے لئے ہمیں یہاں کیا کرنا چاہ.۔" پھر جیسے جیسے یہ کاروباری حصے کی لکیر کو عبور کرتا ہے ، یہیں سے یہ دلچسپ ہوجاتا ہے۔ یہ بصیرت ہے۔ کارکردگی کہاں ہے؟ کٹوتی کہاں ہے؟ ہم چیزوں کی پیش گوئی کس طرح کر رہے ہیں؟ ہم کس طرح اثر و رسوخ لیتے ہیں؟ اور پھر اسے اس آخری درجے پر لے آئیں جہاں ہم واقعتا Had ہڈوپ بدعات کا ایک اور مجموعہ دیکھتے ہیں جو فیصلہ سازی کے نظام اور عمل کے گرد ہو رہا ہے۔ اگلی بہترین کارروائی کیا ہے؟ لہذا آپ جانتے ہو کہ مشی گن میں نیلے رنگ کے سویٹر زیادہ فروخت ہورہے ہیں۔ آپ الاباما میں ایک ٹن بلیو سویٹر پر بیٹھے ہیں۔ واضح بات یہ ہے کہ ، "ہاں ، اچھا ہے ، ہم اسے وہاں بھیج دیں۔" ہم اسے کیسے کریں؟ اگلا قدم کیا ہے؟ ہم اسے کس طرح باندھ سکتے ہیں؟ ہوسکتا ہے کہ اگلی بہترین کارروائی ہو ، شاید یہ ایک تجویز ہو ، شاید یہ ایسی چیز ہے جو آپ کو کسی مسئلے سے بچنے میں مدد دیتی ہے ، ہوسکتا ہے کہ یہ کوئی کارروائی نہ ہو جو خود ہی ایک عمل ہو۔ تو ہم دیکھتے ہیں کہ اس طرح کے نمونے ابھرتے ہیں۔ اور اس کی خوبصورتی اس بات کی طرف ہے کہ آپ کلیدی قدر والے اسٹورز ، رابن کے بارے میں جو کچھ کہہ رہے ہیں وہ یہ ہے کہ یہ اتنی تیزی سے ہو رہا ہے۔ یہ اس طرح ہورہا ہے کہ ہم اس طرح اس کے بارے میں نہیں سوچا ہے۔
شاید میں کہوں گا کہ پچھلے پانچ سالوں میں ہم نے اٹھایا۔ ہم نے اس ضمن میں سوچنا شروع کیا کہ ہم کس طرح دوبارہ سے اہم قدر والے اسٹوروں کا فائدہ اٹھاسکتے ہیں ، لیکن یہ صرف پچھلے پانچ سالوں میں ہی ہے ، لوگ اس کو بہت مختلف انداز سے دیکھ رہے ہیں اور یہ اس طرح ہے جیسے ٹیکنالوجی کے چکر خود کو 40 سالہ نمونوں میں دہرارہے ہیں ، لہذا یہ مہربان ہے ایک مضحکہ خیز چیز کی جہاں ہم بادل کو دیکھ رہے ہیں اور میں بالکل مین فریم ٹائم شیئرنگ کی طرح ہوں۔ ہم ہڈوپ کو دیکھ رہے ہیں اور کلیدی قدر والے اسٹور کی طرح۔ ہوسکتا ہے کہ یہ ڈیٹا مارٹ ہو ، کسی ڈیٹا گودام سے کم ہو۔ اور لہذا ہم ان نمونوں کو دوبارہ دیکھنا شروع کردیں۔ ابھی میں جو کچھ کرنے کی کوشش کر رہا ہوں وہ اس کے بارے میں سوچنا ہے کہ 40 سال پہلے لوگ کیا کر رہے تھے؟ وہ کون سے نقطہ نظر اور تکنیک اور طریقے استعمال کیے جارہے تھے جو لوگوں کے پاس موجود ٹیکنالوجیز کے ذریعہ محدود تھے؟ اس طرح کے سوچنے کے عمل کو آگے بڑھانا ہے۔ لہذا جب ہم ہڈوپ کی بڑی تصویر کو بطور آلے کے ذریعے جاتے ہیں ، جب ہم واپس جاتے ہیں اور کاروباری مضمرات کے بارے میں سوچتے ہیں تو ، یہ ایک ایسا راستہ ہے جس کو ہم عام طور پر لوگوں کو لے کر جاتے ہیں تاکہ آپ دیکھ سکیں کہ اعداد و شمار میں کیا ٹکڑے ہیں ، کون سے حصے ہیں فیصلے راستہ. یہ صرف ایک ایسی چیز ہے جسے میں شریک کرنا چاہتا تھا۔ یہ ایک ایسی سوچ ہے جس کا ہم داخلی استعمال کر رہے ہیں اور امید ہے کہ اس بحث سے اور بھی بڑھ جائے گا۔ تو میں اسے آپ کے پاس واپس کردوں گا ، ایرک۔
ایرک کااناگ: یہ حیرت انگیز ہے۔ اگر آپ کچھ سوال و جواب کے لئے رہ سکتے ہیں۔ لیکن مجھے پسند ہے کہ آپ نے اسے کاروباری سطح پر واپس لے لیا کیونکہ دن کے اختتام پر ، یہ سب کاروبار سے متعلق ہے۔ یہ سب کچھ انجام دینے اور اس بات کو یقینی بنانے کے بارے میں ہے کہ آپ دانشمندی کے ساتھ پیسہ خرچ کررہے ہیں اور یہ ایک سوال ہے جو میں نے پہلے ہی دیکھا ہے ، لہذا مقررین یہ سوچنا چاہتے ہیں کہ ہڈوپ روٹ جانے کا ٹی سی ایل کیا ہے۔ اس کے درمیان کچھ میٹھی جگہ ہے ، مثال کے طور پر ، کچھ روایتی انداز میں کام کرنے کے لئے آفس شیلف ٹولز کا استعمال کرنا اور ٹولوں کے نئے سیٹ استعمال کرنا ، کیونکہ اس کے بارے میں دوبارہ سوچئے ، اس میں سے بہت ساری چیزیں نئی نہیں ہیں ، یہ صرف طرح کی چیز ہے مجھے لگتا ہے کہ اس کو ڈالنے کا ایک بہترین طریقہ ہے۔
تو آئیے ہم آگے چلیں اور اپنے دوست نکیتا ایوانوف کو ملائیں۔ وہ گرڈگین کے بانی اور سی ای او ہیں۔ نکیتا ، میں آگے جا کر چابیاں آپ کے حوالے کروں گا ، اور مجھے یقین ہے کہ آپ وہاں سے باہر ہو گئے ہیں۔ کیا آپ مجھے نکیتا سن سکتے ہیں؟
نکیتا ایوانوف: ہاں ، میں حاضر ہوں۔
ایرک کااناگ: عمدہ۔ تو منزل آپ کی ہے۔ اس سلائڈ پر کلک کریں۔ نیچے تیر کا استعمال کریں ، اور اسے لے جائیں۔ پانچ منٹ.
نکیتا ایوانوف: میں کس سلائیڈ پر کلک کروں؟
ایرک کااناگ: اس سلائیڈ پر کہیں بھی کلک کریں اور پھر آپ منتقل کرنے کے لئے کی بورڈ پر نیچے والے تیر کا استعمال کریں۔ صرف سلائیڈ پر ہی کلک کریں اور نیچے والے تیر کا استعمال کریں۔
نکیتا ایوانوف: ٹھیک ہے تو گرڈگین کے بارے میں صرف کچھ فوری سلائڈز۔ اس گفتگو کے تناظر میں ہم کیا کرتے ہیں؟ گرڈگین بنیادی طور پر ایک میموری میں کمپیوٹنگ سوفٹ ویئر تیار کرتی ہے اور اس پلیٹ فارم کا ایک حصہ جو ہم نے تیار کیا ہے وہ میموری میں ہیڈوپ ایکسلریٹر ہے۔ ہڈوپ کے معاملے میں ، ہم ہڈوپ کی کارکردگی کے ماہرین کی حیثیت سے اپنے بارے میں سوچنے کی کوشش کرتے ہیں۔ ہم کیا کرتے ہیں ، بنیادی طور پر ، ہمارے بنیادی میں میموری کمپیوٹنگ پلیٹ فارم کے اوپر جو ڈیٹا گرڈ ، میموری اسٹریمنگ اور کمپیوٹیشن گرڈ جیسی ٹکنالوجیوں پر مشتمل ہوتا ہے ، وہ ہڈوپ ایکسلریٹر کو پلگ اور پلے کرسکیں گے۔ یہ بہت آسان ہے۔ یہ اچھا ہوگا اگر ہم کسی قسم کے پلگ اینڈ پلے حل تیار کرسکیں جو ہڈوپ انسٹالیشن میں ٹھیک انسٹال ہوسکے۔ اگر آپ ، میپریڈوسیس کے ڈویلپر ، کو کوئی نیا سافٹ ویئر لکھنے یا کوڈ یا تبدیلی میں تبدیلی کرنے کی ضرورت کے بغیر فروغ دینے کی ضرورت ہے ، یا بنیادی طور پر ہڈوپ کلسٹر میں ایک کم سے کم تشکیل تبدیلی ہے۔ یہی ہم نے ترقی کیا۔
بنیادی طور پر ، میموری میں ہیڈوپ ایکسلریٹر ہڈوپ ماحولیاتی نظام میں دو اجزاء کی اصلاح پر مبنی ہے۔ اگر آپ ہڈوپ کے بارے میں سوچتے ہیں تو ، یہ بنیادی طور پر ایچ ڈی ایف ایس پر مبنی ہے ، جو فائل سسٹم ہے۔ میپریڈوس ، جو فائل سسٹم کے اوپری حصے پر متوازی مقابلہ چلانے کا فریم ورک ہے۔ ہڈوپ کو بہتر بنانے کے ل we ، ہم ان دونوں سسٹم کو بہتر بناتے ہیں۔ ہم نے ان میں میموری فائل سسٹم تیار کیا جو مکمل طور پر ہم آہنگ ، 100٪ ہم آہنگ پلگ اینڈ پلے ، ایچ ڈی ایف ایس کے ساتھ ہو۔ آپ ایچ ڈی ایف ایس کے بجائے چلا سکتے ہیں ، آپ ایچ ڈی ایف ایس کے اوپر چل سکتے ہیں۔ اور ہم نے ان میوری میپریڈوسیس کو بھی تیار کیا جو ہڈوپ میپریڈوسی کے ساتھ ہم آہنگ پلگ اور پلے ہے ، لیکن اس میں بہت ساری اصلاحات ہیں کہ میپریڈوسیس کے کام کے بہاؤ اور میپریڈوسیس کا نظام الاوقات کس طرح کام کرتا ہے۔
اگر آپ دیکھیں تو ، مثال کے طور پر اس سلائیڈ پر ، جہاں ہم نقل کی اسٹیک کی طرح دکھاتے ہیں۔ بائیں طرف ، آپ کا عام آپریٹنگ سسٹم جی ڈی ایم کے ساتھ ہے اور اس آریگرام کے اوپر آپ کے پاس ایپلی کیشن سینٹر ہے۔ بیچ میں آپ کے پاس ہڈوپ ہے۔ اور ہڈوپ ایک بار پھر ایچ ڈی ایف ایس اور میپ ریڈس پر مبنی ہے۔ تو یہ اس آریھ کی نمائندگی کرتا ہے ، یہ کہ ہڈوپ اسٹیک میں ہم کس طرح کی سرایت کر رہے ہیں۔ ایک بار پھر ، یہ پلگ اور پلے ہے؛ آپ کو کوئی کوڈ تبدیل کرنے کی ضرورت نہیں ہے۔ یہ صرف اسی طرح کام کرتا ہے۔ اگلی سلائڈ پر ، ہم نے بنیادی طور پر دکھایا کہ ہم نے میپریڈوش ورک فلو کو کس طرح بہتر بنایا۔ یہ شاید سب سے دلچسپ حصہ ہے کیونکہ جب آپ میپریڈس نوکریاں چلاتے ہیں تو یہ آپ کو سب سے زیادہ فائدہ دیتا ہے۔
عام میپریڈیوس ، جب آپ ملازمت جمع کراتے ہو ، اور بائیں جانب آریھ ہوتا ہے تو ، معمول کا اطلاق ہوتا ہے۔ لہذا عام طور پر آپ نوکری جمع کروا رہے ہیں اور نوکری جاب ٹریکر پر چلی جاتی ہے۔ It interacts with the Hadoop name node and the name node is actually the piece of software that manages the interaction with the digital files, and kind of keeps the directory of files and then the job tracker interacts with the task tracker on each individual node and the task tracker interacts with a Hadoop data node to get data from. So that's basically a very kind of high-level overview of how your MapReduce job gets in the computers. As you can see what we do with our in-memory, Hadoop MapReduce will already completely bypass all this complex scheduling that takes a lot of time off your execution and go directly from client to GridGain data node and GridGain data node keeps all that e-memory for a blatantly fast, fast execution.
So all in all basically, we allow it to get anywhere from 5x up all the way to 100x performance increase on certain types of loads, especially for short leaf payloads where you literally measure every second. We can give you a dramatic boost in performance with literally no core change.
Alright, that's all for me.
Eric Kavanagh: Yes, stick around for the Q&A. No doubt about it.
Let me hand it off to John Santaferraro. John, just click on that slide. Use the down arrow to move on.
John Santaferraro: Alright. Thanks a lot, Eric.
My perspective and Actian's perspective really is that Hadoop is really about creating value and so this is an example from digital media. A lot of the data that is pumping into Hadoop right now has to do with digital media, digital marketing, and customer, so there is great opportunity - 226 billion dollars of retail purchases will be made online next year. Big data and Hadoop is about capturing new data to give you insight to get your share of that. How do you drive 14% higher marketing return and profits based on figuring out the right medium X and the right channels and the right digital marketing plan? How do you improve overall return on marketing investment? By the way, in 2017, what we ought to be thinking about when we look at Hadoop is the fact that CMO, chief marketing officer, spending in 2017 will outpace that of IT spending, and so it really is about driving value. Our view is that there are all kinds of noise being made on the left-hand side of this diagram, the data pouring into Hadoop.
Ultimately, our customers are wanting to create customer delight, competitive advantage, world-class risk management, disruptive new business models, and to do all of that to deliver transformational value. They are looking to capture all of this data in Hadoop and be able to do best-in-class kinds of things like discovery on that data without any limitations, no latency at any scale of the data that lives in there - moving from reactive to predictive kinds of analytics and doing everything dynamically instead of looking at data just as static. What pours into Hadoop? How do you analyze it when it arrives? Where do you put it to get the high-performance analytics? And ultimately moving everything down to a segment of one.
So what we've done at Actian in the Actian Analytics Platform, we have built an exoskeleton around Hadoop to give it all of these capabilities that you need so you are able to connect to any data source bringing it into Hadoop, delivering it as a data service wherever you need it. We have libraries of analytics and data blending and data enrichment kinds of operators that you literally drag and drop them so that you can build out these data and analytic workflows, and without ever doing any programming, we will push that workload via YARN right down to the Hadoop nodes so you can do high-performance data science natively on Hadoop. So all of your data prep, all of your data science happening on Hadoop highly parallelized, highly optimized, highly performance and then when you need to, you move it to the right via a high-speed connection over to our high-performance analytic engine, where you can do super-low latency kinds of analytics, and all of that delivering out these real-time kinds of analytics to users, machine-to-machine kinds of communication, and betting those on analytics and business processes, feeding big data apps or applications.
This is an example of telco churn, where at the top of this chart if you're just building telco churn for example, where you have captured one kind of data and poured that into Hadoop, I'd be able to identify about 5% of your potential churn audience. As you move down this chart and add additional kinds of data sources, you do more complex kinds of analytics in the center column there. It allows you to act against that churn in a way that allows you to identify. You move from 5% identification up to 70% identification. So for telecommunications companies, for retail organizations, for any of the fast providers, anybody that has a customer base where there is a fear and a damage that is caused by churn.
This kind of analytics running on top of that exoskeleton-enabled version of Hadoop is what drives real value. What you can see here is that kind of value. This is an example taken from off of the annual report of a telecommunications company that shows their actual total subscribers, 32 million. Their existing churn rate which every telco reports 1.14, 4.3 million subscribers lost every year, costing them 1.14 billion dollars as well as 2.1 billion in revenue. This is a very modest example of how you generate value out of your data that lives in Hadoop, where you can see the potential cost of reacquisition where the potential here is to use Hadoop with the exoskeleton running analytics to basically help this telecommunications company save 160 million dollars as well as avoid 294 million in loss. That's the kind of example that we think is driving Hadoop forward.
Eric Kavangh: Alright, fantastic. And Jim, let me go ahead and give the keys to you. So, Jim Vogt. If you would click on that slide and use the down arrow in your keyboard.
Jim Vogt: I got it. Great picture. OK, thank you very much. I'll tell a little bit about Zettaset. We've been talking about Hadoop all afternoon here. What's interesting about our company is that we basically spend our careers hardening new technology for the enterprise - being able to plug the gaps, if you will, in our new technology to allow it to be widely deployed within our enterprise operational environment. There are a couple of things happening in the market right now. It's kind of like a big open pool party, right? But now the parents have come home. And basically we're trying to bring this thing back to some sense of reality in terms of how you build a real infrastructure piece here that can be scalable, repeatable, non-resource intensive, and secure, most importantly secure. In the marketplace today, most people are still checking the tires on Hadoop. The main reason is, there is a couple of things. One is that within the open source itself, although it does some very useful things in terms of being able to blend data sources, being able to find structure data and very useful data sources, it really lacks for a lot of the hardening and enterprise features around security, higher availability and repeatability that people need to deploy not just a 10- or 20-node cluster, but a 2, 000- and 20, 000-node cluster - there are multiple clusters. What has been monetized in the last two years has been mainly pro-services around setting up these eval clusters. So there is a not a repeatable software process to actually actively deploy this into the marketplace.
So what we built in our software is a couple of things. We're actually transparent into the distributions. At the end of the day, we don't care if it's CVH or HDP, it's all open source. If you look at the raw Apache components that built those distributions, there is really no reason why you have to lock yourself into any one distribution. And so, we work across distributions.
The other thing is that we fill in the gaps transparently in terms of some of the things that are missing within the code itself, the open source. So we talked about HA. HA is great in terms of making no failover, but what happens if any of the active processes that you're putting on these clusters fail? That could take it down or create a security hole, if you will. When we built software components into our solution, they all fall under an HA umbrella where we're actively monitoring all the processes running on the cluster. If code roles goes down, you take the cluster down, so basically, meaning no failover is great, unless you're actively monitoring all the processes running on the cluster, you don't have true HA. And so that's essential of what we developed here at Zettaset. And in a way that we've actually got a patent that has been issued on this and granted last November around this HA approach which is just quite novel and different from the open-source version and is much more hardened for the enterprise.
The second piece is being able to do real RBAC. People are talking about RBAC. They talk about other open-source projects. Why should you have to recreate all those entries and all those users and roles when they already exist in LDAP or in active directory? So we link those transparently and we fold all our processes not only under this RBAC umbrella, but also under the HA umbrella. They start to layer into this infrastructure encryption, encryption at data rest, state of motion, all the hardened security pieces that you really need to secure the information.
What is really driving this is our industries, which I have on the next slide, which profit finance and healthcare and have our compliances. You have to be able to protect this sets of data and you have to be able to do it on a very dynamic fashion because this data can be sitting anywhere across these parallel nodes and clusters and it can be duplicated and so forth, so essentially that's the big umbrella that we built. The last piece that people need is they need to be able to put the pieces together. So having the analytics that John talked to and being able to get value out of data and do that through an open interface tapped into this infrastructure, that's what we built in our software.
So the three cases that I had in here, and you guys are popping me along here were really around finance, healthcare and also cloud, where you're having to deal with multi-tenant environments and essentially have to separate people's sensitive data, so security and performance are key to this type of application whether its cloud or in a sensitive data environment.
The last slide here really talks to this infrastructure that we put together as a company is not just specific to Hadoop. It's something that we can equally apply to other NoSQL technologies and that's where we're taking our company forward. And then we're also going to pull in other open-source components, HBase and so forth, and secure those within that infrastructure in a way that you're not tied to any one distribution. It's like you truly have an open, secure and robust infrastructure for the enterprise. So that's what we're about and that's what we're doing to basically accelerate adoption of Hadoop so people get away from sending twenty-node clusters and actually have the confidence to employ a much larger environment that is more eyes on Hadoop and speeds the market along. شکریہ
Eric Kavanagh: That's fantastic, great. Stick around for the Q&A. Finally, last but not the least, we've got Phu Hoang, CEO of DataTorrent. Let me go ahead and hand the keys to you. The keys are now yours. Click anywhere on that slide, use the down arrow on your keyboard to move them along.
Phu Hoang: Thank you so much.
So yes, I'm here to talk about DataTorrent and I actually think the story of DataTorrent is a great example of what Robin and Ray have been talking about through this session where they say that Hadoop is a great body of work, a great foundation. But it has a lot of goals. But the future is bright because the Hadoop ecosystem where more players are coming in are able to build and add value on top of that foundation to really bring it from storage to insights to action, and really that's the story of DataTorrent.
What I'm going to talk about today is really about real-time big data screening processing. What you see, as I'm interacting with customers, I've never met a single customer that says to me, "Hey, my goal is to take action hours or days after my business events arrive." In fact, they all say they want to take action immediately after the events occur. The problem with the delay is that, that is what Hadoop is today with its MapReduce paradigm. To understand why, it's worth revisiting the history of Hadoop.
I was leading much of Yahoo engineering when we hired Doug Cutting, the creator of Hadoop, and assigned over a hundred engineers to build out Hadoop to power our web search, advertising and data science processing. But Hadoop was built really as a back system to read and write and process these very large files. So while it's great disruptive technology because of its massive scalability and high ability at no cost, it has a hole in that there is a lot of latency to process these large files. Now, it is fair to say that Hadoop is now becoming the plateau operating system that is truly computing and is gaining wide adoption across many enterprises. They are still using that same process of collecting events into large files, running these batch Hadoop jobs to get there inside the next day. What enterprise customers now want is that they want those exact same insights but they want to build to get these insights much earlier, and this will enable them to really act on these events as the event happens, not after maybe hours later after it has been back processed.
Eric Kavanagh: Do you want to be moving your slides forward, just out of curiosity?
Phu Hoang: Yeah it's coming now. Let me illustrate that one example. In this example, using Hadoop in back-slope where you're constantly engaging with files, first an organization might accumulate all the events for the full day, 24 hours' worth of data. And then they batch process it, which may take another eight hours using MapReduce, and so now there is 32 hours of elapsed time before they get any insight. But with real-time stream processing, the events are coming in and are getting processed immediately, there is no accumulation time. Because we do all this processing, all in memory, the in-memory processing is also sub-second. All the time, you are reducing the elapsed time on 30 hours plus to something that is very small. If you're reducing 30 hours to 10 hours, that's valuable but if we can reduce it to a second, something profound happens. You can now act on your event while the event is still happening, and this gives enterprises the ability to understand what their products are doing, what their business is doing, what their users are doing in real time and react to it.
Let's take a look at how this happens. Really, a combination of market forces and technology has enabled a solution like DataTorrent to come together, so from a market perspective, Hadoop is really becoming the de facto big data architecture as we said, right? In an IDC study in 2013, they say that by the end of this year, two-thirds of enterprises would have deployed Hadoop and for DataTorrent, whether that's Apache Hadoop or any of our certified partners like Cloudera or Hortonworks, Hadoop is really clearly the choice for enterprise. From a technology perspective, and I think Robin and Ray alluded to this, Hadoop 2.0 was created to really enable Hadoop to extend to much more general cases than the batch MapReduce paradigm, and my co-founder, Amal, who was at Yahoo leading the development of Hadoop 2.0 really allows this layer of OS to have many more computation paradigms on top of it and real-time streaming is what we chose. By putting this layer of real-time streaming on top of YARN, you can really think of DataTorrent as the real-time equivalent of MapReduce. Whatever you can do in batch with MapReduce, you can now do in streaming with DataTorrent and we can process massive amount of data. We can slice and dice data in multiple dimensions. We have distributed computing and use YARN to give us resources. We have the full ecosystem of the open source Hadoop to enable fast application development.
Let me talk a little bit about the active capabilities of DataTorrent. In five minutes, it is hard for me to kind of give to you much in detail, but let me just discuss and re-differentiate it. First of all, sub-second scalable ingestions, right? This refers to DataTorrent's platform to be able to take that in real-time from hundreds of data sources and begin to process them immediately. This is in direct contact to the back processing of MapReduce that is in Hadoop 1.0 and events can vary in size. They may be as simple as a line in the log file or they may be much more complex like CDR, call data record in the telcom industry. DataTorrent is able to scale the ingestion dynamically up or down depending on the incoming load, and we can deal with tens of millions of incoming events per second. The other major thing here, of course, is the processing itself which is in real-time ETL logic. So once the data is in motion, it is going to go into the ETL logic where you are doing a stack transform and load, and so on. And the logic is really executed by combining a series of what we call operators connected together in a data flow grab. We have open source of over 400 operators today to allow you to build applications very quickly. And they cover everything from input connectors to all kinds of message process to database drivers and connectors where you are to load to all kinds of information to unstream.
The combination of doing all these in memory and building the scale across hundreds of nodes really drive the superior performance. DataTorrent is able to process billions of events per second with sub-second latency.
The last piece that I'd like to highlight is the high-availability architecture. DataTorrent's platform is fully post knowledge; that means that the platform automatically buffers the event and regularly checkpoints the state of the operators on the disk to ensure that there is possibly no problem. The applications can tell you in seconds with no data log and no human intervention. Simply put, data form processes billions of events and allots in data in seconds, it runs 24/7 and it never, ever goes down. The capabilities really set DataTorrent apart from the market and really make it the leading mission-critical, real-time analytics platform for enterprise. With that, we invite you to come visit our website and check us out.
Thanks.
Eric Kavanagh: Yeah, thank you so much. I'll throw a question over to you, really a comment, and let you kind of expound upon it. I really think you're on the ball here with this concept of turning over these operators and letting people use these operators almost like Legos to build big data applications. Can you kind of talk about what goes into the process of taking these operators and stitching them together, how do you actually do that?
Phu Hoang: That's a great question. So first of all, these operators are in your standard application Java Logic. We supply 400 of them. They do all kinds of processing and so to build your application, you really are just connecting operators together into a data flow graph. In our customers, we find that they use a number of operators that we have in our library as well as they take their own job of custom logic and make it an operator so that they can substantiate that into a graph.
Eric Kavanagh: OK, good. I think it's a good segue to bring in John Santaferraro from Actian because you guys have a slightly similar approach, it seems to me, in opening up a sort of management layer to be able to play around with different operators. Can you talk about what you do with respect to what tools we're just talking about, John?
John Santaferraro: Yeah, exactly. We have a library of analytics operators as well as transformational operators, operators for blending and enriching data and it is very similar. You use a drag-and-drop interface to be able to stitch together these data flows or work flows, and even analytic workflows. So it's everything from being able to connect to data, to be able to blend and enrich data, to be able to run data science or machine learning algorithms and then even being able to push that into a high-performance low-latency analytic engine. What we find is that it's all built on the open-source nine project. So we capture a lot of the operators that they are developing and then we take all of that, and via YARN, very similar to what Phu described at DataTorrent, we push that down so that it is parallelized against all of the nodes in a Hadoop cluster. A lot of it is about making the data in Hadoop much more accessible to business users and less-skilled workers, somebody besides a data scientist.
Eric Kavanagh: OK, let me go bring in Nikita once again. I'm going to throw your five up as well. Can you kind of talk about how you approach this solution vis-à-vis what these two gentlemen just talked about? How does someone actually put this stuff together and make use from GridGain?
Nikita Ivanov: Well, I think the biggest difference between us and from practically the rest of them is we don't require you to do any recording - you don't have to do anything, it's a plug-and-play. If you have an application today, it's going to work faster. You don't have to change code; you don't have to do anything; you just have to install GridGain along the side of Hadoop cluster and that's it. So that's the biggest difference and we talked to our customers. There are different myriad of solutions today that ask you to change something: programming, doing your API, using your interfaces and whatnot. Ours is very simple. You don't need to invest a lot of time into the Hadoop ecosystem, and whatever you used to do, the MapReduce or any of the tools continue to use. With GridGain, you don't have to change any single line of code, it's just going to work faster. That's the biggest difference and that's the biggest message for us.
Eric Kavanagh: Let's get Jim back in here too. Jim, your quote is killing me. I had to write it down in between that. I'll put it into some kind of deck, but the Hadoop ecosystem right now is like a pool party and the parents just came home. That is funny stuff man; that is brilliant. Can you kind of talk about how you guys come onto the scene? How do you actually implement this? How long does that take? How does all that work?
Jim Kaskade: Yes. So there are a couple of varieties depending on the target customer, but typically these days, you see evaluations where security is factored in, in some of these hardening requirements that I talked about. What has happened in some other cases, and especially last year where people had big plans to deploy, is that there was kind of a science project, if you will, or somebody was playing with the technology and had a cluster up and working and was working with it but then the security guy shows up, and if it is going to go on a live data center, it has to basically comply with the same requirements that we have for other equipment running in the data center, if it is going to be an infrastructure that we build out. Last year, we had even some banks that told us they were going to deploy 400 to 1, 000 nodes last year and they're still sitting on a 20-node cluster mainly because now a security person has been plugged in. They've got to be worried about financial compliance, about sets of information that is sitting on a cluster, and so forth. It varies by customer, but typically this is kind of what elongates the cycles and this is typical of a new technology where if you really want to deploy this in production environment, it really has to have some of these other pieces including the very valuable open-source pieces, right?
Eric Kavanagh: OK, good. چلو دیکھتے ہیں. I'm going to bring Phu back into the equation here. We've got a good question for you. One of the attendees is asking how is DataTorrent different from Storm or Kafka or the Redis infrastructure. Phu, are you out there? Hey, Phu, can you hear me? Maybe I'm mute.
Let's bring Ray Wang back into this. Ray, you've seen a lot of these technologies and looked at how they worked. I really love this concept of turning over control or giving control to end users of the operators. I like to think of them as like really powerful Legos that they can use to kind of build some of these applications. Can you comment on that? What do you think about all that?
Ray Wang: Coming from my technical background, I'd say I'm scared - I was scared shitless! But honestly, I think it's important, I mean, in order to get scale. There's no way you can only put so many requests. Think about the old way we did data warehousing. In the business I had to file the request for a report so that they could match all the schemes. I mean, it's ridiculous. So we do have to get to a way for the business side of the house and definitely become data jocks. We actually think that in this world, we're going to see more digital artists and people that have the right skills, but also understand how to take that data and translate that into business value. And so these digital artisans, data artisans depending on how you look at this, are going to need both really by first having the curiosity and the right set of questions, but also the knowledge to know when the data set stinks. If I'm getting a false positive or a false negative, why is that happening?
I think a basic level of stats, a basic level of analytics, understanding that there's going to be some training required. But I don't think it's going to be too hard. I think if you get the right folks that should be able to happen. You can't democratize the whole decision-making process. I see that happening. We see that in a lot of companies. Some are financial services clients are doing that. Some of our retail folks are doing that, especially in the razor-thin margins that you are seeing in retail. I was definitely seeing that in high tech just around here in the valley. That's just kind of how people are. It's emerging that way but it's going to take some time because these basic data skills are still lacking. And I think we need to combine that with some of the stuff that some of these guys are doing here on this webinar.
Eric Kavanagh: Well, you bring up a really good point. Like how many controls you want to give to the average end user. You don't want to give an airplane cockpit to someone who's driving a car for the first time. You want to be able to closely control what they have control over. I guess my excitement kind of stems around being able to do things yourself, but the key is you got to put the right person in that cockpit. You got to have someone who really knows what they're doing. No matter what you hear from the vendor community folks, when somebody's more powerful tools are extremely complex, I mean if you are talking about putting together a string of 13, 14, 15 operators to do a particular type of transformation on your data, there are not many people who could do that well. I think we're going to have many, many more people who do that well because the tools are out there now and you can play with the stuff, and there is going to be a drive to be able to perfect that process or at least get good at it.
We did actually lose Phu, but he's back on the line now. So, Phu, the question for you is how is DataTorrent different from, like, Storm or Kafka or Redis or some of these others?
Phu Hoang: I think that's a great question. So, Redis of course is really an in-memory data store and we connect to Redis. We see ourselves as really a processing engine of data, of streaming data. Kafka again is a great bus messaging bus we use. It's actually one of our favorite messaging bus, but someone has to do the big data processing across hundreds of nodes that is fault tolerant, that is scalable, and I repeat that as the job that we play. So, yes, we are similar to Storm, but I think that Storm is really developed a long time ago even before Hadoop, and it doesn't have the enterprise-level thinking about scalability to the hundreds and millions, now even billions of events, nor does it really have the HA capability that I think enterprise requires.
Eric Kavanagh: Great. And you know, speaking of HA, I'll use that as an excuse to bring Robin Bloor back into the conversation. We just talked about this yesterday. What do you mean by high availability? What do you mean by fault tolerance? What do you mean by real time, for example? These are terms that can be bent. We see this all time in the world of enterprise technology. It's a good term that other people kind of glom onto and use and co-opt and move around and then suddenly things don't mean quite what they used to. You know, Robin, one of my pet peeves is this whole universe of VOIP. It's like "Why would we go down in quality? Isn't it important to understand what people say to you and why that matters?" But I'll just ask you to kind of comment on what you think. I'm still laughing about Ray's comment that he's scared shitless about giving these people. What do you think about that?
Ray Wang: Oh, I think it's a Spider-man problem, isn't it? بڑی طاقت کے ساتھ بڑی ذمہ داری آتی ہے۔ You really, in terms of the capabilities out there, I mean it changed me actually a long time ago. You know, I would give my ITs some of the capabilities that they have gotten now. We used to do it extraordinary amounts of what I would say was grunt work that the machines do right now and do it in parallel. They do things that we could never have imagined. I mean we would have understood mathematically, but we could never imagine doing. But there is some people understand data and Ray is completely right about this. The reason to be scared is that people will actually start getting wrong conclusions, that they will wrangle with the data and they will apply something extremely powerful and it will appear to suggest something and they will believe it without actually even being able to do anything as simple as have somebody doing audit on whether their result is actually a valid result. We used to do this all the time in the insurance company I used to work for. If anybody did any work, somebody always checks. Everything was checked by at least one person against the person who did it. These environments, the software is extremely strong but you got to have the discipline around it to use it properly. Otherwise, there'll be tears before bedtime, won't there?
Eric Kavanagh: I love that quote, that's awesome. Let me see. I'm going to go ahead and throw just for this slide up here from GridGain, can you talk about, Nikita, when you come in to play, how do you actually get these application super charged? I mean, I understand what you are doing, but what does the process look like to actually get you embedded, to get you woven in and to get all that stuff running?
Nikita Ivanov: Well, the process is relatively simple. You essentially just need to install GridGain and make a small configuration change, just to let Hadoop know that there is now the HDFS if you want to use HDFS and you have to set up which way you want to use it. You can get it from BigTop, by the way. It's probably the easiest way to install it if you're using the Hadoop. That's about it. With the new versions coming up, a little in about few weeks from now, by the end of May, we're going to have even more simplified process for this. So the whole point of the in-memory Hadoop accelerator is to, do not code. Do not make any changes to your code. The only that you need to do is install it and have enough RAM in the cluster and off you go, so the process is very simple.
Eric Kavanagh: Let me bring John Santaferraro back in. We'll take a couple more questions here. You know, John, you guys, we've been watching you from various perspectives of course. You were over at PEAR Excel; that got folded into Actian. Of course, Actian used to be called Ingres and you guys made a couple of other acquisitions. How are you stitching all of that stuff together? I realize you might not want to get too technical with this, but you guys have a lot of stuff now. You've got Data Rush. I'm not sure if it's still the same name, but you got a whole bunch of different products that have been kind of woven together to create this platform. Talk about what's going on there and how that's coming along.
John Santaferraro: The good news is, Eric, that separately in the companies that we're acquired Pervasive, PEAR Excel and even when Actian had developed, everybody developed their product with very similar architectures. Number one, they were open with regards to data and interacting with other platforms. Number two, everything was parallelized to run in a distributed environment. Number three, everything was highly optimized. What that allowed us to do is to very quickly make integration points, so that you can be creating these data flows already today. We have established the integration, so you create the data flows. You do your data blending and enriching right on Hadoop, everything parallelized, everything optimized. When you want, you move that over into our high-performance engines. Then, there's already a high-performance connection between Hadoop and our massively parallel analytic engine that does these super-low-latency things like helping a bank recalculate and recast their entire risk portfolio every two minutes and feeding that into our real-time trading system or feeding it into some kind of a desktop for the wealth manager so they can respond to the most valuable customers for the bank.
We have already put those pieces together. There's additional integration to be done. But today, we have the Actian Analytics Platform as our offering because a lot of that integration was ready to go. It has already been accomplished, so we're stitching those pieces together to drive this entire analytic value chain from connecting the data, all of the processing that you do of it, any kind of analytics you want to run, and then using it to feed into these automated business processes so that you're actually improving that activity over time. It's all about this end-to-end platform that already exists today.
Eric Kavanagh: That's pretty good stuff. And I guess, Jim, I'll bring you back in for another couple of comments, and Robin, I want to bring you in for just one big question, I suppose. Folks, we will keep all these questions - we do pass them on to the people who participated in the event today. If you ever feel a question you asked was not answered, feel free to email yours truly. You should have some information on me and how to get ahold from me. Also, just now I put a link to the full deck with slides from non-sponsoring vendors. So we put the word out to all the vendors out there in the whole Hadoop space. We said, "Tell us what your story is; tell us what's going on." It's a huge file. It's about 40-plus megabytes.
But Jim, let me bring you back in and just kind of talk about - again, I love this concept - where you're talking about the pool party that comes to an end. Could you talk about how it is that you manage to stay on top on what's happening in the open-source community? Because it's a very fast-moving environment. But I think you guys have a pretty clever strategy of serving this sort of enterprise-hardening vendor that sits on top or kind of around that. Can you talk about your development cycles and how you stay on top of what's happening?
Jim Vogt: Sure. It is pretty fast moving in terms of if you look at just a snapshot updates, but what we're shipping in functionality today is about a year to a year and a half ahead of what we can get on security capabilities out to the community today. It's not that they're not going to get there; it just takes time. It's a different process, it has contributors and so forth, and it just takes time. When we go to a customer, we need to be very well versed in the open source and very well versed in mainly the security things that we're bringing. The reason that we're actually issuing patents and submitting patents is that there is some real value in IP, intellectual property, around hardening these open-source components. When we support a customer, we have to support all the varying open-source components and all the varying distributions as we do, and we also need to have the expertise around the specific features that we're adding to that open source to create the solution that we create. As a company, although we don't want the customer to be a Hadoop expert, we don't think you need to be a mechanic to drive the car. We need to be a mechanic that understands the car and how it works and understand what's happening between our code and the open source code.
Eric Kavanagh: That's great. Phu, I'll give you one last question. Then Robin, I have one question for you and then we'll wrap up, folks. We will archive this webcast. As I suggested, we'll be up on insideanalysis.com. We'll also go ahead and have some stuff up on Techopedia. A big thank you to those folks for partnering with us to create this cool new series.
But Phu … I remember watching the demo of the stuff and I was just frankly stunned at what you guys have done. Can you explain how it is that you can achieve that level of no failover?
Phu Hoang: Sure, I think it's a great question. Really, the problem for us had three components. Number one is, you can't lose the events that are moving from operator to operator in the Hadoop cluster. So we have to have event buffering. But even more importantly, inside your operators, you may have states that you're calculating. Let's say you're actually counting money. There's a subtotal in there, so if that node goes down and it's in memory, that number is gone, and you can't start from some point. Where would you start from?
So today, you have to actually do a regular checkpoint of your operator state down to this. You put that interval so it does not become a big overhead, but when a node goes down, it can come back up and be able to go back to exactly the right state where you last checkpointed and be able to bring in the events starting from that state. That allows you to therefore continue as if the event actually has never happened. Of course, the last one is to make sure that your application manager is also fault tolerant so that doesn't go down. So all three factors need to be in place for you to say that you're fully fault tolerant.
Eric Kavanagh: Yeah, that's great. Let me go ahead and throw one last question over to Robin Bloor. So one of the attendees is asking, does anyone think that Hortonworks or another will get soaked up/invested in by a major player like Intel? I don't think there's any doubt about that. I'm not surprised, but I'm fascinated, I guess, that Intel jumped in before like an IBM or an Oracle, but I guess maybe the guys at IBM and Oracle think they've already got it covered by just co-opting what comes out of the open-source movement. What do you think about that?
Robin Bloor: It's a very curious move. We should see in light of the fact that Intel already had its own Hadoop distribution and what it has effectively done is just passed that over to Cloudera. There aren't many powers in the industry as large as Intel and it is difficult to know what your business model actually is if you have a Hadoop distribution, because it is difficult to know exactly what it is going to be used for in the future. In other words, we don't know where the revenue streams are necessarily coming from.
With somebody like Intel, they just want a lot of processes to be solved. It is going to support their main business plan the more that Hadoop is used. It's kind of easy to have a simplistic explanation of what Intel are up to. It's not so easy to guess what they might choose to do in terms of putting code on chips. I'm not 100% certain whether they're going to do that. I mean, it's a very difficult thing to call that. Their next move at the hardware level, I think, is the system on a chip. When we go to the system on a chip, you may actually want to put some basic software on the chip, so to speak. So putting HDFS on there; that might make some sense. But I don't think that that was what that money investment was about. I think all that money investment was about was just making sure that Intel had a hand in the game and is actually going forward.
In terms of who else is going to buy, that is also difficult to say. I mean, certainly the SAPs and Oracles of this world have got enough money to buy into this or IBM has got enough money to buy into it. But, you know, this is all open source. IBM never bought a Linux distribution, even though they plowed a lot of money into Linux. It didn't break their hearts that they didn't actually have a Linux distribution. They're very happy to cooperate with Red Hat. I would say maybe Red Hat will buy one of these distributions, because they know how to make that business model work, but it's difficult to say.
Eric Kavanagh: Yeah, great point. So folks, I'm going to go ahead and just share my desktop one last time here and just show you a couple of things. So after the event, check out Techopedia - you can see that on the left-hand side. Here's a story that yours truly wrote, I guess a couple of months ago or a month and a half ago, I suppose. It really kind of spun out of a lot of the experience that we had talking with various vendors and trying to dig in to understanding what exactly is going on with the space because sometimes it can be kind of difficult to navigate the buzz words and the hype and the terminology and so forth.
Also a very big thank you to all of those who have been Tweeting. We had one heck of a Tweet stream here going today. So, thank you, all of you. You see that it just goes on and on and on. A lot of great Tweets on TechWise today.
This is the first of our new series, folks. Thank you so much for tuning in. We will let you know what's going on for the next series sometime soon. I think we're going to focus on analytics probably in June sometime. And folks, with that, I think we're going to go ahead and close up our event. We will email you tomorrow with a link to the slides from today and we're also going to email you the link to that full deck, which is a huge deck. We've got about twenty different vendors with their Hadoop story. We're really trying to give you a sort of compendium of content around a particular topic. So for bedtime reading or whenever you're interested, you can kind of dive in and try to get that strategic view of what's going on here in the industry.
اس کے ساتھ ، ہم آپ کو الوداعی بولیں گے۔ Thank you again so much. Go to insideanalysis.com and Techopedia to find more information about all this in the future and we'll catch up to you next time. خدا حافظ.