گھر یہ کاروبار تجزیات کس طرح کاروبار کو بہتر بناسکتے ہیں؟ - ٹیک وائز ایپی ایسڈ 2 ٹرانسکرپٹ

تجزیات کس طرح کاروبار کو بہتر بناسکتے ہیں؟ - ٹیک وائز ایپی ایسڈ 2 ٹرانسکرپٹ

Anonim

ایڈیٹر کا نوٹ: یہ ہمارے گذشتہ ویب کاسٹوں میں سے ایک کا نقل ہے۔ اگلی قسط جلد آرہی ہے ، رجسٹر کرنے کے لئے یہاں کلک کریں۔


ایرک کااناگ: خواتین و حضرات ، ہیلو اور ٹیک وائسز کے قسط 2 میں ایک بار پھر خوش آئند ہوں۔ ہاں ، واقعی ، وقت آگیا ہے کہ عقل مند افراد کو ملے! اس کوشش میں ہماری مدد کرنے کے لئے مجھے آج لائن پر واقعتا سمارٹ افراد کا ایک گروپ ملا ہے۔ یقینا My میرا نام ایرک کااناگ ہے۔ بجلی گرنے والے اس سیشن کے ل I میں آپ کا میزبان ، آپ کا ناظم ہوں گا۔ لوگ ، ہمارے یہاں بہت سارے مواد موجود ہیں۔ ہمارے کاروبار میں کچھ بڑے نام ہیں ، جو ہماری جگہ کے تجزیہ کار رہے ہیں اور چار انتہائی دلکش فروش۔ لہذا ہم آج کال پر بہت ساری اچھ actionی کارروائی کریں گے۔ اور ظاہر ہے ، آپ وہاں موجود سامعین سے سوال پوچھنے میں اہم کردار ادا کرتے ہیں۔


تو ایک بار پھر ، یہ شو ٹیک وائز ہے اور آج کا عنوان ہے "تجزیات کاروبار کو کیسے بہتر بنا سکتا ہے؟" ظاہر ہے ، یہ ایک گرما گرم موضوع ہے جہاں یہ آپ کو مختلف قسم کے تجزیات کو سمجھنے کی کوشش کرنے جا رہا ہے جس سے آپ کر سکتے ہیں اور اس سے آپ کی کارروائیوں کو کس طرح بہتر بنایا جاسکتا ہے کیوں کہ دن کے آخر میں یہی سب کچھ ہوتا ہے۔


تو آپ خود کو اوپر دیکھ سکتے ہو ، یہ واقعی آپ کا ہے۔ ڈاکٹر کرک بورن ، جارج میسن یونیورسٹی سے اچھے دوست ہیں۔ وہ ایک ڈیٹا سائنسدان ہے جس میں زبردست تجربہ ہے ، اس جگہ میں بہت گہری مہارت اور ڈیٹا مائننگ اور بڑے اعداد و شمار اور اس طرح کی تفریحی چیزیں۔ اور ، یقینا ، ہمارے یہاں بلور گروپ میں ہمارے اپنے بہت بڑے ڈاکٹر رابن بلور ہیں۔ جس نے کئی سال پہلے ایک سرپرستی کی حیثیت سے تربیت حاصل کی تھی۔ اور پچھلے نصف دہائی سے اس پورے ڈیٹا اسپیس اور تجزیاتی جگہ پر پوری توجہ مرکوز رکھے ہوئے ہے۔ اس کو تقریبا پانچ سال ہوچکے ہیں جب ہم نے بلئیر گروپ فی سیکنڈ شروع کیا۔ جب آپ تفریح ​​کرتے ہیں تو وقت اڑ جاتا ہے۔


ہم پینٹاہو کے چیف آرکیٹیکٹ ول گورمین سے بھی سننے جا رہے ہیں۔ اسٹیو ولکس ، ویب ایکشن کا سی سی او۔ فرینک سینڈرز ، مارک لاجک کے تکنیکی ڈائریکٹر۔ اور ہننا سمالٹری ، ڈائریکٹر ٹریژر ڈیٹا۔ تو جیسا کہ میں نے کہا ہے کہ ، بہت سارے مشمولات ہیں۔


تو تجزیات آپ کے کاروبار میں کیسے مدد کرسکتے ہیں؟ ٹھیک ہے ، یہ آپ کے کاروبار کی مدد کس طرح نہیں کرسکتا ہے؟ آپ کے تنظیم کو بہتر بنانے والی چیزوں کو کرنے کے لئے تجزیہ کاروں کا استعمال کیا جاسکتا ہے۔


لہذا آپریشن کو ہموار کریں۔ یہ وہ چیز ہے جس کے بارے میں آپ سنتے نہیں ہیں جتنا آپ مارکیٹنگ یا محصول میں اضافے یا مواقع کی نشاندہی کرنے جیسے کاموں کے بارے میں کرتے ہیں۔ لیکن آپ کی کارروائیوں کو ہموار کرنا واقعی ، واقعتا powerful طاقتور چیز ہے جو آپ اپنی تنظیم کے لئے کرسکتے ہیں کیونکہ آپ ایسی جگہوں کی نشاندہی کرسکتے ہیں جہاں آپ یا تو کسی چیز کو آؤٹ سورس کرسکتے ہیں یا مثال کے طور پر آپ کسی خاص عمل میں ڈیٹا شامل کرسکتے ہیں۔ اور اس سے کسی کو فون کرنے کے لئے فون اٹھانے کی ضرورت نہیں ہے یا کسی کو ای میل کرنے کی ضرورت نہیں ہے۔ بہت سارے مختلف طریقے ہیں جن سے آپ اپنے کاموں کو ہموار کرسکتے ہیں۔ اور یہ سب آپ کی لاگت کو کم کرنے میں مدد کرتا ہے ، ٹھیک ہے؟ یہی کلیدی بات ہے ، اس سے لاگت کم ہوتی ہے۔ لیکن یہ آپ کو اپنے صارفین کی بہتر خدمت کرنے کی بھی اجازت دیتا ہے۔


اور اگر آپ یہ سوچتے ہیں کہ لوگ کس طرح بے چین ہوچکے ہیں ، اور میں ہر ایک دن اس لحاظ سے دیکھتا ہوں کہ لوگ آن لائن بات چیت کرتے ہیں یہاں تک کہ ہمارے شوز ، سروس پرووائڈرز کے ساتھ بھی جسے ہم استعمال کرتے ہیں۔ لوگوں کا صبر ، دھیان کا دورانیہ ، دن بدن کم ہوتا جاتا ہے۔ اور اس کا مطلب یہ ہے کہ آپ کو ایک تنظیم کی حیثیت سے اپنے گاہکوں کو مطمئن کرنے کے قابل ہونے کے ل faster تیز رفتار اور تیز مدت میں جواب دینے کی ضرورت ہے۔


لہذا ، مثال کے طور پر ، اگر کوئی آپ کی ویب کاسٹ سائٹ پر ہے یا کوئی چیز ڈھونڈنے کی کوشش کر رہا ہے ، اگر وہ مایوسی کا شکار ہوجاتے ہیں اور وہ چلے جاتے ہیں تو ، ٹھیک ہے ، آپ شاید ایک گاہک کھو بیٹھے ہوں گے۔ اور اس پر انحصار کرتے ہوئے کہ آپ اپنی مصنوع یا خدمت کے لئے کتنا معاوضہ لیتے ہیں ، اور شاید یہ بہت بڑی بات ہے۔ لہذا سب سے اہم بات یہ ہے کہ تجزیات کو عملی جامہ پہنانے کے لئے سب سے پُرجوش مقامات میں سے ایک ہے۔ اور آپ یہ کرتے ہیں کہ اعداد و شمار کو گھٹا کر ، اعداد و شمار کو گھٹا کر ، مثال کے طور پر ، "ارے ، ہم اپنی ویب سائٹ کے اس صفحے پر اتنے لوگوں کو کیوں کھو رہے ہیں؟" "ابھی ہم ان میں سے کچھ فون کالز کیوں حاصل کر رہے ہیں؟"


اور جتنا حقیقی وقت آپ اس قسم کی چیزوں کا جواب دے سکتے ہیں ، اس سے کہیں زیادہ دیر ہونے سے پہلے ہی آپ کو موقع ملنے اور اس کے بارے میں کچھ کرنے کے بہتر امکانات مل سکتے ہیں۔ کیونکہ وقت کی وہ ونڈو ہوتی ہے جب کوئی شخص کسی چیز سے پریشان ہوجاتا ہے ، وہ مطمئن نہیں ہوتا ہے یا وہ کوئی چیز ڈھونڈنے کی کوشش کر رہا ہوتا ہے لیکن وہ مایوس ہوتے ہیں۔ آپ کو موقع کی ایک ونڈو ان تک پہنچنے ، ان سے فائدہ اٹھانے ، اس صارف کے ساتھ بات چیت کرنے کے ل. ملی۔ اور اگر آپ صحیح طریقے سے ایسا کرتے ہیں تو صحیح اعداد و شمار یا کسٹمر کی عمدہ تصویر کے ساتھ۔ - یہ سمجھتے ہو کہ یہ صارف کون ہے ، ان کا نفع کیا ہے ، ان کی ترجیحات کیا ہیں - اگر آپ واقعی اس پر کوئی ہینڈل حاصل کرسکتے ہیں تو ، آپ یہ کرنے جا رہے ہیں۔ اپنے صارفین کو تھامے رکھنا اور نئے صارفین حاصل کرنا۔ اور یہی سب کچھ ہے۔


لہذا اس کے ساتھ ، میں اسے اصل میں ، کرک بورن کے حوالے کروں گا ، جو آج کال پر ہمارے ڈیٹا سائنسدانوں میں سے ایک ہے۔ لوگ ، ان دنوں وہ بہت کم ہیں۔ کم سے کم کال پر ہمارے پاس ان میں سے دو مل گئے ہیں تاکہ یہ بڑی بات ہے۔ کرک ، اس کے ساتھ میں تجزیات اور اس سے کاروبار میں کیسے مدد ملتی ہے اس کے بارے میں بات کرنے کے ل it میں یہ آپ کے حوالے کروں گا۔ اس کے لئے جاؤ.


ڈاکٹر کرک بورن: ٹھیک ہے ، ایرک ، بہت بہت شکریہ۔ کیا تم مجھے سن سکتے ہو؟


ایرک: ٹھیک ہے ، آگے بڑھو۔


ڈاکٹر کرک: ٹھیک ہے ، اچھا ہے۔ اگر میں پانچ منٹ بات کرتا ہوں تو میں صرف اس کا اشتراک کرنا چاہتا ہوں ، اور لوگ مجھ پر ہاتھ پھیر رہے ہیں۔ لہذا ابتدائی ریمارکس ، ایرک ، جس نے آپ کو واقعی اس موضوع سے جوڑا ہے میں اگلے چند منٹوں میں اس کے بارے میں مختصر طور پر بات کرنے جا رہا ہوں جس میں اعداد و شمار کے لئے اعداد و شمار کے لئے بڑے اعداد و شمار اور تجزیات کا استعمال کرنا ہے۔ آپ نے آپریشنل اسٹریم لائننگ کے بارے میں جو تبصرہ کیا ہے ، وہ آپریشنل تجزیات کے اس تصور میں آتا ہے جس میں آپ پوری دنیا میں ہر درخواست کے بارے میں دیکھ سکتے ہیں کہ آیا یہ سائنس کی درخواست ہے ، کاروبار ہے ، سائبر سیکیورٹی اور قانون نافذ کرنے والے اداروں اور حکومت ، صحت کی دیکھ بھال۔ کسی بھی ایسی جگہ کی جہاں ہمارے پاس اعداد و شمار کا ایک سلسلہ موجود ہو اور ہم واقعات اور انتباہات اور طرز عمل کے رد عمل میں کسی قسم کا جواب یا فیصلہ دے رہے ہیں جو ہمیں اس ڈیٹا اسٹریم میں نظر آتا ہے۔


اور اس طرح میں آج جن چیزوں کے بارے میں میں بات کرنا چاہتا ہوں ان میں سے ایک یہ ہے کہ آپ اس مقام تک پہنچنے کے لئے کس طرح بڑے اعداد و شمار سے علم اور بصیرت نکال رہے ہیں جہاں ہم واقعتا actually اقدامات کرنے کا فیصلہ کرسکتے ہیں۔ اور کثرت سے ہم اس بارے میں آٹومیشن کے تناظر میں بات کرتے ہیں۔ اور آج میں لوپ میں انسانی تجزیہ کار کے ساتھ آٹومیشن کو ملا دینا چاہتا ہوں۔ تو اس سے میرا مطلب یہ ہے کہ جبکہ کاروبار کا تجزیہ کار یہاں شرطیں لگانے ، کوالیفائ کرنے ، مخصوص اقدامات یا مشین سیکھنے کے قواعد کی توثیق کرنے میں اہم کردار ادا کرتا ہے جو ہم ڈیٹا سے نکالتے ہیں۔ لیکن اگر ہم کسی ایسے مقام پر پہنچ جاتے ہیں جہاں ہم نے کاروباری قواعد کو کافی حد تک قائل کرلیا ہے جو ہم نے نکالے ہیں اور ہمیں مطلع کرنے کے طریقہ کار درست ہیں تو ہم اسے خود کار عمل میں تبدیل کر سکتے ہیں۔ ہم دراصل وہ آپریشنل اسٹریم لائننگ کرتے ہیں جس کے بارے میں ایرک بات کر رہا تھا۔


لہذا میں یہاں الفاظ پر تھوڑا سا کھیلتا ہوں لیکن مجھے امید ہے ، اگر یہ آپ کے لئے کام کرتا ہے تو ، میں نے D2D چیلنج کے بارے میں بات کی۔ اور D2D ، تمام سیاق و سباق میں ہونے والے فیصلوں کے اعداد و شمار ہی نہیں ، ہم اس کو اس سلائڈ کے نیچے کی طرح دیکھ رہے ہیں امید ہے کہ آپ اسے دیکھ سکتے ہیں ، دریافت کرتے ہوئے اور ہمارے تجزیاتی پائپ لائنوں سے محصولات کے ڈالر میں اضافہ کرتے ہیں۔


لہذا اس تناظر میں ، میں واقعی میں یہاں اپنے پاس مارکیٹر کا یہ کردار رکھتا ہوں کہ میں اس کے ساتھ کام کرتا ہوں اور وہ ہے۔ آپ جو اعداد و شمار کرنا چاہتے ہیں وہ یہ ہے کہ آپ اپنے ڈیٹا کی خصوصیت بنائیں ، خصوصیات کو نکالیں ، اپنے صارفین کی خصوصیات کو نکالیں یا جو بھی ادارہ ہے جسے آپ اپنی جگہ پر تلاش کر رہے ہیں۔ ہوسکتا ہے کہ یہ صحت کے تجزیاتی ماحول میں مریض ہو۔ اگر آپ سائبر سیکیورٹی کے مسئلے کی طرح دیکھ رہے ہیں تو یہ ویب صارف ہوسکتا ہے۔ لیکن خصوصیات کی خصوصیات اور نچوڑ اور پھر اس شخص کے بارے میں ، اس وجود کے بارے میں کچھ سیاق و سباق نکالیں۔ اور پھر آپ ان ٹکڑوں کو جمع کرتے ہیں جو آپ نے ابھی پیدا کیا ہے اور انہیں کسی قسم کے کسی مجموعہ میں ڈال دیا ہے جس سے آپ مشین لرننگ الگورتھم کو لاگو کرسکتے ہیں۔


اس کی وجہ میں اس طرح کہتا ہوں ، وہ یہ ہے کہ ، صرف یہ کہنا کہ ، آپ کے پاس ہوائی اڈے پر ایک نگرانی کیمرہ ہے۔ ویڈیو خود ایک بہت بڑا ، بڑی حجم ہے اور یہ بھی بہت غیر منظم ہے۔ لیکن آپ ویڈیو نگرانی ، چہرے کے بائیو میٹرکس سے نکال سکتے ہیں اور نگرانی والے کیمروں میں افراد کی شناخت کرسکتے ہیں۔ لہذا مثال کے طور پر ہوائی اڈے میں ، آپ مخصوص افراد کی نشاندہی کرسکتے ہیں ، آپ ہوائی اڈے کے ذریعے ایک سے زیادہ نگرانی والے کیمروں میں ایک ہی فرد کی شناخت کراس کر سکتے ہیں۔ اس لئے کہ نکالا بائیو میٹرک خصوصیات جو آپ واقعی کان کنی اور ٹریکنگ کر رہے ہیں وہی اصل ویڈیو خود نہیں ہے۔ لیکن ایک بار جب آپ ان نکالیں گے تو آپ مشین سیکھنے کے قواعد اور تجزیات کا اطلاق کرسکتے ہیں تاکہ آپ کو کسی خاص معاملے میں کوئی کارروائی کرنے کی ضرورت ہو یا کچھ غلط طریقے سے ہوا ہو یا ایسی کوئی چیز جس میں آپ کو پیش کش کرنے کا موقع ملے۔ اگر آپ ، مثال کے طور پر ، اگر آپ کے ہوائی اڈے میں کوئی اسٹور ہے اور آپ کو معلوم ہے کہ وہ صارف آپ کے راستے میں آرہا ہے اور آپ کو اس صارف کے بارے میں دیگر معلومات سے معلوم ہوگا ، کہ شاید اسے واقعی ڈیوٹی فری شاپ میں سامان خریدنے میں دلچسپی ہو گئی ہو یا کچھ اس طرح کی ، پیش کش کرو۔


تو خصوصیت اور صلاحیت کے ذریعہ میں کس قسم کی چیزوں کا معنی لوں گا؟ خصوصیات سے میرا مطلب ہے ، ایک بار پھر ، اعداد و شمار میں خصوصیات اور خصوصیات کو نکالنا۔ اور یہ یا تو مشین تیار کی جا سکتی ہے ، پھر اس کے الگورتھم دراصل ویڈیو یا جذبات کے تجزیے سے بایومیٹرک دستخط نکال سکتے ہیں۔ آپ آن لائن جائزوں یا سوشل میڈیا کے ذریعے گاہک کے جذبات کو نکال سکتے ہیں۔ ہوسکتا ہے کہ ان میں سے کچھ چیزیں انسانوں کے ذریعہ تیار کردہ ہوں ، تاکہ انسان ، کاروباری تجزیہ کار ، اضافی خصوصیات نکال سکے جو میں اگلی سلائیڈ میں دکھاؤں گا۔


ان میں سے کچھ بھیڑ بھیڑ ہو سکتے ہیں۔ اور ہجوم سے جڑا ہوا ، بہت سارے طریقوں سے آپ اس کے بارے میں سوچ سکتے ہیں۔ لیکن بہت آسانی سے ، مثال کے طور پر ، آپ کے صارف آپ کی ویب سائٹ پر آتے ہیں اور انہوں نے تلاش کے الفاظ ، کلیدی الفاظ ، اور وہ ایک خاص صفحے پر ختم ہوجاتے ہیں اور واقعی اس صفحے پر وہاں وقت صرف کرتے ہیں۔ کہ وہ دراصل ، کم از کم یہ سمجھ لیں کہ وہ یا تو دیکھ رہے ہیں ، براؤز کررہے ہیں ، اور اس صفحے کی چیزوں پر کلک کر رہے ہیں۔ جو بات آپ کو کہتی ہے وہ یہ ہے کہ انہوں نے ابتدا ہی میں جو ٹائپ ٹائپ کیا وہ اس صفحے کا ڈسریکٹر ہے کیوں کہ اس نے اس صفحے پر کسٹمر کو اترا جس کی وہ توقع کر رہے تھے۔ اور اس ل you آپ اس اضافی معلومات کا ٹکڑا شامل کرسکتے ہیں ، وہی صارفین ہیں جو اس مطلوبہ الفاظ کو استعمال کرتے ہیں اور اصل میں اس ویب پیج کو ہمارے انفارمیشن آرکیٹیکچر میں اس جگہ کی نشاندہی کرتے ہیں جہاں وہ مواد اس مطلوبہ الفاظ سے مماثل ہے۔


اور اس طرح ہجوم سورسنگ ایک دوسرا پہلو ہے جو کبھی کبھی لوگ بھول جاتے ہیں ، اس طرح آپ کے گاہکوں کے روٹی کے ٹکڑوں کا سراغ لگانا ، لہذا بات کرنا۔ وہ اپنی جگہ سے کیسے گزرتے ہیں ، چاہے وہ آن لائن پراپرٹی ہو یا کوئی حقیقی پراپرٹی۔ اور پھر وہ اس طرح کے راستے کا استعمال کریں ، جو گاہک ان چیزوں کے بارے میں اضافی معلومات لیتا ہے جن کی ہم تلاش کر رہے ہیں۔


لہذا میں کہنا چاہتا ہوں کہ انسان کیذریعہ تیار کردہ چیزیں ، یا مشین تیار کردہ ، مخصوص ڈیٹا گرینولز یا اداروں کو تشریح کرنے یا ٹیگ کرنے کی ترتیب میں کسی سیاق و سباق کے ساتھ ختم ہوگئی۔ چاہے وہ افراد ہسپتال کی ترتیب میں مریض ہوں ، گراہک ہوں یا کچھ بھی۔ اور اس طرح ٹیگنگ اور تشریحات کی مختلف قسمیں ہیں۔ اس میں سے کچھ خود ڈیٹا کے بارے میں ہے۔ یہ ان چیزوں میں سے ایک ہے ، کس قسم کی معلومات ، کس قسم کی معلومات ، خصوصیات کیا ہیں ، شکلیں ، ہوسکتا ہے کہ بناوٹ اور نمونہ ، بے ضابطگی ، غیر عدم سلوک۔ اور پھر کچھ سیمنٹکس نکالیں ، یعنی ، اس کا ان دیگر چیزوں سے کیسے تعلق ہے جو میں جانتا ہوں ، یا یہ صارف الیکٹرانکس کا صارف ہے۔ یہ گاہک لباس کا صارف ہے۔ یا یہ صارف موسیقی خریدنا پسند کرتا ہے۔


لہذا اس کے بارے میں کچھ الفاظ کی شناخت کرتے ہوئے ، یہ صارفین جو موسیقی پسند کرتے ہیں وہ تفریح ​​پسند کرتے ہیں۔ ہوسکتا ہے کہ ہم انہیں تفریحی املاک کی پیش کش کرسکیں۔ لہذا سیمنٹکس کو سمجھنا اور کچھ نحوست بھی ، جو بنیادی طور پر یہ کہہ رہی ہے کہ: یہ کہاں سے آیا ہے ، یہ دعوی کس نے فراہم کیا ، کس وقت ، کس تاریخ ، کس حال میں؟


لہذا ایک بار جب آپ کے پاس یہ ساری تشریحات اور خصوصیات ہوجائیں تو پھر اس میں اضافہ کریں پھر اگلا مرحلہ ، جو سیاق و سباق کی طرح ہے ، کس کی طرح ، کس وقت ، کہاں اور کیوں اس کا۔ صارف کون ہے؟ وہ جس چینل پر آئے تھے وہ کون سا تھا؟ معلومات کا ماخذ کیا تھا؟ ہم نے معلومات یا ڈیٹا پروڈکٹ کے اس خاص ٹکڑے میں کس قسم کی بازوں کو دیکھا ہے؟ اور کیا ہے ، کاروباری عمل میں اس کی قدر ہے؟ اور پھر ان چیزوں کو اکٹھا کریں اور ان کا نظم کریں ، اور اگر آپ اس طرح سے سوچنا چاہتے ہیں تو دراصل ڈیٹا بیس بنانے میں مدد کریں۔ دوسرے کاروباری تجزیہ کاروں کے ذریعہ یا خود کار عمل کے ذریعہ انھیں تلاش کے قابل ، دوبارہ قابل استعمال بنائیں ، جو اگلی بار جب میں ان خصوصیات کا یہ سیٹ دیکھوں گا تو ، نظام خود بخود کارروائی کرسکتا ہے۔ اور اس طرح ہم اس قسم کی آپریشنل تجزیاتی کارکردگی کو حاصل کرتے ہیں ، لیکن جتنا زیادہ ہم مفید ، جامع معلومات اکٹھا کرتے ہیں اور پھر ان استعمال کے معاملات کے ل c اس کو درست کرتے ہیں۔


ہم کاروبار پر اترتے ہیں۔ ہم ڈیٹا تجزیات کرتے ہیں۔ ہم دلچسپ نمونوں ، حیرتوں ، نیازی سے متعلق نامہ نگاروں ، بے ضابطگیوں کی تلاش کرتے ہیں۔ ہم آبادی میں نئی ​​جماعتیں اور طبقات ڈھونڈتے ہیں۔ ہم مختلف اداروں کے مابین انجمنیں اور ارتباط اور روابط تلاش کرتے ہیں۔ اور پھر ہم اپنی دریافت ، فیصلے اور ڈالر بنانے کے عمل کو آگے بڑھانے کے لئے ان تمام چیزوں کا استعمال کرتے ہیں۔


تو پھر ، یہاں ہمیں آخری ڈیٹا سلائڈ ملا ہے جو صرف میرے پاس بنیادی طور پر خلاصہ کر رہا ہے ، بزنس تجزیہ کار کو لوپ میں رکھتے ہوئے ، پھر ، آپ اس انسان کو نہیں نکال رہے ہیں اور اس انسان کو وہاں رکھنا سب اہم ہے۔


تو یہ خصوصیات ، وہ سب مشینیں یا انسانی تجزیہ کاروں یا یہاں تک کہ ہجوم سورسنگ کے ذریعہ فراہم کی گئیں۔ ہم اپنے ماڈلز کے لئے اپنے ٹریننگ سیٹس کو بہتر بنانے اور زیادہ درست پیش گوئی کرنے والے ماڈل ، کم غلط جھوٹے اور نفی ، زیادہ موثر سلوک ، اپنے صارفین یا کسی سے بھی موثر مداخلت کے ساتھ ختم ہونے کے ل things چیزوں کے اس مرکب کا استعمال کرتے ہیں۔


لہذا ، دن کے اختتام پر ، ہم واقعی صرف مشینری سیکھنے اور بڑے اعداد و شمار کو انسانی ادراک کی اس طاقت کے ساتھ جوڑ رہے ہیں ، اور اسی جگہ ٹیگنگ تشریح کا ٹکڑا آتا ہے۔ ٹولز یا عمیق ڈیٹا ماحول یا ہجوم سورسنگ۔ اور ، دن کے اختتام پر ، جو واقعتا یہ کر رہا ہے وہ ہماری دریافت ، بصیرت اور ڈی 2 ڈی پیدا کررہا ہے۔ اور یہ میرے تبصرے ہیں ، لہذا سننے کے لئے آپ کا شکریہ۔


ایرک: ارے یہ بہت اچھا لگ رہا ہے اور مجھے آگے بڑھنے دو اور اس کی چابی بھی ڈاکٹر رابن بلور کے حوالے کروں تاکہ اس کا نظریہ بھی پیش کروں۔ ہاں ، میں آپ کو آپریشنز کے اس تصور کو بہتر بنانے کے بارے میں تبصرہ سننا چاہتا ہوں اور آپ آپریشنل تجزیات کے بارے میں بات کر رہے ہیں۔ میرے خیال میں یہ ایک بہت بڑا علاقہ ہے جس کی تلاش کی ضرورت ہے۔ اور مجھے لگتا ہے کہ ، رابن سے پہلے جلدی جلدی ، کرک ، میں آپ کو واپس لاؤں گا۔ اس کا تقاضا کرتا ہے کہ کمپنی میں مختلف کھلاڑیوں کے درمیان آپ کا کچھ خاصی اہم تعاون ہو ، ٹھیک ہے؟ آپ کو آپریشن کے لوگوں سے بات کرنی ہوگی۔ آپ کو اپنے تکنیکی لوگوں کو ملنا ہے۔ کبھی کبھی آپ کو اپنے مارکیٹنگ والے افراد یا آپ کے ویب انٹرفیس والے مل جاتے ہیں۔ یہ عام طور پر مختلف گروپ ہیں۔ کیا آپ کے پاس اس بارے میں کوئی بہترین عمل یا مشورے ہیں کہ ہر ایک کو اپنی جلد کھیل میں ڈالنے کا طریقہ کس طرح ہے؟


ڈاکٹر کرک: ٹھیک ہے ، میں سمجھتا ہوں کہ یہ تعاون کی کاروباری ثقافت کے ساتھ ہے۔ در حقیقت ، میں تجزیاتی کلچر کی طرح تین سی کے بارے میں بات کرتا ہوں۔ ایک تخلیقی صلاحیت ہے۔ دوسرا تجسس ہے اور تیسرا باہمی تعاون ہے۔ لہذا آپ تخلیقی ، سنجیدہ افراد چاہتے ہیں ، لیکن آپ کو ان لوگوں کو باہمی تعاون لانا بھی ہوگا۔ اور واقعتا یہ اوپر سے شروع ہوتا ہے ، اس ثقافت کی تعمیر ایسے لوگوں کے ساتھ جو کھلے دل سے شیئر کرنا چاہئے اور کاروبار کے مشترکہ مقاصد کی سمت مل کر کام کرنا چاہئے۔


ایرک: یہ سب سمجھ میں آتا ہے۔ اور واقعی ایسا کرنے کے ل you آپ کو واقعی اعلی قیادت حاصل کرنا ہوگی۔ تو آئیے ہم آگے چلیں اور اسے ڈاکٹر بلور کے حوالے کریں۔ رابن ، فرش تمہارا ہے۔


ڈاکٹر رابن بلور: ٹھیک ہے۔ اس تعارف کے لئے آپ کا شکریہ ، ایرک ٹھیک ہے ، جس طرح سے یہ پھل نکلتا ہے ، ان سے پتہ چلتا ہے ، کیونکہ ہمارے پاس دو تجزیہ کار ہیں۔ مجھے تجزیہ کار کی پیش کش دیکھنے کو ملتی ہے جو دوسرے لوگ نہیں کرتے ہیں۔ میں جانتا تھا کہ کرک کیا کہنے والا ہے اور میں بالکل مختلف زاویہ سے نکلتا ہوں تاکہ ہم زیادہ اوورلیپ میں نہ جائیں۔


تو میں اصل میں جس کے بارے میں بات کر رہا ہوں یا یہاں بات کرنے کا ارادہ کر رہا ہوں وہ ہے ڈیٹا تجزیہ کار کا کردار بمقابلہ تجارتی تجزیہ کار کا۔ اور جس طرح سے میں اس کی خصوصیت کر رہا ہوں ، اچھی طرح سے ، زبان سے کسی حد تک ایک حد تک جیکل اور ہائیڈ چیز ہے۔ فرق خاص طور پر ڈیٹا سائنسدانوں کے ہونے کے ناطے ، کم از کم نظریہ میں ، جانتے ہیں کہ وہ کیا کر رہے ہیں۔ اگرچہ کاروباری تجزیہ کار ایسا نہیں ہیں ، لیکن ریاضی کے کام کرنے کے طریقے سے ٹھیک ہے ، کس چیز پر اعتماد کیا جاسکتا ہے اور جس پر اعتبار نہیں کیا جاسکتا ہے۔


تو ہم صرف اس وجہ سے نیچے آجائیں کہ ہم یہ کر رہے ہیں ، اس وجہ سے کہ اعداد و شمار کا تجزیہ اچانک اس حقیقت سے ہٹ کر ایک بڑی بات بن گیا ہے کہ ہم واقعی بہت بڑی مقدار میں ڈیٹا کا تجزیہ کرسکتے ہیں اور تنظیم کے باہر سے ڈیٹا کھینچ سکتے ہیں۔ کیا یہ ادا کرتا ہے؟ جس طرح سے میں اس کی طرف دیکھتا ہوں - اور مجھے لگتا ہے کہ یہ صرف ایک کیس بن رہا ہے لیکن مجھے یقینی طور پر لگتا ہے کہ یہ ایک معاملہ ہے - اعداد و شمار کا تجزیہ واقعتا business کاروبار R & D ہے۔ اعداد و شمار کے تجزیہ کے ذریعہ آپ دراصل ایک طریقے سے یا دوسرا کام کر رہے ہیں آپ یہ چاہتے ہیں کہ آپ کسی طرح کے کاروباری عمل کو دیکھ رہے ہیں یا یہ کہ کسی صارف کے ساتھ بات چیت ہو ، چاہے یہ آپ کے خوردہ آپریشن کے طریقے سے ہے ، جس طرح سے آپ تعینات کرتے ہیں۔ اپنے اسٹورز واقعی اس سے کوئی فرق نہیں پڑتا ہے کہ مسئلہ کیا ہے۔ آپ دیئے گئے کاروباری عمل کو دیکھ رہے ہیں اور آپ اسے بہتر بنانے کی کوشش کر رہے ہیں۔


کامیاب تحقیق اور ترقی کا نتیجہ ایک تبدیلی کا عمل ہے۔ اور آپ مینوفیکچرنگ کے بارے میں سوچ سکتے ہیں ، اگر آپ چاہیں تو ، اس کی معمول کی مثال کے طور پر۔ کیونکہ مینوفیکچرنگ میں ، لوگ مینوفیکچرنگ کے عمل کو بہتر بنانے اور بہتر بنانے کے لئے ہر چیز کے بارے میں معلومات اکٹھا کرتے ہیں۔ لیکن میں سمجھتا ہوں کہ کیا ہوا ہے یا جو بڑے اعداد و شمار پر ہو رہا ہے ، یہ سب کچھ اب کسی بھی طرح کے تمام کاروباروں پر اس طرح سے ہو رہا ہے جس کے بارے میں کوئی سوچ سکتا ہے۔ اگر آپ اس کے بارے میں ڈیٹا اکٹھا کرسکتے ہیں تو کسی بھی کاروباری عمل کی جانچ پڑتال ہوتی ہے۔


تو وہ ایک چیز ہے۔ اگر آپ چاہیں تو ، یہ اعداد و شمار کے تجزیہ کا سوال ہے۔ ڈیٹا تجزیات کاروبار کے لئے کیا کرسکتا ہے؟ ٹھیک ہے ، یہ کاروبار کو مکمل طور پر تبدیل کرسکتا ہے۔


یہ خاص آریھ جس کے بارے میں میں کسی گہرائی میں بیان نہیں کروں گا ، لیکن یہ ایک آریھ ہے جسے ہم اس سال کے پہلے چھ ماہ تک تحقیقاتی منصوبے کے اختتام کے طور پر سامنے آئے ہیں۔ یہ ڈیٹا کے ایک بڑے فن تعمیر کی نمائندگی کرنے کا ایک طریقہ ہے۔ اور متعدد چیزیں جو اگلی سلائڈ میں جانے سے پہلے اس کی نشاندہی کرنے کے قابل ہیں۔ یہاں دو اعداد و شمار بہہ رہے ہیں۔ ایک اصل وقت کا ڈیٹا اسٹریم ہے ، جو آریھ کے اوپر جاتا ہے۔ دوسرا آہستہ ڈیٹا اسٹریم ہے جو آریھ کے نیچے جاتا ہے۔


آریھ کے نیچے دیکھو۔ ہمارے پاس ڈیٹا ذخائر کی حیثیت سے ہڈوپ مل گیا ہے۔ ہمارے پاس مختلف ڈیٹا بیس ہیں۔ ہمارے پاس ایک پورا ڈیٹا مل گیا ہے جس میں پوری طرح کی سرگرمی ہو رہی ہے ، ان میں سے بیشتر تجزیاتی سرگرمی ہیں۔


میں یہاں جو نکتے بنا رہا ہوں اور صرف ایک ہی نکتہ ہے جو میں واقعی میں یہاں بنانا چاہتا ہوں وہ یہ ہے کہ ٹیکنالوجی مشکل ہے۔ یہ آسان نہیں ہے۔ یہ آسان نہیں ہے. یہ ایسی چیز نہیں ہے جو کوئی بھی جو کھیل میں نیا ہوتا ہے وہ اصل میں صرف ایک ساتھ جوڑ سکتا ہے۔ یہ کافی پیچیدہ ہے۔ اور اگر آپ ان سارے عمل میں قابل بھروسہ تجزیات کرنے کے لئے کسی کاروبار کو تیار کررہے ہیں تو ، پھر یہ کوئی خاص بات نہیں ہے جو خاص طور پر جلدی سے ہونے والا ہے۔ اس کو مرکب میں شامل کرنے کے لئے بہت سی ٹکنالوجی کی ضرورت ہوگی۔


ٹھیک ہے. سوال یہ ہے کہ ڈیٹا سائنسدان کیا ہے ، میں اعداد و شمار کا سائنسدان ہونے کا دعویٰ کرسکتا ہوں کیونکہ مجھے کمپیوٹنگ کی تربیت دینے سے پہلے ہی میں اعداد و شمار میں واقعتا trained تربیت یافتہ تھا۔ اور میں نے ایک وقفے وقفے سے ایک نوکری کی تھی تاکہ میں جانتا ہوں کہ کاروبار چلانے کے لئے اعداد و شمار کے تجزیے کا ، جس طرح سے کوئی کاروبار منظم کرتا ہے۔ یہ معمولی بات نہیں ہے۔ اور انسان کی طرف اور ٹکنالوجی کی طرف دونوں میں شامل ایک بہت اچھا عمل ہے۔


تو یہ سوال پوچھنے میں کہ "ڈیٹا سائنس دان کیا ہے" ، میں نے فرینکنسٹائن کی تصویر کو محض اس لئے لگایا ہے کہ یہ ان چیزوں کا مجموعہ ہے جو ایک ساتھ بننا پڑتا ہے۔ اس میں پروجیکٹ مینجمنٹ شامل ہے۔ اعداد و شمار میں گہری تفہیم ہے۔ یہاں ڈومین بزنس کی مہارت حاصل ہے ، جو ضروری ہے کہ اعداد و شمار کے سائنس دان کے مقابلے میں تجارتی تجزیہ کار کا مسئلہ زیادہ ہو۔ ڈیٹا فن تعمیر کو سمجھنے اور ڈیٹا آرکیٹیکچر بنانے کے قابل ہونے کا تجربہ یا ضرورت ہے اور اس میں سافٹ ویئر انجینئرنگ شامل ہے۔ دوسرے الفاظ میں ، یہ شاید ایک ٹیم ہے۔ یہ شاید فرد نہیں ہے۔ اور اس کا مطلب یہ ہے کہ یہ شاید ایک محکمہ ہے جس کو منظم کرنے کی ضرورت ہے اور اس کی تنظیم کو بڑے پیمانے پر بڑے پیمانے پر سوچنے کی ضرورت ہے۔


مشین سیکھنے کی حقیقت کو مکس میں پھینکنا۔ ہم یہ نہیں کرسکتے ، میرا مطلب یہ ہے کہ مشین لرننگ اس لحاظ سے کوئی نئی بات نہیں ہے کہ مشین لرننگ میں استعمال ہونے والی بیشتر شماریاتی تکنیک دہائیوں سے مشہور ہے۔ کچھ نئی چیزیں ہیں ، میرا مطلب ہے کہ اعصابی نیٹ ورک نسبتا new نئے ہیں ، میرے خیال میں وہ صرف 20 سال کے ہیں ، لہذا اس میں سے کچھ نسبتا new نئی ہیں۔ لیکن مشین لرننگ میں مسئلہ یہ تھا کہ واقعتا ہمارے پاس ایسا کرنے کی کمپیوٹر پاور نہیں تھی۔ اور کیا ہوا ، کسی اور چیز کے علاوہ ، اب یہ کہ کمپیوٹر پاور اپنی جگہ پر موجود ہے۔ اور اس کا مطلب یہ ہے کہ ہم ، ڈیٹا سائنسدانوں نے ماڈلنگ کے معاملات ، ڈیٹا کے نمونے لینے اور پھر مارشلنگ کے معاملے میں جو کچھ کیا ہے اس کی ایک بہت ہی خوفناک بات ہے تاکہ اعداد و شمار کا گہرا تجزیہ پیش کیا جاسکے۔ دراصل ، ہم کچھ معاملات میں اس پر صرف کمپیوٹر پاور پھینک سکتے ہیں۔ صرف مشین لرننگ الگورتھم منتخب کریں ، اسے ڈیٹا پر پھینک دیں اور دیکھیں کہ کیا نکلا ہے۔ اور یہ وہ چیز ہے جو بزنس تجزیہ کار کرسکتا ہے ، ٹھیک ہے؟ لیکن کاروباری تجزیہ کار کو یہ سمجھنے کی ضرورت ہے کہ وہ کیا کر رہے ہیں۔ میرا مطلب ہے ، میں سمجھتا ہوں کہ یہ معاملہ واقعتا، کسی بھی چیز سے زیادہ ہے۔


ٹھیک ہے ، یہ کسی بھی دوسرے ذریعہ سے اپنے اعداد و شمار سے کاروبار کے بارے میں مزید جاننا ہے۔ آئن اسٹائن نے یہ نہیں کہا ، میں نے کہا۔ میں نے صرف ساکھ کے لئے اس کی تصویر پیش کی۔ لیکن صورتحال واقعتا develop وہی شروع کر رہی ہے جہاں تکنالوجی ، اگر مناسب طریقے سے استعمال کی گئی ہو ، اور اگر ریاضی کا صحیح استعمال کیا جائے تو وہ کسی بھی فرد کی حیثیت سے کاروبار چلانے کے قابل ہو جائے گا۔ ہم نے اسے آئی بی ایم کے ساتھ دیکھا ہے۔ سب سے پہلے ، یہ شطرنج میں بہترین لڑکوں کو شکست دے سکتا ہے ، اور پھر یہ خطرے میں بہترین لڑکوں کو شکست دے سکتا ہے۔ لیکن آخر کار ہم ایک کمپنی چلانے میں بہترین لڑکوں کو شکست دینے میں کامیاب ہوجائیں گے۔ اعدادوشمار بالآخر فتح پائیں گے۔ اور یہ دیکھنا مشکل ہے کہ یہ کیسے نہیں ہوگا ، ابھی ابھی ایسا نہیں ہوا ہے۔


تو جو میں کہہ رہا ہوں ، اور یہ میری پیش کش کا ایک مکمل پیغام ہے ، کیا یہ کاروبار کے دو مسئلے ہیں۔ پہلا ایک ، کیا آپ ٹھیک ٹکنالوجی حاصل کرسکتے ہیں؟ کیا آپ اس ٹیم کے لئے ٹکنالوجی کا کام کرسکتے ہیں جو واقعتا actually اس کی صدارت کرنے کے قابل ہوگی اور کاروبار کے لئے فوائد حاصل کرسکتی ہے؟ اور پھر ، دوسرا ، کیا آپ لوگوں کو ٹھیک کر سکتے ہیں؟ اور یہ دونوں ہی معاملات ہیں۔ اور وہ ایسے معاملات ہیں جو اس وقت تک نہیں ہیں ، ان کا کہنا ہے کہ حل ہے۔


ٹھیک ہے ایرک ، میں اسے آپ کے پاس واپس کردوں گا۔ یا مجھے شاید اس کو مرضی کے پاس بھیج دینا چاہئے۔


ایرک: اصل میں ، ہاں آپ کا شکریہ ، ول گورمین۔ ہاں ، آپ وہاں جائیں گے۔ تو دیکھتے ہیں۔ میں آپ کو ویب ایکس کی کلید دیتا ہوں۔ تو کیا ہو رہا ہے؟ پینٹااہو ، ظاہر ہے ، آپ لوگ تھوڑی دیر کے لئے رہے ہیں اور اوپن سورس BI کی طرح جہاں سے آپ نے آغاز کیا تھا۔ لیکن آپ کو پہلے سے کہیں زیادہ مل گیا ، لہذا دیکھتے ہیں کہ ان دنوں تجزیات کے ل you آپ کو کیا ملا۔


ول گورمین: بالکل۔ ہائے ، سب! میرا نام ول گورمین ہے۔ میں پینٹاہو کا چیف آرکیٹیکٹ ہوں۔ آپ میں سے ان لوگوں کے لئے جنہوں نے ہم سے متعلق نہیں سنا ہے ، میں نے صرف ذکر کیا پینٹااہو ایک بڑی ڈیٹا انضمام اور تجزیات کمپنی ہے۔ ہم دس سال سے کاروبار میں ہیں۔ ہماری پروڈکٹس ڈیٹا انضمام اور تجزیات کے لئے ایک اوپن سورس پلیٹ فارم کے طور پر آغاز کرتے ہوئے ، ڈیٹا انٹیگریشن اور تجزیات کے لئے ایک اوپن سورس پلیٹ فارم کی حیثیت سے تیار ہوچکے ہیں ، ان ٹیک کے ارد گرد تجارتی اداروں کی تشکیل سے پہلے ہی ہڈوپ اور نو ایس کیو ایل جیسی ٹکنالوجی کے ساتھ جدت طے کر رہے ہیں۔ اور اب ہمارے پاس اوپن سورس کے ارد گرد اپنی جدت کے نتیجے میں 1500 سے زیادہ تجارتی صارفین اور بہت ساری پیداواری ملاقاتیں ہیں۔


ہمارا فن تعمیر انتہائی سرایت اور قابل توسیع ہے ، مقصد کے مطابق بنایا گیا ہے تاکہ لچکدار بنایا جا be کیونکہ خاص طور پر بڑی ڈیٹا ٹکنالوجی بہت تیز رفتار سے تیار ہورہی ہے۔ پینٹاہو پروڈکٹ کے تین اہم شعبے پیش کرتا ہے وہ یہ ہے کہ بڑے اعداد و شمار کے تجزیاتی استعمال کے معاملات کو حل کرنے کے لئے مل کر کام کریں۔


ہمارے فن تعمیر کی حد تک پہلا مصنوع پینٹاہو ڈیٹا انٹیگریشن ہے جو ڈیٹا ٹیکنوجسٹ اور ڈیٹا انجینئرز کی طرف تیار کیا گیا ہے۔ یہ مصنوع اعداد و شمار کے پائپ لائنوں کی وضاحت اور بڑے اعداد و شمار کے ماحول اور روایتی ماحول میں بھی اعداد و شمار کو منظم کرنے کے عمل کی وضاحت کے ل a ایک بصری ، ڈریگ اور ڈراپ تجربہ پیش کرتا ہے۔ یہ پروڈکٹ ایک ہلکا پھلکا ، میٹا ڈیٹا بیس ، ڈیٹا انضمام پلیٹ فارم ہے جو جاوا پر بنایا گیا ہے اور میپریڈوسیس یا یاران یا طوفان اور بہت سے دوسرے بیچ اور ریئل ٹائم پلیٹ فارمز کے اندر عمل کے طور پر لگایا جاسکتا ہے۔


ہمارے دوسرے پروڈکٹ کا رقبہ بصری تجزیات کے آس پاس ہے۔ اس ٹکنالوجی کے ذریعہ ، تنظیمیں اور OEMs تجارتی تجزیہ کاروں اور کاروباری صارفین کے لئے جدید براؤزرز اور ٹیبلٹس کے ذریعہ بزرگ ڈریگ اینڈ ڈراپ ویوزلائزیشن اور تجزیات کا تجربہ پیش کرسکتے ہیں ، جس سے رپورٹس اور ڈیش بورڈز کی ایڈہاک تخلیق ہوتی ہے۔ نیز پکسل - کامل ڈیش بورڈنگ اور رپورٹس کی پیش کش۔


ہمارا تیسرا پروڈکٹ ایریا ڈیٹا سائنسدانوں ، مشین لرننگ الگورتھموں کے لئے نشانہ بنائے جانے والے پیش گو گو تجزیات پر مرکوز ہے۔ جیسا کہ پہلے بتایا گیا ہے ، اعصابی نیٹ ورکس اور اس طرح کی طرح ، ڈیٹا ٹرانسفارمیشن ماحول میں شامل کیا جاسکتا ہے ، جس سے ڈیٹا سائنسدانوں کو ماڈلنگ سے لے کر پیداواری ماحول تک جانے کی اجازت دی جاسکتی ہے ، جس سے پیش گوئی تک رسائی ہوسکتی ہے ، اور اس سے کاروباری عمل بہت جلد ، بہت جلد متاثر ہوسکتے ہیں۔


یہ تمام مصنوعات مضبوطی کے ساتھ ایک فرتیلی تجربے میں مربوط ہیں اور ہمارے کاروباری صارفین کو ان کے کاروباری مسائل کو حل کرنے کے ل need ان کو نرمی فراہم کرتے ہیں۔ ہم روایتی ٹیکنالوجیز میں بڑے اعداد و شمار کے تیزی سے تیار ہوتی ہوئی زمین کی تزئین کو دیکھ رہے ہیں۔ ہم سب کچھ کچھ بڑی کمپنیوں سے سنتے ہیں کہ ڈیٹا کی بڑی جگہ میں EDW اختتام کے قریب ہے۔ در حقیقت ، جو کچھ ہم اپنے انٹرپرائز صارفین میں دیکھتے ہیں وہ یہ ہے کہ انہیں موجودہ کاروبار اور آئی ٹی عملوں میں بڑا ڈیٹا متعارف کرانے کی ضرورت ہے اور ان عمل کو تبدیل نہیں کرنا ہے۔


یہ عام آریھ فن تعمیر میں وہ نقطہ ظاہر کرتا ہے جو ہم اکثر دیکھتے ہیں ، جو ڈیٹا انضمام اور BI استعمال کے معاملات کے ساتھ EDW تعیناتی فن تعمیر کی ایک قسم ہے۔ اب یہ آراگرام بڑے اعداد و شمار کے فن تعمیر پر رابن کی سلائیڈ کی طرح ہے ، اس میں اصل وقت اور تاریخی ڈیٹا شامل کیا گیا ہے۔ جب نئے اعداد و شمار کے ذرائع اور اصل وقت کی ضروریات سامنے آتی ہیں تو ، ہم مجموعی طور پر آئی ٹی فن تعمیر کے ایک اضافی حصے کی حیثیت سے بڑے اعداد و شمار کو دیکھتے ہیں۔ ڈیٹا کے ان نئے ذرائع میں مشین سے تیار کردہ ڈیٹا ، غیر ساختہ اعداد و شمار ، معیاری حجم اور رفتار اور مختلف ضروریات شامل ہیں جن کے بارے میں ہم بڑے اعداد و شمار میں سنتے ہیں۔ وہ روایتی EDW عمل میں فٹ نہیں بیٹھتے ہیں۔ پینٹااہو ہڈوپ اور نو ایس کیو ایل کے ساتھ مل کر کام کرتا ہے تاکہ اس اعداد و شمار کی ہجوم ، ڈیٹا پروسیسنگ اور تصور کو آسان بنایا جاسکے اور ساتھ ہی روایتی ذرائع سے اس ڈیٹا کو ملایا جاسکے تاکہ صارفین کو ان کے ڈیٹا ماحول میں مکمل نظریہ مل سکے۔ ہم یہ حکمرانی کے ساتھ کرتے ہیں تاکہ آئی ٹی ان کے کاروبار کے سلسلے میں مکمل تجزیاتی حل پیش کرسکے۔


اختتام پذیر ، میں اپنے اعداد و شمار کو بڑے ڈیٹا تجزیات اور انضمام کے ارد گرد اجاگر کرنا چاہتا ہوں۔ ہم سمجھتے ہیں کہ یہ ٹیکنالوجیز ایک ساتھ مل کر ایک واحد متحد فن تعمیر کے ساتھ مل کر کام کر رہی ہیں ، اور ایسے متعدد استعمال کے معاملات کو قابل بنائے گی جو دوسری صورت میں ممکن نہیں ہوں گی۔ ہمارے صارفین کے ڈیٹا کا ماحول صرف بڑے ڈیٹا ، ہڈوپ اور نمبر ایس کیو ایل سے زیادہ ہے۔ کوئی بھی ڈیٹا منصفانہ کھیل ہے۔ اور کاروباری قدر کو متاثر کرنے کیلئے اعداد و شمار کے بڑے ذرائع دستیاب ہونے کی ضرورت ہے۔


آخر میں ، ہم سمجھتے ہیں کہ کاروباری اداروں میں اعداد و شمار کے ذریعے کاروباری مسائل کو بہت موثر طریقے سے حل کرنے کے لئے ، آئی ٹی اور کاروبار کی لائنوں کو بڑے اعداد و شمار کے تجزیات کے لئے حکمرانی ، آمیز نقطہ نظر پر مل کر کام کرنے کی ضرورت ہے۔ خیر ، ایرک ، ہمیں بات کرنے کا وقت دینے کے لئے بہت بہت شکریہ۔


ایرک: آپ شرط لگائیں۔ نہیں ، یہ اچھی چیز ہے۔ میں آپ کے فن تعمیر کے اس رخ میں واپس جانا چاہتا ہوں جیسے ہی ہم سوال و جواب کی طرف جاتے ہیں۔ تو آئیے باقی پریزنٹیشن میں آگے بڑھتے ہیں اور اس کے لئے آپ کا بہت بہت شکریہ۔ آپ لوگ یقینی طور پر پچھلے دو سالوں میں تیزی سے آگے بڑھ رہے ہیں ، مجھے یہ بات یقینی طور پر کہنا پڑے گی۔


تو اسٹیو ، مجھے آگے بڑھنے دو اور آپ کے حوالے کردوں۔ اور یہاں نیچے تیر پر کلک کریں اور اس کے لئے جائیں۔ تو اسٹیو ، میں آپ کو چابیاں دے رہا ہوں۔ اسٹیو ولکس ، صرف اپنے کی بورڈ پر موجود اس سب سے نیچے والے تیر پر کلک کریں۔


اسٹیو ولکس: ہم وہاں جاتے ہیں۔


ایرک: تم وہاں جاؤ۔


اسٹیو: اگرچہ آپ نے مجھے دیا ہے تو یہ ایک عمدہ تعارف ہے۔


ایرک: ہاں


اسٹیو: تو میں اسٹیو ولکس ہوں۔ میں WebAction میں CCO ہوں۔ ہم صرف پچھلے کچھ سالوں سے ہی رہے ہیں اور اس وقت سے ہم یقینی طور پر تیزی سے آگے بڑھ رہے ہیں۔ WebAction ایک حقیقی وقت کا بڑا ڈیٹا تجزیاتی پلیٹ فارم ہے۔ ایرک نے پہلے ذکر کیا ، اس قسم کا ، حقیقی وقت کتنا اہم ہے اور آپ کی درخواستوں کو کتنا حقیقی وقت مل رہا ہے۔ ہمارا پلیٹ فارم ریئل ٹائم ایپس بنانے کے لئے ڈیزائن کیا گیا ہے۔ اور اعداد و شمار سے چلنے والی ایپس کی اگلی نسل کو قابل بنائے جس پر تیزی سے تعمیر کیا جاسکے اور لوگوں کو ان ایپس سے تیار کردہ ڈیٹا سے ڈیش بورڈ بنانے کی سہولت دی جائے ، لیکن حقیقی وقت پر توجہ دی جائے۔


ہمارا پلیٹ فارم دراصل ایک مکمل اختتام سے آخر پلیٹ فارم ہے ، جو ڈیٹا کے حصول ، ڈیٹا پروسیسنگ سے لے کر ڈیٹا ویژنائزیشن تک ہر طرح کا کام کرتا ہے۔ اور ہمارے انٹرپرائز کے اندر متعدد مختلف اقسام کے افراد کو حقیقی ریئل ٹائم ایپس بنانے کے ل together مل کر کام کرنے کا اہل بناتا ہے ، جس سے ان کے انٹرپرائز میں ہونے والی چیزوں کی بصیرت حاصل ہوتی ہے۔


اور یہ اس سے تھوڑا سا مختلف ہے جو زیادہ تر لوگ بڑے اعداد و شمار میں دیکھ رہے ہیں ، تاکہ روایتی نقطہ نظر - ٹھیک ہے ، رواں برسوں کے روایتی - بڑے اعداد و شمار کے ساتھ نقطہ نظر نے اسے مختلف ذرائع سے حاصل کیا ہے اور پھر اسے کسی بڑے حوض یا جھیل میں ڈھیر کریں یا جو بھی آپ اسے فون کرنا چاہتے ہو۔ اور پھر اس پر عمل کریں جب آپ کو اس پر کوئ استفسار کرنے کی ضرورت ہو۔ بڑے پیمانے پر تاریخی تجزیہ چلانے کے لئے یا اعداد و شمار کی بڑی مقدار میں اعداد و شمار سے صرف استفسار کرنا۔ اب جو کچھ استعمال کے معاملات میں کام کرتا ہے۔ لیکن اگر آپ اپنے انٹرپرائز میں متحرک بننا چاہتے ہیں تو ، اگر آپ واقعتا یہ بتانا چاہتے ہیں کہ جب دن کے اختتام یا ہفتے کے اختتام کی طرف کوئی غلط قسم کا واقع ہوا ہے تو اس کے بجائے آپ کو کیا ہو رہا ہے ، تو آپ کو واقعتا move آگے بڑھنے کی ضرورت ہے۔ اصل وقت پر


اور وہ چیزوں کو تھوڑا سا بدل دیتا ہے۔ یہ پروسیسنگ وسط میں منتقل کرتا ہے۔ لہذا آپ مؤثر طریقے سے اعداد و شمار کی بڑی مقدار کو لے رہے ہیں جو انٹرپرائز کے اندر مستقل طور پر تیار کیا جارہا ہے اور جیسے ہی آپ اسے حاصل کرتے ہو اس پر کارروائی کررہے ہیں۔ اور چونکہ آپ اسے حاصل کرتے ہی اس پر کارروائی کررہے ہیں ، لہذا آپ کو ہر چیز کو ذخیرہ کرنے کی ضرورت نہیں ہے۔ آپ صرف اہم معلومات یا ان چیزوں کو اسٹور کرسکتے ہیں جن کی آپ کو یاد رکھنے کی ضرورت ہے جو واقعتا actually ہوا ہے۔ لہذا اگر آپ سڑک پر چلنے والی گاڑیوں کے GPS مقام کا پتہ لگارہے ہیں تو ، آپ کو واقعی پرواہ نہیں ہے کہ وہ ہر سیکنڈ میں کہاں ہیں ، آپ کو یہ سیکنڈ کرنے کی ضرورت نہیں ہے کہ وہ ہر سیکنڈ کہاں ہیں۔ آپ کو صرف اس کی پرواہ کرنے کی ضرورت ہے ، کیا انہوں نے یہ جگہ چھوڑ دی ہے؟ کیا وہ اس مقام پر پہنچے ہیں؟ کیا انہوں نے فری وے چلائی ہے ، یا نہیں؟


لہذا اس پر غور کرنا واقعی اہم ہے کہ جیسے جیسے زیادہ سے زیادہ اعداد و شمار تیار ہوتے ہیں ، پھر تین بمقابلہ۔ رفتار بنیادی طور پر یہ طے کرتی ہے کہ ہر دن کتنا ڈیٹا بنتا ہے۔ جتنا زیادہ ڈیٹا پیدا ہوتا ہے اس سے آپ کو ذخیرہ کرنا پڑتا ہے۔ اور جتنا زیادہ آپ کو ذخیرہ کرنا ہے ، اس پر عملدرآمد میں زیادہ وقت درکار ہوتا ہے۔ لیکن اگر آپ اسے حاصل کرنے کے ساتھ ہی اس پر عملدرآمد کرسکتے ہیں تو آپ کو واقعی بہت بڑا فائدہ ہوگا اور آپ اس پر اپنا رد عمل ظاہر کرسکتے ہیں۔ آپ کو بتایا جاسکتا ہے کہ بعد میں تلاش کرنے کی بجائے چیزیں ہو رہی ہیں۔


لہذا ہمارا پلیٹ فارم انتہائی اسکیل ایبل ڈیزائن کیا گیا ہے۔ اس کے تین بڑے ٹکڑے ہیں the حصول کا ٹکڑا ، پروسیسنگ کا ٹکڑا اور پھر پلیٹ فارم کے ڈیلیوری ویزائلائزیشن کے ٹکڑے۔ حصول کی طرف ، ہم صرف مشین سے تیار کردہ لاگ ڈیٹا جیسے ویب لاگ یا ایپلیکیشنز میں نہیں دیکھ رہے ہیں جس میں پیدا ہونے والے دوسرے تمام لاگز موجود ہیں۔ We can also go in and do change data capture from databases. So that basically enables us to, we've seen the ETL side that Will presented and traditional ETL you have to run queries against the databases. We can be told when things happen in the database. We change it and we capture it and receive those events. And then there's obviously the social feeds and live device data that's being pumped to you over TCP or ACDP sockets.


There's tons of different ways of getting data. And talking of volume and velocity, we're seeing volumes that are billions of events per day, right? So it's large, large amounts of data that is coming in and needs to be processed.


That is processed by a cluster of our servers. The servers all have the same architecture and are all capable of doing the same things. But you can configure them to, sort of, do different things. And within the servers we have a high-speed query processing layer that enables you to do some real-time analytics on the data, to do enrichments of the data, to do event correlation, to track things happening within time windows, to do predictive analytics based on patterns that are being seen in the data. And that data can then be stored in a variety places - the traditional RDBMS, enterprise data warehouse, Hadoop, big data infrastructure.


And the same live data can also be used to power real-time data-driven apps. Those apps can have a real-time view of what's going on and people can also be alerted when important things happen. So rather than having to go in at the end of the day and find out that something bad really happened earlier on the day, you could be alerted about it the second we spot it and it goes straight to the page draw down to find out what's going on.


So it changes the paradigm completely from having to analyze data after the fact to being told when interesting things are happening. And our platform can then be used to build data-driven applications. And this is really where we're focusing, is building out these applications. For customers, with customers, with a variety of different partners to show true value in real-time data analysis. So that allows people that, or companies that do site applications, for example, to be able track customer usage over time and ensure that the quality of service is being met, to spot real-time fraud or money laundering, to spot multiple logins or hack attempts and those kind of security events, to manage things like set-top boxes or other devices, ATM machines to monitor them in real time for faults, failures that have happened, could happen, will happen in the future based on predictive analysis. And that goes back to the point of streamlining operations that Eric mentioned earlier, to be able to spot when something's going to happen and organize your business to fix those things rather than having to call someone out to actually do something after the fact, which is a lot more expensive.


Consumer analytics is another piece to be able to know when a customer is doing something while they're still there in your store. Data sent to management to be able to in real time monitor resource usage and change where things are running and to be able to know about when things are going to fail in a much more timely fashion.


So that's our products in a nutshell and I'm sure we'll come back to some of these things in the Q&A session. شکریہ


Eric: Yes, indeed. Great job. Okay good. And now next stop in our lightning round, we've got Frank Sanders calling in from MarkLogic. I've known about these guys for a number of years, a very, very interesting database technology. So Frank, I'm turning it over to you. Just click anywhere in that. Use the down arrow on your keyboard and you're off to the races. تم وہاں جاؤ۔


Frank Sanders: Thank you very much, Eric. So as Eric mentioned, I'm with a company called MarkLogic. And what MarkLogic does is we provide an enterprise NoSQL database. And perhaps, the most important capability that we bring to the table with regards to that is the ability to actually bring all of these disparate sources of information together in order to analyze, search and utilize that information in a system similar to what you're used to with traditional relational systems, right?


And some of the key features that we bring to the table in that regard are all of the enterprise features that you'd expect from a traditional database management system, your security, your HA, your DR, your backup are in store, your asset transactions. As well as the design that allows you to scale out either on the cloud or in the commodity hardware so that you can handle the volume and the velocity of the information that you're going to have to handle in order to build and analyze this sort of information.


And perhaps, the most important capability is that fact that we're scheme agnostic. What that means, practically, is that you don't have to decide what your data is going to look like when you start building your applications or when you start pulling those informations together. But over time, you can incorporate new data sources, pull additional information in and then use leverage and query and analyze that information just as you would with anything that was there from the time that you started the design. Okay?


So how do we do that? How do we actually enable you to load different sorts of information, whether it be text, RDF triples, geospatial data, temporal data, structured data and values, or binaries. And the answer is that we've actually built our server from the ground up to incorporate search technology which allows you to put information in and that information self describes and it allows you to query, retrieve and search that information regardless of its source or format.


And what that means practically is that - and why this is important when you're doing analysis - is that analytics and information is most important ones when it's properly contextualized and targeted, right? So a very important key part of any sort of analytics is search, and the key part is search analytics. You can't really have one without the other and successfully achieve what you set out to achieve. Right?


And I'm going to talk briefly about three and a half different use cases of customers that we have at production that are using MarkLogic to power this sort of analytics. ٹھیک ہے. So the first such customer is Fairfax County. And Fairfax County has actually built two separate applications. One is based around permitting and property management. And the other, which is probably a bit more interesting, is the Fairfax County police events application. What the police events application actually does is it pulls information together like police reports, citizen reports and complaints, Tweets, other information they have such as sex offenders and whatever other information that they have access to from other agencies and sources. Then they allow them to visualize that and present this to the citizens so they can do searches and look at various crime activity, police activity, all through one unified geospatial index, right? So you can ask questions like, "what is the crime rate within five miles" or "what crimes occurred within five miles of my location?" ٹھیک ہے.


Another user that we've got, another customer that we have is OECD. Why OECD is important to this conversation is because in addition to everything that we've enabled for Fairfax County in terms of pulling together information, right; all the information that you would get from all various countries that are members of the OECD that they report on from an economic perspective. We actually laid a target drill into that, right. So you can see on the left-hand side we're taking the view of Denmark specifically and you can kind of see a flower petal above it that rates it on different axes. Right? And that's all well and good. But what the OECD has done is they've gone a step further.


In addition to these beautiful visualizations and pulling all these information together, they're actually allowing you in real time to create your own better life index, right, which you can see on the right-hand side. So what you have there is you have a set of sliders that actually allow you to do things like rank how important housing is to you or income, jobs, community, education, environment, civic engagement, health, life satisfaction, safety and your work/life balance. And dynamically based on how you are actually inputting that information and weighting those things, MarkLogic's using its real-time indexing capability and query capability to actually then change how each and every one of these countries is ranked to give you an idea of how well your country or your lifestyle maps through a given country. Okay?


And the final example that I'm going to share is MarkMail. And what MarkMail really tries to demonstrate is that we can provide these capabilities and you can do the sort of analysis not only on structured information or information that's coming in that's numerical but actually on more loosely structured, unstructured information, right? Things like emails. And what we've seen here is we're actually pulling information like geolocation, sender, company, stacks and concepts like Hadoop being mentioned within the context of an email and then visualizing it on the map as well as looking at who those individuals and what list across that, a sent and a date. This where you're looking at things that are traditionally not structured, that may be loosely structured, but are still able to derive some structured analysis from that information without having to go to a great length to actually try and structure it or process it at a time. And that's it.


Eric: Hey, okay good. And we got one more. We've got Hannah Smalltree from Treasure Data, a very interesting company. And this is a lot of great content, folks. Thank you so much for all of you for bringing such good slides and such good detail. So Hannah, I just gave the keys to you, click anywhere and use the down arrow on your keyboard. You got it. اسے دور لے.


Hannah Smalltree: Thank you so much, Eric. This is Hannah Smalltree from Treasure Data. I'm a director with Treasure Data but I have a past as a tech journalist, which means that I appreciate two things. First of all, these can be long to sit through a lot of different descriptions of technology, and it can all sound like it runs together so I really want to focus on our differentiator. And the real-world applications are really important so I appreciate that all of my peers have been great about providing those.


Treasure Data is a new kind of big data service. We're delivered entirely on the cloud in a software as a service or managed-service model. So to Dr. Bloor's point earlier, this technology can be really hard and it can be very time consuming to get up and running. With Treasure Data, you can get all of these kinds of capabilities that you might get in a Hadoop environment or a complicated on-premise environment in the cloud very quickly, which is really helpful for these new big data initiatives.


Now we talk about our service in a few different phases. We offer some very unique collection capabilities for collecting streaming data so particularly event data, other kinds of real-time data. We'll talk a little bit more about those data types. That is a big differentiator for our service. As you get into big data or if you are already in it then you know that collecting this data is not trivial. When you think about a car with 100 sensors sending data every minute, even those 100 sensors sending data every ten minutes, that adds up really quickly as you start to multiply the amount of products that you have out there with sensors and it quickly becomes very difficult to manage. So we are talking with customers who have millions, we have customers who have billions of rows of data a day that they're sending us. And they're doing that as an alternative to try and to manage that themselves in a complicated Amazon infrastructure or even try to bring it into their own environment.


We have our own cloud storage environment. We manage it. We monitor it. We have a team of people that's doing all that tuning for you. And so the data flows in, it goes into our managed storage environment.


Then we have embedded query engines so that your analyst can go in and run queries and do some initial data discovery and exploration against the data. We have a couple of different query engines for it actually now. You can use SQL syntax, which your analysts probably know and love, to do some basic data discovery, to do some more complex analytics that are user-defined functions or even to do things as simple as aggregate that data and make it smaller so that you can bring it into your existing data warehouse environment.


You can also connect your existing BI tools, your Tableau, is a big partner of ours; but really most BIs, visualization or analytics tools can connect via our industry standard JDBC and ODBC drivers. So it gives you this complete set of big data capabilities. You're allowed to export your queries results or data sets anytime for free, so you can easily integrate that data. Treat this as a data refinery. I like to think of it more as a refinery than a lake because you can actually do stuff with it. You can go through, find the valuable information and then bring it into your enterprise processes.


The next slide, we talk about the three Vs of big data - some people say four or five. Our customers tend to struggle with the volume and velocity of the data coming at them. And so to get specific about the data types - Clickstream, Web access logs, mobile data is a big area for us, mobile application logs, application logs from custom Web apps or other applications, event logs. And increasingly, we have a lot of customers dealing with sensor data, so from wearable devices, from products, from automotive, and other types of machine data. So when I say big data, that's the type of big data that I'm talking about.


Now, a few use cases in perspective for you - we work with a retailer, a large retailer. They are very well known in Asia. They're expanding here in the US. You'll start to see stores; they're often called Asian IKEA, so, simple design. They have a loyalty app and a website. And in fact, using Treasure Data, they were able to deploy that loyalty app very quickly. Our customers get up and running within days or weeks because of our software and our service architecture and because we have all of the people doing all of that hard work behind the scenes to give you all of those capabilities as a service.


So they use our service for mobile application analytics looking at the behavior, what people are clicking on in their mobile loyalty application. They look at the website clicks and they combine that with our e-commerce and POS data to design more efficient promotions. They actually wanted to drive people into stores because they found that people, when they go into stores spend more money and I'm like that; to pick up things, you spend more money.


Another use case that we're seeing in digital video games, incredible agility. They want to see exactly what is happening in their game, and make changes to that game even within hours of its release. So for them, that real-time view is incredibly important. We just released a game but we noticed in the first hour that everyone is dropping off at Level 2; how are we going to change that? They might change that within the same day. So real time is very important. They're sending us billions of event logs per day. But that could be any kind of mobile application where you want some kind of real-time view into how somebody's using that.


And finally, a big area for us is our product behavior and sensor analytics. So with sensor data that's in cars, that's in other kinds of machines, utilities, that's another area for us, in wearable devices. We have research and development teams that want to quickly know what the impact of a change to a product is or people interested in the behavior of how people are interacting with the product. And we have a lot more use cases which, of course, we're happy to share with you.


And then finally, just show you how this can fit into your environment, we offer again the capability to collect that data. We have very unique collection technology. So again, if real-time collection is something that you're struggling with or you anticipate struggling with, please come look at the Treasure Data service. We have really made capabilities for collecting streaming data. You can also bulk load your data, store it, analyze it with our embedded query engines and then, as I mentioned, you can export it right to your data warehouse. I think Will mentioned the need to introduce big data into your existing processes. So not go around or create a new silo, but how do you make that data smaller and then move it into your data warehouse and you can connect to your BI, visualization and advanced analytics tools.


But perhaps, the key points I want to leave you with are that we are managed service, that's software as a service; it's very cost effective. A monthly subscription service starting at a few thousand dollars a month and we'll get you up and running in a matter of days or weeks. So compare that with the cost of months and months of building your own infrastructure and hiring those people and finding it and spending all that time on infrastructure. If you're experimenting or if you need something yesterday, you can get up and running really quickly with Treasure Data.


And I'm just pointing you to our website and to our starter service. If you're a hands-on person who likes to play, please check out our starter service. You can get on, no credit card required, just name and email, and you can play with our sample data, load up your own data and really get a sense of what we're talking about. So thanks so much. Also, check our website. We were named the Gartner Cool Vendor in Big Data this year, very proud of that. And you can also get a copy of that report for free on our website as well as many other analyst white papers. So thanks so much.


Eric: Okay, thank you very much. We've got some time for questions here, folks. We'll go a little bit long too because we've got a bunch of folks still on the line here. And I know I've got some questions myself, so let me go ahead and take back control and then I'm going to ask a couple of questions. Robin and Kirk, feel free to dive in as you see fit.


So let me go ahead and jump right to one of these first slides that I checked out from Pentaho. So here, I love this evolving big data architecture, can you kind of talk about how it is that this kind of fits together at a company? Because obviously, you go into some fairly large organization, even a mid-size company, and you're going to have some people who already have some of this stuff; how do you piece this all together? Like what does the application look like that helps you stitch all this stuff together and then what does the interface look like?


Will: Great question. The interfaces are a variety depending on the personas involved. But as an example, we like to tell the story of - one of the panelists mentioned the data refinery use case - we see that a lot in customers.


One of our customer examples that we talk about is Paytronix, where they have that traditional EDW data mart environment. They are also introducing Hadoop, Cloudera in particular, and with various user experiences in that. So first there's an engineering experience, so how do you wire all these things up together? How do you create the glue between the Hadoop environment and EDW?


And then you have the business user experience which we talked about, a number of BI tools out there, right? Pentaho has a more embeddable OEM BI tool but there are great ones out there like Tableau and Excel, for instance, where folks want to explore the data. But usually, we want to make sure that the data is governed, right? One of the questions in the discussions, what about single-version experience, how do you manage that, and without the technology like Pentaho data integration to blend that data together not on the glass but in the IT environments. So it really protects and governs the data and allows for a single experience for the business analyst and business users.


Eric: Okay, good. That's a good answer to a difficult question, quite frankly. And let me just ask the question to each of the presenters and then maybe Robin and Kirk if you guys want to jump in too. So I'd like to go ahead and push this slide for WebAction which I do think is really a very interesting company. Actually, I know Sami Akbay who is one of the co-founders, as well. I remember talking to him a couple years ago and saying, "Hey man, what are you doing? What are you up to? I know you've got to be working on something." And of course, he was. He was working on WebAction, under the covers here.


A question came in for you, Steve, so I'll throw it over to you, of data cleansing, right? Can you talk about these components of this real-time capability? How do you deal with issues like data cleansing or data quality or how does that even work?


Steve: So it really depends on where you're getting your feeds from. Typically, if you're getting your feeds from a database as you change data capture then, again, it depends there on how the data was entered. Data cleansing really becomes a problem when you're getting your data from multiple sources or people are entering it manually or you kind of have arbitrary texts that you have to try and pull things out of. And that could certainly be part of the process, although that type simply doesn't lend itself to true, kind of, high-speed real-time processing. Data cleansing, typically, is an expensive process.


So it may well be that that could be done after the fact in the store site. But the other thing that the platform is really, really good at is correlation, so in correlation and enrichment of data. You can, in real time, correlate the incoming data and check to see whether it matches a certain pattern or it matches data that's being retrieved from a database or Hadoop or some other store. So you can correlate it with historical data, is one thing you could do.


The other thing that you can do is basically do analysis on that data and see whether it kind of matches certain required patterns. And that's something that you can also do in real time. But the traditional kind of data cleansing, where you're correcting company names or you're correcting addresses and all those types of things, those should probably be done in the source or kind of after the fact, which is very expensive and you pray that they won't do those in real time.


Eric: Yeah. And you guys are really trying to address the, of course, the real-time nature of things but also get the people in time. And we talked about, right, I mentioned at the top of the hour, this whole window of opportunity and you're really targeting specific applications at companies where you can pull together data not going the usual route, going this alternate route and do so in such a low latency that you can keep customers. For example, you can keep people satisfied and it's interesting, when I talked to Sami at length about what you guys are doing, he made a really good point. He said, if you look at a lot of the new Web-based applications; let's look at things like Twitter, Bitly or some of these other apps; they're very different than the old applications that we looked at from, say, Microsoft like Microsoft Word.


I often use Microsoft as sort of a whipping boy and specifically Word to talk about the evolution of software. Because Microsoft Word started out as, of course, a word processing program. I'm one of those people who remember Word Perfect. I loved being able to do the reveal keys or the reveal code, basically, which is where you could see the actual code in there. You could clean something up if your bulleted list was wrong, you can clean it up. Well, Word doesn't let you do that. And I can tell you that Word embeds a mountain of code inside every page that you do. If anyone doesn't believe me, then go to Microsoft Word, type "Hello World" and then do "Export as" or "Save as" .html. Then open that document in a text editor and that will be about four pages long of codes just for two words.


So you guys, I thought it was very interesting and it's time we talked about that. And that's where you guys focus on, right, is identifying what you might call cross-platform or cross-enterprise or cross-domain opportunities to pull data together in such quick time that you can change the game, right?


Steve: Yeah, absolutely. And one of the keys that, I think, you did elude to, anyway, is you really want to know about things happening before your customers do or before they really, really become a problem. As an example are the set-top boxes. Cable boxes, they emit telemetry all the time, loads and loads of telemetry. And not just kind of the health of the box but it's what you're watching and all that kind of stuff, right? The typical pattern is you wait till the box fails and then you call your cable provider and they'll say, "Well, we will get to you sometime between the hours of 6am and 11pm in the entire month of November." That isn't a really good customer experience.


But if they could analyze that telemetry in real time then they could start to do things like that we know these boxes are likely to fail in the next week based historical patterns. Therefore we'll schedule our cable repair guy to turn up at this person's house prior to it failing. And we'll do that in a way that suits us rather than having to send him from Santa Cruz up to Sunnyvale. We'll schedule everything in a nice order, traveling salesman pattern, etc., so that we can optimize our business. And so the customer is happy because they don't have a failing cable box. And the cable provider is happy because they have just streamlined things and they don't have to send people all over the place. That's just a very quick example. But there are tons and tons of examples where knowing about things as they happen, before they happen, can save companies a fortune and really, really improve their customer relations.


Eric: Yeah, right. No doubt about it. Let's go ahead and move right on to MarkLogic. As I mentioned before, I've known about these guys for quite some time and so I'll bring you into this, Frank. You guys were far ahead of the whole big data movement in terms of building out your application, it's really database. But building it out and you talked about the importance of search.


So a lot of people who followed the space know that a lot of the NoSQL tools out there are now bolting on search capabilities whether through third parties or they try to do their own. But to have that search already embedded in that, baked-in so to speak, really is a big deal. Because if you think about it, if you don't have SQL, well then how do you go in and search the data? How do you pull from that data resource? And the answer is to typically use search to get to the data that you're looking for, right?


So I think that's one of the key differentiators for you guys aside being able to pull data from all these different sources and store that data and really facilitate this sort of hybrid environment. I'm thinking that search capability is a big deal for you, right?


Frank: Yeah, absolutely. In fact, that's the only way to solve the problem consistently when you don't know what all the data is going to look like, right? If you cannot possibly imagine all the possibilities then the only way to make sure that you can locate all the information that you want, that you can locate it consistently and you can locate it regardless of how you evolve your data model and your data sets is to make sure you give people generic tools that allow them to interrogate that data. And the easiest, most intuitive way to do that is through a search paradigm, right? And through the same approach in search takes where we created an inverted index. You have entries where you can actually look into those and then find records and documents and rows that actually contain the information you're looking for to then return it to the customer and allow them to process it as they see fit.


Eric: Yeah and we talked about this a lot, but you're giving me a really good opportunity to kind of dig into it - the whole search and discovery side of this equation. But first of all, it's a lot of fun. For anyone who likes that stuff, this is the fun part, right? But the other side of the equation or the other side of the coin, I should say, is that it really is an iterative process. And you got to be able to - here I'll be using some of the marketing language - have that conversation with the data, right? In other words, you need to be able to test the hypothesis, play around with it and see how that works. Maybe that's not there, test something else and constantly change things and iterate and search and research and just think about stuff. And that's a process. And if you have big hurdles, meaning long latencies or a difficult user interface or you got to go ask IT; that just kills the whole analytical experience, right?


So it's important to have this kind of flexibility and to be able to use searches. And I like the way that you depicted it here because if we're looking at searching around different, sort of, concepts or keys, if you will, key values and they're different dimensions. You want to be able to mix and match that stuff in order to enable your analyst to find useful stuff, right?


Frank: Yeah, absolutely. I mean, hierarchy is an important thing as well, right? So that when you include something like a title, right, or a specific term or value, that you can actually point to the correct one. So if you're looking for a title of an article, you're not getting titles of books, right? Or you're not getting titles of blog posts. The ability to distinguish between those and through the hierarchy of the information is important as well.


You pointed out earlier the development, absolutely, right? The ability for our customers to actually pull in new data sources in a matter of hours, start to work with them, evaluate whether or not they're useful and then either continue to integrate them or leave them by the wayside is extremely valuable. When you compare it to a more traditional application development approach where what you end up doing is you have to figure out what data you want to ingest, source the data, figure out how you're going to fit it in your existing data model or model that in, change that data model to incorporate it and then actually begin the development, right? Where we kind of turn that on our head and say just bring it to us, allow you to start doing the development with it and then decide later whether or not you want to keep it or almost immediately whether or not it's of value.


Eric: Yeah, it's a really good point. That's a good point. So let me go ahead and bring in our fourth presenter here, Treasure Data. I love these guys. I didn't know much about them so I'm kind of kicking myself. And then Hannah came to us and told us what they were doing. And Hannah mentioned, she was a media person and she went over to the dark side.


Hannah: I did, I defected.


Eric: That's okay, though, because you know what we like in the media world. So it's always nice when a media person goes over to the vendor side because you understand, hey, this stuff is not that easy to articulate and it can be difficult to ascertain from a website exactly what this product does versus what that product does. And what you guys are talking about is really quite interesting. Now, you are a cloud-managed service. So any data that someone wants to use they upload to your cloud, is that right? And then you will ETL or CDC, additional data up to the cloud, is that how that works?


Hannah: Well, yeah. So let me make an important distinction. Most of the data, the big data, that our customers are sending us is already outside the firewall - mobile data, sensor data that's in products. And so we're often used as an interim staging area. So data is not often coming from somebody's enterprise into our service so much as it's flowing from a website, a mobile application, a product with lots of sensors in it - into our cloud environment.


Now if you'd like to enrich that big data in our environment, you can definitely bulk upload some application data or some customer data to enrich that and do more of the analytics directly in the cloud. But a lot of our value is around collecting that data that's already outside the firewall, bringing together into one place. So even if you do intend to bring this up sort of behind your firewall and do more of your advanced analytics or bring it into your existing BI or analytics environment, it's a really good staging point. Because you don't want to bring a billion rows of day into your data warehouse, it's not cost effective. It's even difficult if you're planning to store that somewhere and then batch upload.


So we're often the first point where data is getting collected that's already outside firewall.


Eric: Yeah, that's a really good point, too. Because a lot of companies are going to be nervous about taking their proprietary customer data, putting it up in the cloud and to manage the whole process.


Hannah: Yeah.


Eric: And what you're talking about is really getting people a resource for crunching those heavy duty numbers of, as you suggest, data that's third party like mobile data and the social data and all that kind of fun stuff. That's pretty interesting.


Hannah: Yeah, absolutely. And probably they are nervous about the products because the data are already outside. And so yeah, before bringing it in, and I really like that refinery term, as I mentioned, versus the lake. So can you do some basic refinery? Get the good stuff out and then bring it behind the firewall into your other systems and processes for deeper analysis. So it's really all data scientists can do, real-time data exploration of this new big data that's flowing in.


Eric: Yeah, that's right. Well, let me go ahead and bring in our analysts and we'll kind of go back in reverse order. I'll start with you, Robin, with respect to Treasure Data and then we'll go to Kirk for some of the others. And then back to Robin and back to Kirk just to kind of get some more assessment of this.


And you know the data refinery, Robin, that Hannah is talking about here. I love that concept. I've heard only a few people talking about it that way but I do think that you certainly mentioned that before. And it really does speak to what is actually happening to your data. Because, of course, a refinery, it basically distills stuff down to its root level, if you think about oil refineries. I actually studied this for a while and it's pretty basic, but the engineering that goes into it needs to be exactly correct or you don't get the stuff that you want. So I think it's a great analogy. What do you think about this whole concept of the Treasure Data Cloud Service helping you tackle some of those very specific analytical needs without having to bring stuff in-house?


Robin: Well, I mean, obviously depending on the circumstances to how convenient that is. But anybody that's actually got already made process is already going to put you ahead of the game if you haven't got one yourself. This is the first takeaway for something like that. If somebody assembled something, they've done it, it's proven in the marketplace and therefore there's some kind of value in effect, well, the work is already gone into it. And there's also the very general fact that refining of data is going to be a much bigger issue than it ever was before. I mean, it is not talked about, in my opinion anyway, it's not talked about as much as it should be. Simply apart from the fact that size of the data has grown and the number of sources and the variety of those sources has grown quite considerably. And the reliability of the data in terms of whether it's clean, they need to disambiguate the data, all sorts of issues that rise just in terms of the governance of the data.


So before you actually get around to being able to do reliable analysis on it, you know, if your data's dirty, then your results will be skewed in some way or another. So that is something that has to be addressed, that has to be known about. And the triangulator of providing, as far as I can see, a very viable service to assist in that.


Eric: Yes, indeed. Well, let me go ahead and bring Kirk back into the equation here just real quickly. I wanted to take a look at one of these other slides and just kind of get your impression of things, Kirk. So maybe let's go back to this MarkLogic slide. And by the way, Kirk provided the link, if you didn't see it folks, to some of his class discovery slides because that's a very interesting concept. And I think this is kind of brewing at the back of my mind, Kirk, as I was talking about this a moment ago. This whole question that one of the attendees posed about how do you go about finding new classes. I love this topic because it really does speak to the sort of, the difficult side of categorizing things because I've always had a hard time categorizing stuff. I'm like, "Oh, god, I can fit in five categories, where do I put it?" So I just don't want to categorize anything, right?


And that's why I love search, because you don't have to categorize it, you don't have to put it in the folder. Just search for it and you'll find it if you know how to search. But if you're in that process of trying to segment, because that's basically what categorization is, it's segmenting; finding new classes, that's kind of an interesting thing. Can you kind of speak to the power of search and semantics and hierarchies, for example, as Frank was talking about with respect to MarkLogic and the role that plays in finding new classes, what do you think about that?


Kirk: Well, first of all, I'd say you are reading my mind. Because that was what I was thinking of a question even before you were talking, this whole semantic piece here that MarkLogic presented. And if you come back to my slide, you don't have to do this, but back on the slide five on what I presented this afternoon; I talked about this semantics that the data needs to be captured.


So this whole idea of search, there you go. I firmly believe in that and I've always believed in that with big data, sort of take the analogy of Internet, I mean, just the Web, I mean having the world knowledge and information and data on a Web browser is one thing. But to have it searchable and retrievable efficiently as one of the big search engine companies provide for us, then that's where the real power of discovery is. Because connecting the search terms, sort of the user interests areas to the particular data granule, the particular webpage, if you want to think the Web example or the particular document if you're talking about document library. Or a particular customer type of segment if that's your space.


And semantics gives you that sort of knowledge layering on top of just a word search. If you're searching for a particular type of thing, understanding that a member of a class of such things can have a certain relationship to other things. Even include that sort of relationship information and that's a class hierarchy information to find things that are similar to what you're looking for. Or sometimes even the exact opposite of what you're looking for, because that in a way gives you sort of additional core of understanding. Well, probably something that's opposite of this.


Eric: Yeah.


Kirk: So actually understand this. I can see something that's opposite of this. And so the semantic layer is a valuable component that's frequently missing and it's interesting now that this would come up here in this context. Because I've taught a graduate course in database, data mining, learning from data, data science, whatever you want to call it for over a decade; and one of my units in this semester-long course is on semantics and ontology. And frequently my students would look at me like, what does this have to do with what we're talking about? And of course at the end, I think we do understand that putting that data in some kind of a knowledge framework. So that, just for example, I'm looking for information about a particular customer behavior, understanding that that behavior occurs, that's what the people buy at a sporting event. What kind of products do I offer to my customers when I notice on their social media - on Twitter or Facebook - that they say they're going to a sporting event like football, baseball, hockey, World Cup, whatever it might be.


Okay, so sporting event. So they say they're going to, let's say, a baseball game. Okay, I understand that baseball is a sporting event. I understand that's usually a social and you go with people. I understand that it's usually in an outdoor space. I mean, understanding all those contextual features, it enables sort of, more powerful, sort of, segmentation of the customer involved and your sort of personalization of the experience that you're giving them when, for example, they're interacting with your space through a mobile app while they're sitting in a stadium.


So all that kind of stuff just brings so much more power and discovery potential to the data in that sort of indexing idea of indexing data granules by their semantic place and the knowledge space is really pretty significant. And I was really impressed that came out today. I think it's sort of a fundamental thing to talk.


Eric: Yeah, it sure is. It's very important in the discovery process, it's very important in the classification process. And if you think about it, Java works in classes. It's an object oriented, I guess, more or less, you could say form of programming and Java works in classes. So if you're actually designing software, this whole concept of trying to find new classes is actually pretty important stuff in terms of the functionality you're trying to deliver. Because especially in this new wild, wooly world of big data where you have so much Java out there running so many of these different applications, you know there are 87, 000 ways or more to get anything done with a computer, to get any kind of bit of functionality done.


One of my running jokes when people say, "Oh, you can build a data warehouse using NoSQL." I'm like, "well, you could, yeah, that's true. You could also build a data warehouse using Microsoft Word." It's not the best idea, it's not going to perform very well but you can actually do it. So the key is you have to find the best way to do something.


Go ahead.


Kirk: Let me just respond to that. It's interesting you mentioned the Java class example which didn't come into my mind until you said it. One of the aspects of Java and classes and that sort of object orientation is that there are methods that bind to specific classes. And this is really the sort of a message that I was trying to send in my presentation and that once you understand some of these data granules - these knowledge nuggets, these tags, these annotations and these semantic labels - then you can bind a method to that. They basically have this reaction or this response and have your system provide this sort of automated, proactive response to this thing the next time that we see it in the data stream.


So that concept of binding actions and methods to specific class is really one of the powers of automated real-time analytics. And I think that you sort of hit on something.


Eric: Good, good, good. Well, this is good stuff. So let's see, Will, I want to hand it back to you and actually throw a question to you from the audience. We got a few of those in here too. And folks, we're going long because we want to get some of these great concepts in these good questions.


So let me throw a question over to you from one of the audience numbers who's saying, "I'm not really seeing how business intelligence is distinguishing cause and effect." In other words, as the systems are making decisions based on observable information, how do they develop new models to learn more about the world? It's an interesting point so I'm hearing a cause-and-effect correlation here, root cause analysis, and that's some of that sort of higher-end stuff in the analytics that you guys talk about as opposed to traditional BI, which is really just kind of reporting and kind of understanding what happened. And of course, your whole direction, just looking at your slide here, is moving toward that predictive capability toward making those decisions or at least making those recommendations, right? So the idea is that you guys are trying to service the whole range of what's going on and you're understanding that the key, the real magic, is in the analytical goal component there on the right.


Will: Absolutely. I think that question is somewhat peering into the future, in the sense that data science, as I mentioned before, we saw the slide with the requirements of the data scientist; it's a pretty challenging role for someone to be in. They have to have that rich knowledge of statistics and science. You need to have the domain knowledge to apply your mathematical knowledge to the domains. So what we're seeing today is there aren't these out-of-the-box predictive tools that a business user, like, could pull up in Excel and automatically predict their future, right?


It does require that advanced knowledge in technology at this stage. Now someday in the future, it may be that some of these systems, these scale-out systems become sentient and start doing some wild stuff. But I would say at this stage, you still have to have a data scientist in the middle to continue to build models, not these models. These predictive models around data mining and such are highly tuned in and built by the data scientist. They're not generated on their own, if you know what I mean.


Eric: Yeah, exactly. That's exactly right. And one of my lines is "Machines don't lie, at least not yet."


Will: Not yet, exactly.


Eric: I did read an article - I have to write something about this - about some experiment that was done at a university where they said that these computer programs learned to lie, but I got to tell you, I don't really believe it. We'll do some research on that, folks.


And for the last comment, so Robin I'll bring you back in to take a look at this WebAction platform, because this is very interesting. This is what I love about a whole space is that you get such different perspectives and different angles taken by the various vendors to serve very specific needs. And I love this format for our show because we got four really interesting vendors that are, frankly, not really stepping on each others' toes at all. Because we're all doing different bits and pieces of the same overall need which is to use analytics, to get stuff done.


But I just want to get your perspective on this specific platform and their architecture. How they're going about doing things. I find it pretty compelling. آپ کیا سوچتے ہیں؟


Robin: Well, I mean, it's pointed at extremely fast results from streaming data and as search, you have to architect for that. I mean, you're not going to get away with doing anything, amateurish, as we got any of that stuff. I hear this is extremely interesting and I think that one of the things that we witnessed over the past; I mean I think you and I, our jaw has been dropping more and more over the past couple of years as we saw more and more stuff emerge that was just like extraordinarily fast, extraordinarily smart and pretty much unprecedented.


This is obviously, WebAction, this isn't its first rodeo, so to speak. It's actually it's been out there taking names to a certain extent. So I don't see but supposed we should be surprised that the architecture is fairly switched but it surely is.


Eric: Well, I'll tell you what, folks. We burned through a solid 82 minutes here. I mean, thank you to all those folks who have been listening the whole time. If you have any questions that were not answered, don't be shy, send an email to yours truly. We should have an email from me lying around somewhere. And a big, big thank you to both our presenters today, to Dr. Kirk Borne and to Dr. Robin Bloor.


Kirk, I'd like to further explore some of that semantic stuff with you, perhaps in a future webcast. Because I do think that we're at the beginning of a very new and interesting stage now. What we're going to be able to leverage a lot of the ideas that the people have and make them happen much more easily because, guess what, the software is getting less expensive, I should say. It's getting more usable and we're just getting all this data from all these different sources. And I think it's going to be a very interesting and fascinating journey over the next few years as we really dig into what this stuff can do and how can it improve our businesses.


So big thank you to Techopedia as well and, of course, to our sponsors - Pentaho, WebAction, MarkLogic and Treasure Data. And folks, wow, with that we're going to conclude, but thank you so much for your time and attention. We'll catch you in about a month and a half for the next show. And of course, the briefing room keeps on going; radio keeps on going; all our other webcast series keep on rocking and rolling, folks. بہت بہت شکریہ. We'll catch you next time. خدا حافظ.

تجزیات کس طرح کاروبار کو بہتر بناسکتے ہیں؟ - ٹیک وائز ایپی ایسڈ 2 ٹرانسکرپٹ