سوال:
کیا کبھی بھی بڑے ڈیٹا میں بہت زیادہ ڈیٹا ہوسکتا ہے؟
A:سوال کا جواب ایک پُر اثر ہاں ہے۔ کسی بڑے ڈیٹا پروجیکٹ میں بہت زیادہ ڈیٹا ہوسکتا ہے۔
ایسے متعدد طریقے ہیں جن میں یہ ہوسکتا ہے ، اور مختلف وجوہات ہیں کہ پیشہ ور افراد کو صحیح نتائج حاصل کرنے کے ل any کسی بھی طرح سے ڈیٹا کو محدود اور درست کرنے کی ضرورت ہے۔ (بگ ڈیٹا کے بارے میں 10 بڑے افسانے پڑھیں۔)
عام طور پر ، ماہرین ایک ماڈل میں "شور" سے "سگنل" کو مختلف کرنے کے بارے میں بات کرتے ہیں۔ دوسرے الفاظ میں ، بڑے اعداد و شمار کے سمندر میں ، متعلقہ بصیرت والے اعداد و شمار کو نشانہ بنانا مشکل ہوجاتا ہے۔ کچھ معاملات میں ، آپ گھاس کے کٹے میں سوئی ڈھونڈ رہے ہیں۔
مثال کے طور پر ، فرض کیج a کہ کوئی کمپنی صارف کے اڈے کے ایک حصgmentے پر مخصوص بصیرت پیدا کرنے اور ان کی خریداری کو ایک خاص ٹائم فریم میں بڑے اعداد و شمار کو استعمال کرنے کی کوشش کر رہی ہے۔ (پڑھیں بڑا ڈیٹا کیا کرتا ہے؟)
بہت زیادہ اعداد و شمار کے اثاثوں کو لینے کے نتیجے میں بے ترتیب اعداد و شمار کی انٹیک ہوسکتی ہے جو متعلقہ نہیں ہے ، یا اس سے یہ بھی تعصب پیدا ہوسکتا ہے کہ اعداد و شمار کو ایک سمت یا کسی اور سمت میں لے جاتا ہے۔
اس سے یہ عمل بھی ڈرامائی طور پر سست ہوجاتا ہے ، کیونکہ کمپیوٹنگ سسٹم کو بڑے اور بڑے ڈیٹا سیٹوں کے ساتھ کشتی کرنا پڑتی ہے۔
بہت سارے مختلف منصوبوں میں ، ڈیٹا انجینئروں کے لئے اعداد و شمار کو محدود اور مخصوص ڈیٹا سیٹوں پر درست کرنا انتہائی ضروری ہے - مذکورہ بالا صورت میں ، صرف اس طبقہ کے صارفین کا صرف ڈیٹا ہوگا جو اس وقت کا ہوگا۔ فریم کا مطالعہ کیا جارہا ہے ، اور ایک ایسا نقطہ نظر جو اضافی شناخت کاروں یا پس منظر کی معلومات کو ماتم کرتا ہے جو چیزوں کو الجھا سکتا ہے یا نظام کو سست کرسکتا ہے۔ (ReadJob Role: ڈیٹا انجینئر۔)
مزید کے لئے ، آئیے دیکھتے ہیں کہ یہ مشین لرننگ کے فرنٹیئر میں کیسے کام کرتا ہے۔ (مشین لرننگ 101 پڑھیں۔)
مشین سیکھنے کے ماہرین "اوورفٹنگ" کہلانے والی کسی چیز کے بارے میں بات کرتے ہیں جہاں مشین لرننگ پروگرام نئے پروڈکشن کے اعداد و شمار پر ڈھل جاتا ہے تو ایک انتہائی پیچیدہ ماڈل کم موثر نتائج کا باعث بنتا ہے۔
اوور فٹنگ اس وقت ہوتی ہے جب ڈیٹا پوائنٹس کا ایک پیچیدہ سیٹ ابتدائی تربیت کے سیٹ سے بہت اچھ .ا ہوجاتا ہے ، اور پروگرام کو آسانی سے نئے اعداد و شمار کے مطابق بننے کی اجازت نہیں دیتا ہے۔
اب تکنیکی طور پر ، زیادہ مناسب اعداد و شمار کے نمونوں کے وجود کی وجہ سے نہیں ، بلکہ بہت سارے ڈیٹا پوائنٹس کی تاجپوشی کی وجہ سے ہے۔ لیکن آپ یہ بھی بحث کر سکتے ہیں کہ بہت زیادہ ڈیٹا ہونا بھی اس قسم کی پریشانی کا باعث بن سکتا ہے۔ جہت کی لعنت سے نپٹنے میں کچھ ایسی ہی تکنیک شامل ہیں جو پہلے بڑے ڈیٹا پروجیکٹس میں کی گئیں تھیں کیونکہ پیشہ ور افراد نے اس بات کی نشاندہی کرنے کی کوشش کی تھی کہ وہ آئی ٹی سسٹم کو کیا کھا رہے ہیں۔
اہم بات یہ ہے کہ بڑا ڈیٹا کمپنیوں کے لئے بے حد مددگار ثابت ہوسکتا ہے ، یا یہ ایک بڑا چیلنج بن سکتا ہے۔ اس کا ایک پہلو یہ ہے کہ آیا کمپنی کے پاس صحیح اعداد و شمار موجود ہیں۔ ماہرین جانتے ہیں کہ یہ مناسب نہیں ہے کہ تمام اعداد و شمار کے اثاثوں کو صرف ایک ہاپپر میں پھینک دیں اور اس طرح سے بصیرت کے ساتھ پیش آئیں۔ نئے کلاؤڈ آبائی اور نفیس اعداد و شمار کے نظاموں میں ، ڈیٹا کو کنٹرول کرنے اور ان کا انتظام کرنے کی کوشش کی جارہی ہے تاکہ مزید درست اور حاصل ہوسکے۔ ڈیٹا اثاثوں سے موثر استعمال۔