سوال:
انجینئر مشین سیکھنے میں ممکنہ حد سے زیادہ فٹنگ کے لئے ٹریننگ سیٹوں اور ٹیسٹ سیٹوں کا اندازہ کیسے کرسکتے ہیں؟
A:اس کو سمجھنے کے ل machine ، ایک عام مشین لرننگ پروجیکٹ میں مختلف ڈیٹا سیٹوں کے کردار کی بنیادی گرفت حاصل کرنا ضروری ہے۔ ٹکنالوجی کو حوالہ کا ایک فریم دینے کے لئے تربیت کا سیٹ مرتب کیا گیا ہے - ایک ڈیٹا بیس لائن جس کا استعمال پروگرام پیش گوئی اور امکانی فیصلے کرنے کے لئے کرتا ہے۔ ٹیسٹ سیٹ وہ جگہ پر ہے جہاں آپ ڈیٹا پر مشین کو جانچتے ہیں۔
اوورفٹٹنگ مشین سیکھنے کا ایک سنڈروم ہے جہاں ماڈل ڈیٹا یا مقصد کو مکمل طور پر فٹ نہیں رکھتا ہے۔
مفت ڈاؤن لوڈ: مشین سیکھنا اور اس سے کیوں فرق پڑتا ہے |
مشین لرننگ کے ایک اہم حکم یہ ہے کہ ٹریننگ ڈیٹا اور ٹیسٹ ڈیٹا الگ ڈیٹا سیٹ ہونا چاہئے۔ اس پر کافی حد تک وسیع اتفاق رائے ہے ، کم از کم بہت سے ایپلی کیشنز میں ، اسی سیٹ کو استعمال کرنے میں کچھ مخصوص پریشانیوں کی وجہ سے جو آپ نے مشین لرننگ پروگرام کی جانچ کے لئے تربیت کے لئے استعمال کیا تھا۔
جب مشین لرننگ پروگرام کسی ٹریننگ سیٹ کا استعمال کرتا ہے ، جسے بنیادی طور پر ان پٹ کا ایک مجموعہ کہا جاسکتا ہے ، تو یہ اس تربیت سے متعلق پیش گوئی کرسکتا ہے کہ وہ پیش گوئی کرنے والے نتائج کے بارے میں فیصلے کرے۔ اس کے بارے میں سوچنے کا ایک بہت بنیادی طریقہ یہ ہے کہ فکری کمپیوٹنگ کے عمل کے لئے تربیت کا سیٹ "کھانا" ہے۔
اب جب وہی سیٹ ٹیسٹنگ کے لئے استعمال کیا جاتا ہے تو ، مشین اکثر عمدہ نتائج واپس کر سکتی ہے۔ اس کی وجہ یہ ہے کہ اس سے پہلے وہ اعداد و شمار دیکھ چکا ہے۔ لیکن بہت سے معاملات میں مشین لرننگ کا پورا ہدف اعداد و شمار کے بارے میں نتائج بنانا ہے جو پہلے نہیں دیکھا گیا تھا۔ ڈیٹا کے مختلف سیٹوں پر کام کرنے کے ل General عمومی مقصد مشین لرننگ پروگرام بنائے جاتے ہیں۔ دوسرے الفاظ میں ، مشین لرننگ کا اصول دریافت ہوتا ہے ، اور عام طور پر آپ جانچ کے مقاصد کے لئے ابتدائی تربیت کے سیٹ کا استعمال کرکے اس سے زیادہ حاصل نہیں کرتے ہیں۔
ممکنہ حد سے زیادہ مناسب کارکردگی کے ل training تربیتی سیٹوں اور ٹیسٹ سیٹوں کا جائزہ لینے میں ، انجینئرز نتائج کا اندازہ کرسکتے ہیں اور یہ معلوم کرسکتے ہیں کہ کوئی پروگرام ان دو سیٹوں کے تقابلی نتائج پر کیوں ایسا الگ طریقے سے کام کرسکتا ہے ، یا کچھ معاملات میں کہ مشین خود تربیت کے اعداد و شمار پر بھی بہتر کارکردگی کا مظاہرہ کرسکتی ہے۔ .
2014 کے ٹکڑے میں مشینی لرننگ میں ان پریشانیوں کی وضاحت کے ساتھ ، مشین لرننگ ماسٹر میں جیسن براونلی نے اس طرح زیادہ مناسب بیان کیا:
براونلی لکھتے ہیں ، "ایک ایسا ماڈل جو کسی نظری ٹیسٹ ڈیٹاسیٹ پر اس کی درستگی کے بجائے ٹریننگ ڈیٹاسیٹ پر اس کی درستگی کے لئے منتخب کیا جاتا ہے ، اس کا امکان کسی غیب ٹیسٹ ڈیٹاسیٹ پر کم درستگی کا ہوتا ہے۔" "اس کی وجہ یہ ہے کہ ماڈل اتنا عام نہیں ہے۔ اس نے ٹریننگ ڈیٹاسیٹ ( جس میں ترمیم شامل ہے) کے ڈھانچے کے بارے میں قیاس کیا ہے ۔ اسے اوورفٹنگ کہا جاتا ہے ، اور یہ آپ کے خیال سے کہیں زیادہ کپٹی ہے۔"
عام الفاظ میں ، آپ یہ کہہ سکتے ہیں کہ تربیت کے اعداد و شمار کو مرتب کرنے میں خود کو مہارت دینے میں ، پروگرام بہت سخت ہوتا جارہا ہے۔ یہ دیکھنے کا ایک اور استعاراتی طریقہ ہے کہ ٹریننگ سیٹ کے لئے ٹریننگ سیٹ کا استعمال کرکے مشین لرننگ پروگرام کی بہتر طور پر خدمت کیوں نہیں کی جاتی ہے۔ ان دو مختلف سیٹوں کی جانچ پڑتال کرنے کے ل approach یہ ایک اچھا طریقہ بھی ہے ، کیوں کہ نتائج انجینئرز کو بہت کچھ دکھائیں گے کہ پروگرام کیسے چل رہا ہے۔ آپ دونوں ماڈلز کی درستگی کے مابین تھوڑا سا فاصلہ چاہتے ہیں۔ آپ یہ یقینی بنانا چاہتے ہیں کہ کسی خاص ڈیٹا سیٹ پر سسٹم کو زیادہ ضرورت سے زیادہ یا "درستگی سے وابستہ" نہیں کیا گیا ہے ، لیکن یہ زیادہ عام اور قابل ہے کہ کمانڈ پر ترقی پذیر ہوسکے۔