ٹیکنالوجی کے آغاز میں ، ڈیٹا سائنسدان ایک تیزی سے عام اصطلاح ہے جو ڈیٹا گیکس کا حوالہ دینے کے لئے استعمال ہوتا ہے جو ڈیٹا انٹلیجنس کے روایتی طور پر علیحدہ کام کرنے والے شعبوں کو پُر کرنے کے قابل ہوتا ہے۔ ڈیٹا سائنس دان وہ شخص ہوتا ہے جو اعداد و شمار کے انٹیلیجنس پروجیکٹس کے متعدد (اگر سبھی نہیں) پہلوؤں کو انجام دینے میں راضی ہوتا ہے:
- ڈیٹا کے حصول: اس میں اپنی مرضی کے مطابق پارسرز اور ویب کرالر یا اسکرپٹ لکھنے کی ضرورت ہوگی جو مخصوص ویب خدمات یا API کو غیر روایتی اعداد و شمار کے ذرائع کے ل services نشانہ بناتے ہیں۔
- ڈیٹا مینجمنٹ: ETL ، جوڑ توڑ ، استفسار اور ڈیٹا بیس ، کلیدی قدر والے اسٹورز ، یا ہڈوپ میں ڈیٹا کو برقرار رکھنا۔
- انفارمیشن ویژلائزیشن: فلیش ، جاوا اسکرپٹ یا پراسیسنگ پر مبنی جامد ویزائلائزیشن ٹول کٹس اور / یا انٹرایکٹو پلیٹ فارم کے استعمال کے ذریعے ننگا پیٹرن۔
- تجزیات: اس میں کثیر تناسب کے اعدادوشمار ، مشین لرننگ اور این ایل پی میں سادہ سے پیچیدہ تکنیک کی حد تک ہوسکتی ہے۔
- بصیرت: نکالیں ، اختصار کریں اور کلیدی نتائج کو ایک وسیع سامعین کے سامنے پیش کریں۔
یہاں بہت سارے ٹولز ، مہارتیں اور تکنیکی تفصیلات موجود ہیں ، اور ایک مندرجہ بالا ہر ایک آئٹم میں مہارت حاصل کرنے میں برسوں گزار سکتا ہے۔ اگرچہ ڈیٹا سائنس دان شاید کسی بھی شعبے میں ماہر علم کا صحیح مالک نہ ہو ، لیکن وہ آرام سے پیچھے رہتا ہے اور ان سب میں بنیادی کام انجام دیتا ہے۔ نتیجہ ڈیٹا پروجیکٹ کی فوری جانچ پڑتال کرنے اور مینجمنٹ کی طرف سے (اعلی سطح) سوالات کے جوابات تیار کرنے کے لئے کافی اعداد و شمار کا ایک نمک ہے۔ (ڈیٹا سائنسدانوں میں ڈیٹا سائنسدانوں کے بارے میں: ٹیک ورلڈ کے نیو راک اسٹارز۔)
ڈیٹا سائنسدانوں کی پرورش کے ل companies ، کمپنیوں کو ثقافت اور تنظیمی ڈھانچے پر زیادہ توجہ دینے کی ضرورت ہے۔ ڈیٹا انٹیلیجنس کے متعدد شعبوں میں بہت سارے ڈیٹا ورکرز کو تیزی سے نتیجہ خیز بننے کے لئے کافی مہارت اور تربیت حاصل ہے۔ مسئلہ یہ ہے کہ زیادہ تر ایسے ماحول میں کام نہیں کرتے جو ڈیٹا سائنسدان بننے کی ترغیب دیتے ہیں۔ وہ سیلوس میں پھنس چکے ہیں اور ڈیٹا انٹیلی جنس کے ایک یا دو شعبوں تک محدود ہیں۔ اکثر ، ان پر ان کے مینیجرز کے ذریعہ "منظور شدہ" ٹولز کے استعمال کی پابندی ہوتی ہے۔