فہرست کا خانہ:
تعریف - ٹوکنائزیشن کا کیا مطلب ہے؟
ٹوکنائزیشن ، ڈور کے تسلسل کو ٹکڑوں میں تقسیم کرنے کا کام ہے جیسے الفاظ ، مطلوبہ الفاظ ، جملے ، علامت اور دوسرے عناصر جن کو ٹوکن کہتے ہیں۔ ٹوکن انفرادی الفاظ ، جملے یا یہاں تک کہ پورے جملے ہوسکتے ہیں۔ ٹوکنائزیشن کے عمل میں ، کچھ حرف جیسے اوقاف کے نشانات مسترد کردیئے جاتے ہیں۔ ٹوکن دوسرے عمل کی ان پٹ بن جاتے ہیں جیسے پارس کرنا اور ٹیکسٹ مائننگ۔
ٹوکنائزیشن کمپیوٹر سائنس میں استعمال ہوتی ہے ، جہاں یہ لغوی تجزیہ کے عمل میں بڑا حصہ ادا کرتا ہے۔
ٹیکوپیڈیا ٹوکنائزیشن کی وضاحت کرتا ہے
ٹوکنائزیشن چند مراحل پر عمل کرکے ٹوکن الگ کرنے کے لئے زیادہ تر عام اصول پر منحصر ہے:
- ٹوکن یا الفاظ سفید جگہ ، اوقاف کے نشانات یا لائن وقفے سے الگ ہوجاتے ہیں
- ضرورت کے مطابق سفید جگہ یا اوقاف کے نشان شامل نہیں ہوسکتے ہیں
- مابعد تار میں رہنے والے تمام کردار ٹوکن کا حصہ ہیں۔ ٹوکن صرف تمام الفا حرف ، حروف شماری کے حرف یا عددی حرف پر مشتمل ہوسکتے ہیں۔
ٹوکن خود بھی جداکار ہوسکتے ہیں۔ مثال کے طور پر ، زیادہ تر پروگرامنگ زبانوں میں ، شناخت کرنے والوں کو بغیر حساب والی آپریٹرز کے ساتھ ، سفید جگہوں کے بغیر رکھا جاسکتا ہے۔ اگرچہ ایسا لگتا ہے کہ یہ کسی ایک لفظ یا ٹوکن کے بطور ظاہر ہوگا ، لیکن زبان کا گرائمر دراصل ریاضی کے آپریٹر (ایک ٹوکن) کو الگ کرنے والا سمجھتا ہے ، لہذا یہاں تک کہ جب متعدد ٹوکن ایک ساتھ بنائے جائیں تو بھی ، وہ ریاضی کے ذریعے الگ ہوسکتے ہیں۔ آپریٹر