گھر آڈیو میں مردہ لوگوں کو سنتا ہوں؟ قدرتی زبان کی تکنیک ماضی اور حال کی آوازوں کو زندہ کرتی ہے

میں مردہ لوگوں کو سنتا ہوں؟ قدرتی زبان کی تکنیک ماضی اور حال کی آوازوں کو زندہ کرتی ہے

فہرست کا خانہ:

Anonim

آج کل ، زیادہ تر کمپیوٹر کی آوازیں پاس ہیں۔ جب آپ اپنے فون پر "ڈرایڈ" سنتے ہیں جب آپ کو بل کی ادائیگی میں مدد ملتی ہے یا آپ سے یہ پوچھا جاتا ہے کہ آپ کون سا محکمہ چاہتے ہیں تو آپ شاید سائبرگس اور روبوٹ کے بارے میں بہت زیادہ اثر نہیں اٹھاتے ہیں۔ لیکن اگر آپ نے اچانک سنا ہے کہ کارٹ کوبین آپ کو کارڈ کی معلومات کے ل؟ پیش کرتے ہیں۔ یا جان ایف کینیڈی آپ کو جلد ووٹنگ کے حیرت کے بارے میں بتا رہے ہیں؟ یا ایلوس آپ کا نام اور پتہ "ٹوٹ پھوٹ ، محبت کے جلتے ہوئے"


یہ سب کچھ … تھوڑا سا عجیب ہوگا ، لیکن اس سے بھی زیادہ دلچسپ بات یہ ہے کہ یہ ٹیکنالوجی بنیادی طور پر پہلے ہی یہاں موجود ہے۔ ابھی ایک دہائی یا اس سے بھی پہلے ، ہم کمپیوٹر کی بات کرنے کی صلاحیت سے حیران تھے۔ اب ، ہم فری رینجنگ ، کمپیوٹر سے پیدا ہونے والی آوازوں کی مدد سے فرش کرنے جارہے ہیں جو ہمارے جانتے لوگوں کی طرح سنائی دیتی ہیں۔

این ایل پی میں بڑی تبدیلیاں

اگر آپ قدرتی زبان پروسیسنگ (این ایل پی) کے شعبے پر توجہ دے رہے ہیں تو ، آپ نے کچھ حالیہ پیشرفتوں کے بارے میں سنا ہوگا جو ڈبے میں بند ورچوئل اسسٹنٹ آوازوں سے کہیں آگے ہیں جو ہم اب اپنے عالمی پوزیشننگ سسٹم (GPS) اور خودکار کاروبار میں سنتے ہیں۔ فون لائنیں


این ایل پی کے آغاز میں انسانی تقریر کے عمومی میکانکس پر پوری طرح کی تحقیق کی ضرورت ہے۔ محققین اور انجینئرز کو انفرادی صوتیات کی نشاندہی کرنی تھی ، جملے اور فقرے پیدا کرنے کے ل them انھیں زیادہ سے زیادہ الگورتھم میں جوڑنا تھا ، اور پھر میٹا سطح پر اس سب کو سنبھالنے کی کوشش کی جاتی تھی تاکہ کوئی ایسی چیز تیار کی جاسکے جو حقیقی لگے۔ وقت گزرنے کے ساتھ ، این ایل پی رہنماؤں نے اس میں مہارت حاصل کی اور انسانوں کے کہنے کو سمجھنے کے لئے جدید الگورتھم بنانے شروع کردیئے۔ ان دونوں کو ایک ساتھ رکھتے ہوئے ، کمپنیاں آج کے ورچوئل اسسٹنٹرز اور مکمل طور پر ڈیجیٹل بل پے کلرکوں کے ل the ڈرائیوروں کے ساتھ آئیں ، جن کے طریقے - ناراض ہوتے ہوئے بھی - جب آپ ان کاموں کے بارے میں سوچنا چھوڑ دیتے ہیں تو ان میں حیرت ہوتی ہے۔


اب ، کچھ کمپنیاں زیادہ مخصوص ذاتی نوعیت کا نتیجہ اکٹھا کرنے کے لئے عمومی ورچوئل آواز سے آگے جارہی ہیں۔ اس کے لئے کسی خاص شخص کے لغت سے گزرنا اور بڑی تعداد میں انوکھی آواز کی ویڈیو اکٹھا کرنا ضروری ہے ، پھر اس آرکائیو کو صوتیات ، زور ، کیڈینس اور دیگر تمام چھوٹے اشارے کے لئے پیچیدہ تالوں پر لگانا ہے جو ماہر لسانیات اکثر "پروسڈی" کے وسیع تر بینر کے تحت گروپ کرتے ہیں۔


جو آواز سامنے آتی ہے وہ سننے والے کسی خاص شخص کی "ملکیت" کے طور پر سوچتے ہیں - یا تو وہ کسی کو جانتے ہیں اور جن کے ساتھ وہ بولتے ہیں ، یا وہ شخص جس کی آواز کو وہ اس شخص کی شہرت کے نتیجے میں پہچانتے ہیں۔


ایلوس سے لے کر مارٹن لوتھر کنگ تک ، اب کسی کی آواز کو اس طرح "کلون" کیا جاسکتا ہے - بشرطیکہ ان کی تقریر کا کافی حد تک پہلے سے ریکارڈ شدہ ریکارڈ موجود ہو۔ انفرادی چھوٹی آوازوں پر مزید تفصیلی تجزیہ اور ہیرا پھیری کا اطلاق کرنے سے ، کمپنیاں کسی کی آواز کی ورچوئل کاربن کاپی بنانے میں کامیاب ہوجاتی ہیں جو اصل چیز کی طرح بہت زیادہ لگتا ہے۔

وایو ٹیکسٹ میں دلچسپ "ٹیکسٹ ٹو وائس" تخلیقات

مثال کے طور پر ، ویو ٹیکسٹ ایک ایسی کمپنی ہے جو آڈیو بکس سے لے کر انٹرایکٹو وائس رسپانس (IVR) تک ہر قسم کی مہموں کے لئے مصنوعی انسانی آوازوں کے استعمال میں انقلاب لانے کے لئے کام کر رہی ہے۔ ویو ٹیکسٹ میں ، ریسرچ اور پروڈکشن ٹیمیں ایسے عمل پر کام کر رہی ہیں جو ، نظریاتی طور پر ، خود اولی بلیو آئیز جیسے خود بخود مردہ شخصیات کی آوازوں کو نقل کرسکتی ہیں۔


ویو ٹیکسٹ کے سی ای او جرشون سلبرٹ کا کہنا ہے کہ ، "فرینک سیناترا کی آواز کو کلون کرنے کے لئے ، ہم در حقیقت ان کی ریکارڈ شدہ میراث سے گزریں گے ،" اس طرح کی ٹکنالوجی کس طرح کام کرسکتی ہے۔


ابھی ، ویو ٹیکسٹ ان لوگوں کی آوازوں کو محفوظ کرنے پر کام کر رہا ہے جو ابھی بھی ہمارے ساتھ ہیں ، جیسے این پی آر کی نمائندہ نیل کونن ، جس نے اس قسم کے آئی ٹی پاینر پروجیکٹ کے ماڈل کے طور پر سائن اپ کیا ہے۔ ایک پروموشنل ویڈیو میں VivoText کارکنان بڑی تیزی سے کانن سے فراہم کردہ صوتی ان پٹ کا استعمال کرتے ہوئے صوتی کوڈ ماڈیول بناتے ہوئے دکھاتے ہیں۔ اس کے بعد وہ ٹیکسٹ ٹو اسپیچ (ٹی ٹی ایس) ٹولز کے لئے ماڈل تیار کرتے ہیں جو ڈرامائی طور پر انسان اور شخصی نتیجہ کو جنم دیتے ہیں۔


ویو ٹیکسٹ میں حکمت عملی اور کاروبار کی نشوونما کے نائب صدر بین فیبل مین کے مطابق ، کمپیوٹر ایک انفرادی انسانی آواز کے لئے ایک پروسوڈک ماڈل کے مطابق بننے کے لئے فونم لیول (تقریر کے سب سے چھوٹے منفرد حصوں کا استعمال کرتے ہوئے) پر کام کرتا ہے۔


فیبل مین کا کہنا ہے کہ "یہ بات جانتی ہے کہ آواز کس طرح بات کرتی ہے ،" انہوں نے مزید کہا کہ "یونٹ سلیکشن" کا استعمال کرکے کمپیوٹر ایک ہی لفظ کو جمع کرنے کے لئے بہت سے ٹکڑوں کا انتخاب کرتا ہے ، جیسے لفظ "فرائیڈے" کو پانچ اجزاء دیئے گئے ہیں جو ترقی میں مدد کرتے ہیں ایک خاص زور اور ٹونل نتیجہ۔

مصنوعی آواز میں مارکیٹنگ

تو ، مارکیٹنگ میں یہ کس طرح کام کرتا ہے؟ ویو ٹیکسٹ کی مصنوعات آڈیو بوکس کی طرح مصنوع تیار کرنے میں انتہائی کارآمد ثابت ہوسکتی ہے جو ہدف شائقین تک پہنچ سکتی ہے۔ مثال کے طور پر ، اگر ایلیوس کی آواز کو تفریح ​​سے متعلق مصنوعات فروخت کرنے کے لئے استعمال کیا جاتا ہے تو آج کی عام ، ڈیڈپن ، خودکار آوازوں میں سے کسی کے ساتھ اس کا کتنا موثر ہونا چاہئے؟


یا ، سیاست میں کیسے؟ فیبل مین کمپنیوں یا دوسری پارٹیوں کے لئے مارکیٹنگ بڑھانے کے لئے ان جیسے منصوبوں کو استعمال کرنے کے لئے مختلف آئیڈیوں پر کام کر رہا ہے جنھیں زیادہ موثر پیغام رسانی کی ضرورت ہے۔


"اگر آپ جانتے ہیں کہ کوئی بھی سیاستدان صدر کے لئے انتخاب لڑ رہا ہے تو ، اس میں 10 ملین سوئنگ اسٹیٹ ووٹرز کسی امیدوار کی ذاتی کال آسکتے ہیں ، ان کی حمایت کے لئے ان کا شکریہ ادا کرتے ہوئے ، انھیں یہ بتاتے کہ انہیں کہاں ووٹ ڈالنے کی ضرورت ہے ، موسم اور تمام تر مواقع "الیکشن سے پہلے رات ،" فیبل مین نے کہا۔

آپ کی آواز زندہ باد

اس سبھی ٹکنالوجی کے لئے ایک اور واضح اطلاق ہے۔ VivoText جیسی قدرتی زبان کی کمپنیاں ایک ایسی ذاتی خدمت تشکیل دے سکتی ہیں جو کسی صارف کے صوتی ڈیٹا کو کسی مصنوع میں اپ لوڈ کردے گی جس سے وہ شخص "ہمیشہ کے لئے بولنے" کا اہل بن سکے۔


عملی نفاذ ممکنہ طور پر متعدد سوالات اٹھائے گا کہ ہم بولنے والی آوازوں کو کس طرح سنتے ہیں اور اندرونی بناتے ہیں۔ مثال کے طور پر ، بالکل کسی کی طرح آواز کی دھارا بنانے میں کیا لگتا ہے؟ ہمیں کسی خاص آواز کو پہچاننے کے ل a کسی فرد کو کتنا اچھی طرح جاننا ہو گا؟ اور دلچسپ بات یہ ہے کہ ، اگر قدرتی زبان کی خدمت مجبور مجالس کی بجائے کسی خام خیالی کی تخلیق کرتی ہے تو کیا ہوتا ہے؟


فیبل مین کہتے ہیں کہ نتائج کا اندازہ اکثر سیاق و سباق پر غور کرنے پر ہوتا ہے۔ مثال کے طور پر ، اس کا کہنا ہے کہ بچے عام طور پر جب کوئی کہانی سنتے ہیں تو کون اس کے بارے میں سوالات نہیں پوچھتا۔ وہ صرف اور بھی چاہتے ہیں۔ لیکن اس کے علاوہ ، بہت سارے بالغ لوگ اس کے بارے میں نہیں سوچ سکتے ہیں کہ ان سے کون بات کر رہا ہے ، کسی خاص منظر نامے کو دیکھتے ہو ، جیسے غیر فعال براڈکاسٹ یا فون پیغام۔ نیز ، کمپیوٹر کے ذریعہ فون پر بیوقوف بنانا آسان ہے کیوں کہ گھماؤ ہوا آواز کمپیوٹر کے نتائج اور انسانی آواز کے مابین غلطیاں یا دیگر تضادات کو ماسک کرسکتا ہے۔


فیبل مین کا کہنا ہے کہ "آپ کو آواز کی صداقت کو چیلنج کرنے کا امکان نہیں ہے۔

سال 2525 میں

جب کمپنیاں مصنوعات اور خدمات کی نشوونما کرنے اور ان سوالوں کے جوابات میں پیش قدمی کرتی ہیں تو ، "زندہ تقریر" ٹیکنالوجیز ہمیں ٹیکنالوجی اور انسانی ذہن کے اس ارتباط کی طرف بڑھا سکتی ہیں ، جسے طبقاتی طور پر مصنوعی ذہانت (اے آئی) کہا جاتا ہے۔


اگر کمپیوٹرز ہماری طرح بات کر سکتے ہیں تو ، وہ دوسرے صارفین کو یہ سوچنے کے لئے متحرک کرسکتے ہیں کہ وہ ہماری طرح کا خیال کرتے ہیں ، اور یکسانیت کے بڑے اصول پر عمل پیرا ہوتے ہیں ، جیسا کہ 1950 کی دہائی کے دور کے ایک تکنیکی علمبردار جان وان نیومن نے ہمارے لغت میں شروع کیا۔ اور رے کرزوییل جیسے مفکرین کرزوییل کی 2005 میں لکھی گئی کتاب ، "دی سنگلاری قریب ہے ،" کچھ کو مشتعل کرتی ہے اور دوسروں کو ڈرا دیتی ہے۔ کرزوییل کی پیش گوئی ہے کہ 2045 تک ، "ذہانت" ایک رجحان کے طور پر انسانی دماغ سے بے حد بے چین ہو جائے گا اور مشینوں اور ان کے انسانی آقاؤں کے مابین دھندلاپن کو دھندلاپن کرتے ہوئے ٹکنالوجی میں منتقل ہوجائے گا۔


زیگر اینڈ ایونز کے "" سال 2525 میں "کی دھن میں امر بن گیا (کوئی بھی ان لوگوں کی طرح ڈراونا سائف فائی بالڈیز نہیں کرتا ہے)…


سال 4545 میں

آپ کو اپنے دانتوں کی ضرورت نہیں ہے ، ضرورت نہیں ہوگی

آپ کی آنکھیں

آپ کو چبانے کے لئے کوئی چیز نہیں ملے گی

کوئی آپ کی طرف دیکھنے والا نہیں ہے


5555 میں

آپ کے اطراف میں آپ کا بازو لٹک رہا ہے

آپ کی ٹانگیں کرنے کے لئے کچھ نہیں ملا

کچھ مشینیں آپ کے ل.


کیا کمپیوٹر کی آوازیں اس سمت میں ایک قدم ہیں؟ انسانی جسم (یا زیادہ عام طور پر ، ان کی نقالی کرنے کے لئے) کے کچھ افعال کو آؤٹ سورس کرنے کے ایک نئے طریقہ کے طور پر ، اس طرح کی تکنیکی پیشرفت افق پر سب سے بڑا ہے - اور شاید ناقابل تلافی - جب ہم ایک واحد مستقبل کا جائزہ لیتے ہیں . (کیا کمپیوٹر کے بارے میں "یکسانیت" کے بارے میں انسانوں کے ذہن کی تقلید کے قابل ہوگا؟)

میں مردہ لوگوں کو سنتا ہوں؟ قدرتی زبان کی تکنیک ماضی اور حال کی آوازوں کو زندہ کرتی ہے