تشخیص صدا عالی است ، اما چگونه اینقدر خوب شد؟

فناوری تشخیص صدا دارای تاریخچه ای غنی از توسعه است که آن را به آنچه امروزه است هدایت کرده است. این هسته اصلی زندگی مدرن است و به ما این امکان را می دهد که وظایف خود را فقط با صحبت با یک دستگاه انجام دهیم. بنابراین ، چگونه این فناوری شگفت انگیز در طول سالها تکامل یافته است؟ بیا یک نگاهی بیندازیم.

1952: سیستم آدری

اولین گام در تشخیص صدا در اوایل دهه 1950 انجام شد. آزمایشگاه های بل اولین دستگاهی را که می توانست صدای انسان را درک کند در سال 1952 توسعه دادند و نام آن سیستم آدری بود. نام آدری نوعی انقباض عبارت Automatic Digit Recognition بود. در حالی که این یک نوآوری بزرگ بود ، اما محدودیت های عمده ای داشت.

برجسته ترین نکته این است که آدری فقط می تواند ارقام عددی 0-9 را بدون کلمه تشخیص دهد. آدری وقتی گوینده را با روشن کردن 1 عدد از 10 لامپ ، که هر یک مربوط به یک رقم است ، عددی را بازخورد می دهد.

در حالی که می توانست اعداد را با دقت 90 understand درک کند ، آدری محدود به یک نوع صدای خاص بود. به همین دلیل است که تنها شخصی که واقعاً از آن استفاده می کند ، HK Davis است ، یکی از توسعه دهندگان. وقتی یک عدد صحبت می شد ، گوینده باید حداقل 300 میلی ثانیه صبر کند تا شماره بعدی را بگوید.

نه تنها از نظر عملکرد محدود بود ، بلکه از نظر کاربرد نیز محدود بود. از دستگاهی که فقط بتواند اعداد را درک کند استفاده چندانی نشد. یکی از موارد احتمالی ، شماره گیری شماره تلفن بود ، اما شماره گیری با دست بسیار سریعتر و آسان تر بود. اگرچه آدری وجود برازنده ای نداشت ، اما هنوز به عنوان یک نقطه عطف بزرگ در دستاوردهای بشری است.

مطالب مرتبط: نحوه استفاده از تایپ صوتی در Microsoft Word

1962: جعبه کفش IBM

یک دهه پس از آدری ، آی بی ام در توسعه سیستم تشخیص صدا تلاش کرد. در نمایشگاه جهانی 1962 ، IBM یک سیستم تشخیص صدا به نام Showbox را به نمایش گذاشت. مانند آدری ، کار اصلی آن درک ارقام 0-9 بود ، اما می توانست شش کلمه را نیز بفهمد: بعلاوه ، منهای ، غلط ، مجموع ، زیر مجموع و خاموش.

Shoebox یک ماشین ریاضی بود که می توانست مسائل ساده حساب را انجام دهد. در مورد بازخورد ، به جای چراغ ، Shoebox توانست نتایج را روی کاغذ چاپ کند. این امر به عنوان یک ماشین حساب مفید است ، هر چند که گوینده هنوز باید بین هر عدد/کلمه مکث کند.

1971: شناسایی خودکار تماس IBM

پس از آدری و شباکس ، آزمایشگاه های دیگر در جهان فناوری تشخیص صدا را توسعه دادند. با این حال ، تا دهه 1970 شروع به کار نکرد ، هنگامی که در سال 1971 ، IBM اولین اختراع در نوع خود را به بازار آورد. نام آن سیستم تشخیص تماس خودکار بود. این اولین سیستم تشخیص صدا بود که از طریق سیستم تلفن استفاده شد.

مهندسان تماس می گیرند و به رایانه ای در رالی ، کارولینای شمالی متصل می شوند. سپس تماس گیرنده یکی از 5000 کلمه واژگان خود را بیان می کند و به عنوان پاسخ "گفتاری" دریافت می کند.

مطالب مرتبط: نحوه استفاده از دیکته صوتی در مک

1976: هارپی

در اوایل دهه 1970 ، وزارت دفاع ایالات متحده به تشخیص صدا علاقه نشان داد. دارپا (آژانس پروژه های تحقیقاتی پیشرفته دفاعی) برنامه درک گفتار (SUR) را در سال 1971 توسعه داد. این برنامه بودجه ای را برای چندین شرکت و دانشگاه برای کمک به تحقیق و توسعه برای تشخیص صدا فراهم کرد.

در سال 1976 ، به دلیل SUR ، دانشگاه کارنگی ملون سیستم هارپی را توسعه داد. این یک جهش بزرگ در فناوری تشخیص صدا بود. سیستم ها تا آن زمان قادر به درک کلمات و اعداد بودند ، اما هارپی از این جهت که می توانست جملات کامل را درک کند ، منحصر به فرد بود.

این واژه دارای تنها 1011 کلمه بود ، که بر اساس نشریهB. Lowerre و R. Reddy ، معادل بیش از یک تریلیون جمله مختلف ممکن است. سپس نشریه اعلام می کند که هارپی می تواند کلمات را با دقت 93.77 understand درک کند.

دهه 1980: روش مارکوف پنهان

دهه 1980 زمان محوری برای فناوری تشخیص صدا بود ، زیرا این دهه در آن فناوری تشخیص صدا بود ، زیرا این دهه ای بود که ما با روش مخفی مارکوف (HMM) آشنا شدیم. نیروی محرکه اصلی HMM احتمال است .

هرگاه یک سیستم واج (کوچکترین عنصر گفتار) را ثبت می کند ، احتمال خاصی وجود دارد که مورد بعدی چه خواهد بود. HMM با استفاده از این احتمالات تعیین می کند که کدام واج به احتمال زیاد بعدی آمده و محتمل ترین کلمات را تشکیل می دهد. امروزه اکثر سیستم های تشخیص صدا هنوز از HMM برای درک گفتار استفاده می کنند.

دهه 1990: تشخیص صدا به بازار مصرف کنندگان رسید

از زمان تصور فناوری تشخیص صدا ، در سفری برای یافتن فضایی در بازار مصرف بوده است. در دهه 1980 ، IBM یک نمونه اولیه کامپیوتر را به نمایش گذاشت که می تواند دیکته گفتار به متن را انجام دهد. با این حال ، تا اوایل دهه 1990 بود که مردم شروع به مشاهده برنامه های مشابه در خانه خود کردند.

در سال 1990 ، Dragon Systems اولین نرم افزار دیکته گفتار به متن را معرفی کرد. این بازی Dragon Dictate نام داشت و در ابتدا برای ویندوز منتشر شد. این برنامه 9000 دلاری برای رساندن فناوری تشخیص صدا به توده مردم انقلابی بود ، اما یک نقص وجود داشت. نرم افزار از دیکته گسسته استفاده می کند ، به این معنی که کاربر باید بین هر کلمه مکث کند تا برنامه آنها را انتخاب کند.

در سال 1996 ، IBM دوباره با Medspeak به صنعت کمک کرد. این یک برنامه دیکته از گفتار به متن نیز بود ، اما مانند Dragon Dictate از دیکتیک گسسته رنج نمی برد. در عوض ، این برنامه می تواند گفتار مداوم را دیکته کند ، که آن را به یک محصول جذاب تر تبدیل کرد.

مطالب مرتبط: نحوه استفاده از دستیار Google با هدفون

2010: دختری به نام سیری

در طول دهه 2000 ، فناوری تشخیص صدا محبوبیت زیادی پیدا کرد. این نرم افزار بیش از هر زمان دیگری در نرم افزار و سخت افزار پیاده سازی شد و یکی از مراحل مهم در تکامل تشخیص صدا Siri ، دستیار دیجیتالی بود. در سال 2010 ، شرکتی به نام Siri دستیار مجازی را به عنوان یک برنامه iOS معرفی کرد.

در آن زمان ، Siri یک نرم افزار قابل توجه بود که می توانست آنچه را که گوینده می گوید دیکته کند و پاسخی هوشمندانه و هوشمندانه ارائه دهد. این برنامه آنقدر تأثیرگذار بود که اپل در همان سال این شرکت را تصاحب کرد و سیری را کمی بازسازی کرد و آن را به سمت دستیار دیجیتالی که امروز می شناسیم سوق داد.

از طریق اپل بود که سیری صدای نمادین خود (صدا را سوزان بنت) و مجموعه ای از ویژگی های جدید را دریافت کرد. برای کنترل اکثر عملکردهای سیستم از پردازش زبان طبیعی استفاده می کند.

دهه 2010: 4 دستیار دیجیتالی بزرگ

در حال حاضر ، چهار دستیار بزرگ دیجیتالی بر تشخیص صدا و نرم افزارهای اضافی تسلط دارند.

  • سیری تقریباً در تمام محصولات اپل وجود دارد: iPhone ، iPod ، iPads و خانواده کامپیوترهای Mac.
  • Google Assistant در بیشتر 3 میلیارد دستگاه Android موجود در بازار حضور دارد. علاوه بر این ، کاربران می توانند از دستورات در بسیاری از خدمات Google مانند Google Home استفاده کنند.
  • آمازون الکسا پلتفرم خاصی در محل زندگی خود ندارد ، اما همچنان یک دستیار برجسته است. قابل بارگیری و استفاده در دستگاه های Android ، دستگاه های Apple است. و حتی لپ تاپ های Lenovo را انتخاب کنید
  • Bixby جدیدترین ورودی در فهرست دستیاران دیجیتال است. این دستیار دیجیتالی داخلی سامسونگ است و در بین گوشی ها و تبلت های این شرکت وجود دارد.

تاریخچه گفتاری

تشخیص صدا از زمان آدری تا کنون پیشرفت زیادی داشته است. در زمینه های مختلف دستاوردهای بزرگی داشته است. به عنوان مثال ، با توجه به Clear Bridge Mobile ، حوزه پزشکی از چت بات های صوتی در طول همه گیری در سال 2020 بهره مند شد. تشخیص صوت از فهمیدن اعداد گرفته تا درک انواع مختلف جملات کامل ، یکی از مفیدترین موارد است. فناوری های عصر جدید ما