توضیحات محصول

دانلود پایان نامه کامپیوتر : تبديل متن به گفتار

90ص

 

مقدمه

گفتار برای بشر طبيعی ترین و کارآمدترین ابزار مبادله اطلاعات است . کنترل محيط و ارتباط با ماشين بوسيله گفتار ازآرزوهای او بوده است .طراحی و توليد سيستم های تشخيص گفتار هدف تحقيقاتی مراکز بسياری در نيم قرن اخير بوده است.یکی از اهداف انسانها در توليد چنين سيستم هایی مسلماً توجه به این نکته بوده است که ورود اطلاعات به صورت صوتی ،اجرای دستورات علاوه بر صرفه جویی در وقت و هزینه ، به طرق مختلف کيفيت زندگی ما را افزایش می دهند.

تبديل متن به گفتار يكي از مباحث مهم در طراحي و ساخت سيستم‌هاي چند رسانه‌اي در مهندسي كامپيوتر و فناوري اطلاعات و ارتباطات مي‌باشد. هدف از تبديل متن به گفتار در كنار بازشناسي گفتار برقراري ارتباط بين انسان و ماشين در اساسي‌ترين و  طبيعي‌ترين شكل آن يعني گفتاري ميباشد. نياز به تبديل متن به گفتار توسط كامپيوتر يكي از نيازهاي امروز جامعه بشري است. تبديل متن به گفتار طيف گسترده‌اي از علوم را شامل مي‌شود كه از آن جمله مي‌توان به فيزيك اكوستيك، آناتومي اندامهاي گفتاري، انواع تحليل‌هاي متني شامل تعيين ساختار متن، هنجار‌سازي متن، تحليل‌هاي صرفي، نحوي و معنايي، رفع ابهام از كلمات هم نويسه و نيز مباحثي از روشهاي يادگيري ماشين، الگوريتم‌هاي پردازش سيگنالهاي رقمي، مباحث مربوط به پردازش گفتار رقمي، سخت افزار و نرم افزار كامپيوتر و مانند آن اشاره كرد.

مطالعه یک زبان خارجی به صورت نوشتاری، انسان را به صورت کامل و همه جانبه بر آن زبان مسلط نمی کند. برای تسلط کامل بر یک زبان، تکلم و نیز شنیدن آن لازم است. ممکن است شما بخواهید تلفظ درست مقاله یا مطلبی را که به یک زبان خارجی نوشته اید و قرار است آن را در جلسه ای شفاهاً ارائه دهید، چک کنید. به این دلایل و نیز دلایلی دیگر، به شما توصیه می شود نرم افزاری داشته باشید که متن را به صدا تبدیل کند.

ورودي نرم افزار  TTS مي تواند هر نوع متن فارسي يا انگليسي و… باشد اين نرم افزار مي تواند مستقيماً از طريق تايپ کردن متون در محل تعبيه شده براي خواندن ستون آن استفاده شود و يا به عنوان Plug in  براي نرم افزارهاي کاربردي ديگر همچون Word  و غيره به کار رود نرم افزار براي کار عمومي تنظيم شده است اما قابليت آن را دارد که براي کاربرد محيط خاص تنظيم شود در اين صورت ميزان وقت و کارايي سيستم تا حد زيادي بالا مي رود خروجي سيستم بصورت يک فايلWave  مي باشد که مي تواند بصورت Real-Time توسط سيستم پخش شود و يا به منظور استفاده هاي آتي ذخيره گردد.

پيغام هاي تلفني، فرهنگ لغات گويا، نامه هاي الکترونيکي، افراد نابينا ( استفاده از اين سيستم  نياز به تهيه کتاب ها با خط بريل را از بين مي برد)، افراد کم سواد و يا بي سواد، سيستمهاي خانگي (لوازم خانگي سخنگو و اخطار دهنده )، سيستم هاي اداري (پيگيري نامه ها و… )، سيستم هاي امنيتي (مانيتورينگ، اخطار دهنده هاي گويا ) و غيره …می تواند از کاربرد های این نرم افزار باشد.

تلاش گروه‌هاي تحقيقاتي و شرکت‌هاي خارجي براي دستيابي به تکنولوژي تشخيص گفتار به عنوان يكي از تکنولوژي‌هاي سطح اول دنيا، به چندين دهه مي‌رسد، ولي به دليل پيچيدگي موجود در گفتار انسان هنوز رسيدن به دقت صددرصد امکان‌پذير نشده است. با کمک اين تکنولوژي ارتباط انسان با کامپيوتر بسيار راحت‌تر و سريع‌تر شده است و آرزوي بشر در برقراري ارتباط گفتاري با ماشين‌ها تحقق خواهد يافت. شرکت عصر گويش پرداز براي پيشرفت اين تکنولوژي در کشور از سال 82 اقدام به تهيه موتور تشخيص گفتار پيوسته فارسي مبتني بر مدل HMM نموده است، از دیگر نرم افزار های که در این زمینه کار شده اند می توان به  Text To Speech Maker که این نرم افزار محصولی از شرکت xrlly software می باشد. دستگاه برجسته نگار رایانه ای شامل مجموعه نرم افزاری و سخت افزاری Pac Jawse 8 جهت تبدیل متن به گفتار فارسی ویژه نابینایان، تبدیل متن به گفتار شرکت AT&T، نرم افزار مبدل متن به گفتار سورنا، نرم افزار Text Aloud، اشاره کرد.

بر خلاف سيستم‌هاي پاسخگوي صوتي (Voice Response Systems)، TTS قابليت اداي طبيعي جملات جديد را دارد

 

 

چكيده :

يكي از فاكتورهاي مهم در قابليت فهم گفتار توليد شده در يك سيستم تبديل متن به گفتار دقت اطلاعات استخراجي از متن مورد بررسي مي باشد. به منظور استخراج اطلاعات آوايي متن نوشتاري روشهاي گوناگوني مطرح شده است. يكي از اين روشها استفاده از پايگاه داده به عنوان پردازشگر متن است. در اين روش اطلاعات آوايي مربوط به تمام كلمات يك زبان ذخيره مي گردند. دقت بالا از جمله مزاياي اين روش مي باشد. به دليل گستردگي زبان فارسي استفاده از اين روش حافظه بسياري را مورد استفاده قرار مي دهد. همچنين زمان پاسخگويي اين سيستم نيز به علت حجم بالاي پايگاه داده زياد مي باشد. روش ديگري كه براي برخي از زبانها (انگليسي، يوناني و …) بسيار مورد توجه بوده است بر مبناي استفاده از شبكه عصبي استوار است. در اين روش شبكه عصبي به عنوان يك پايگاه داده با قابليت تعميم مورد استفاده قرار مي گيرد. شبكه عصبي بر روي بخشي از زبان آموزش مي بيند و اطلاعات آموزشي را براي بقيه زبان تعميم مي دهد.

 

 

فصل اول

آشنایی با سیستم تبدیل متن به گفتار

 

 

NLP:

در بلوك NLP [1]جملات ورودي به فهرستي از كلمات تبديل می گردند و در اين راستا، اعداد، حروف اختصاري (Abbreviations) و … نيز به معادل كامل متني خود تبديل مي‌شوند. افزون بر اين، روي كلمات جمله تحليل ريشه‌اي ((Morphological انجام و مشخصه دستوري هر كلمه (POS)[2] تعيين مي‌گردد. در مورد لزوم پردازش نحوي (Syntactic)  متن در بلوك NLP نيز بايد گفت كه تبديل صحيح متن فارسي به رشته واجي با تعيين مشخصه دستوري كلمات (به عنوان مثال از طريق بررسي در قالب درخت وارة دستوري ((Syntax tree)  تسهيل می شود. نواي گفتار فارسي نيزبستگي زيادي به ساختار دستوري جمله دارد .

استخراج واج:

مرحله ی بعدي كار در بخش NLP استخراج صورت واجي متن است. شايد بديهي‌ترين راه انجام اين كار، استفاده از مجموعه قواعد تبديل حرف به صدا به نظر برسد كه حروف متن را به رشته‌اي از واج‌ها تبديل كند. اين راه‌حل براي زبان‌هايي همچون زبان اسپانيايی كه رابطه ی نزديكي بين صورت نوشتاري و گفتاري آن ها وجود دارد، مي‌تواند مفيد باشد، ولي براي زبان‌هايي چون فارسي و حتي انگليسي كه تناظر مستقيمي بين حروف و واج‌ها وجود ندارد، بايد به دنبال راه ‌حل بهتري بود. به عنوان نمونه در زبان فارسي مي‌توان به مشكلات زير در زمينه ی استخراج صورت واجي متن اشاره كرد:

الف) وجود يك حرف براي چند واج (مانند تلفظ های متفاوت ”و“ در كلمات ”تو“، ”او“ و ”وزن“)

ب) استفاده از حرفي كه خوانده نمي‌شود (مانند ”و“ در كلمه ”خواستن“)

پ) نوشته نشدن واكه‌هاي كوتاه (نگذاشتن اعراب‌)

ت) نوشته نشدن كسره ی اضافه در تركيب‌هاي وصفي و اضافي

در خصوص بلوك مولد نواي گفتار نيز بايد گفت كه ”زير و بمي“ يا تغييرات فركانس گام  (Pitch)، ”ديرش“ (Duration)، ”شدت“ (Intensity) و”درنگ“(Pause) چهار عنصر نوايي گفتار هستند كه معمولاً در سطوح مختلف اعم از هجا (Syllable)، واژه و يا جمله اثر خود را نشان مي‌دهند. اعمال اطلاعات نوا به سيستم سنتزكننده، نقش بسزايي در توليد گفتار طبيعي در زبان‌هاي مختلف دارد.

  تبدیل متن به گفتار:

هر سیستم ‏‎TTS‎‏ از دوقسمت اساسی : الف ) ‏‎NLP‎‏، ب ) قسمت ‏‎SS‎‏ تشکیل شده است. وظیفه قسمت NLP : تشخیص نوع جمله (خبری، تعجبی،پرسشی، امری،و …)، تعیین نقش معنائی و دستوری کلمات در جمله، تعیین زنجیره آوائی(یا سیلابی) کلمات جمله، تعیین نوع لحن و تأ کید بیان (در نتیجه تعیین نوع الگوی کانتور تغییرات فرکانس پیچ و گین و نسبت های طول واج ها و سکوت و…) و…می باشد. وظیفه قسمت SS تولید سیگنال صحبت حتی الامکان با لحن طبیعی و با نوع تأکید بیان مطلوب و صدای گوینده مورد نظر (زن و مرد) می باشد.

پردازش گر زبان طبيعي(NLP):

پردازش‌ زبان‌هاي‌ طبيعي‌ به عنوان‌ زيرمجموعه‌اي‌ از هوش‌ مصنوعي‌، مي‌تواند توصيه‌ها و بيانات‌ را با استفاده‌ از زباني‌ كه‌ شما به‌ طور طبيعي‌ درمكالمات‌ روزمره‌ به كار مي‌بريد، بفهمد و مورد پردازش‌ قرار دهد. به‌ طوركلي‌ نحوه‌ كار اين‌ شاخه‌ از هوش‌ مصنوعي‌ اين‌ است‌ كه‌ زبان هاي‌ طبيعي‌انسان‌ را تقليد مي‌كند. در اين‌ ميان‌، پيچيدگي‌ انسان‌ از بعد روانشناسي‌ برروي‌ ارتباط متعامل‌ تاثير مي‌گذارد.

در پردازش‌ زبان هاي‌ طبيعي‌، انسان‌ و كامپيوتر ارتباطي‌ كاملاً نزديك ‌با يكديگر دارند. كامپيوتراز لحاظ رواني در مغز انسان جاي داده مي شود. بدين ترتيب يك سيستم خلاق شكل مي گيرد كه انسان نقش سازمان دهنده اصلي آن را برعهده دارد. اگر چه هنوز موانع روانشناختي و زبانشناختي بسياري بر سر راه سیستمهاي محاوره اي وجود دارد. اما چشم اندازهاي پيشرفت آنها يقيناً نويدبخش است. در حقيقت، توقعات يكسان از محاوره انسان- ماشني و محاوره انسان- انسان، معقول نيست.

پردازش زبان‌ها و مکالمات طبیعی یکی از اموری ا‌ست که با ورود فناوری رایانه‌ای به زندگی بشر مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشه‌ای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبان‌های طبیعی می‌شد. حتی تلاش‌های بسیاری توسط بشر برای پیگیری این امر صورت گرفته بود. به عنوان مثال ماشین لیزا از این تلاش‌ها حاصل می‌شد که ماشینی بود که با تایپ از راه دور با یک انسان، جملات او را پردازش می‌کرد و جوابی درخور به او می‌داد.

تقسیم بندی زبان از شاخه هوش مصنوعی:

از لحاظ رده‌بندی، علم پردازش زبان طبیعی از شاخه‌های هوش مصنوعی به حساب می‌آید و خود این علم به شش رده مختلف تقسیم‌بندی می‌شود:

1-       آوا شناسی و صدا شناسی (phonetics and phonology) که به تشخیص آواها و صداها و بازشناسی گفتار می‌پردازد.

2-       ریخت‌شناسی (morphology) که به ساختار‌های کلمات و ریشه‌یابی واژگان می‌پردازد.

3-       نحو (syntax) که به ارتباط کلمات به همدیگر و مباحث دستوری آن‌ها در گروه‌ها و جملات می‌پردازد.

4-       معناشناسی (semantics) که به ارتباطات معنایی کلمات ‌می‌پردازد.

5-       عمل‌گرایی (pragmatics) که کاربردهای زبان برای رساندن یک مطلب به مخاطب یا مخاطبان، در حالت عملی و یا در نوشتار و گفتار طبیعی می‌پردازد.

6-   مباحثه (discourse) که به ارتباطات کلی یک زبان فرای یک یا چند جمله خاص می‌پردازد.

در یک سیستم تبدیل متن به گفتار، متن تایپ شده به صورت فایل نوشتاری دریافت شده و پس از

 

 

شمای کلی یک سیستم تبدیل متن به گفتار

 

پردازش های لازم برای شناسایی متن ساختمان جملات مشخص شده و با استفاده از نتایج این پردازش، ساختار آوایی آن کامل گردیده و نهایتاً به سیگنال صحبت تبدیل می شود .

اساسی ترین قسمت سیستم TTS بررسی جملات دریافتی می باشد که جایگاه هر کلمه را در جمله به درستی تشخیص داده و اطلاعات کاملی در مورد نحوه خواندن جمله فراهم آورد. این اطلاعات عبارتند از: نقش هر کلمه در جمله، تشخیص کلماتی که در جمله به صورت ترکیب وصفی و یا اضافی به کار رفته اند و ساختار آوایی هر کلمه در جمله، تا بتواند الگوی تأکید کلمات در هر جمله را مشخص نماید و اطلاعات لازم را برای درست خواندن جمله در اختیار قسمت سنتز صوت قرار دهد.در این راستا نیاز به یک تشریح گر NLP برای مدل سازی زبان فارسی می باشد.

 

فصل دوم

پردازشگر زبان طبیعی

 

 

 

تفاوت TTSباسیستم پاسخگوی صوتی:

بر خلاف سيستم‌هاي پاسخگوي صوتي (Voice Response Systems)، TTS قابليت اداي طبيعي جملات جديد را دارد [2]. شكل (1) شماي بلوكي كلي TTS طراحي شده در اين تحقيق را نشان مي‌دهد

1) Natural Language Processing

2) Part- Of- Speech

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “دانلود پایان نامه کامپیوتر : تبديل متن به گفتار”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *