چکیده : | چکیده رویه تبدیل متن به گفتار از دو بخش اصلی سطح بالا (تحلیل متن) و سطح پایین (تولید گفتار) تشکیل شده است. در قسمت سطح بالا، متن ورودی به شکلی درمیصآید که در مرحله دوم قابل استفاده باشد. تا به حال روشصهای گوناگونی برای تولید گفتار در قسمت سطح پایین به کار رفته است که در این میان سه روش تولیدی، مبتنی بر فرمنت و اتصالی بیشترین کاربرد را داشتهصاند. روش مبتنی بر فرمنت بر اساس اختلاف فرمنتصها در اصوات مختلف کار کرده و در طی دههصهای گذشته بیشترین استفاده را داشته است. با این وجود در سالصهای اخیر روش اتصالی که بر اساس اتصال واحدهای از پیش ضبط شده کار میصکند، محبوبیت بیشتری یافتهصاند. به لحاظ نظری، دقیقصترین و کاملصترین روش برای تولید گفتار، روش تولیدی است که بر اساس مدل کردن دستگاه تولید گفتار انسان کار میصکند. با این وجود به لحاظ عملی این روش هنوز دارای پیچیدگیصهای زیادی بوده و بنابراین زیاد مورد استفاده قرار نگرفته است. در طول دههصهای اخیر و همزمان با توسعه روشصهای تبدیل متن به گفتار، این سیستمصها در حوزهصهای بیشتری کاربرد پیدا کردهصاند. گفتار مصنوعی میصتواند به منظور خواندن پستصهای الکترونیکی، کاربرد در ابزارهای چندرسانهصای و به طور خلاصه برای تعامل بین انسان و ماشین به کار رود. علاوه بر این موارد، ارزیابی کیفیت گفتار تولید شده هم یکی دیگر از پارامترهای بسیار مهم است که البته به سادگی قابل دستیابی نیست. به همین منظور بازه گستردهصای از روشصهای ارزیابی به وجود آمدهصاند که هر کدام برخی از جنبهصهای گفتار را مورد بررسی قرار میصدهند. امروزه برای بسیاری از زبانصهای دنیا، سیستمصهای تبدیل متن به گفتار با کیفیتصهای مختلف به وجود آمده است. در این پایانصنامه، ما سه سیستم مختلف تبدیل متن به گفتار را برای زبان کردی و بر اساس واحدهای واجصگونه، هجا و دایفون طراحی و پیادهصسازی کردهصایم. در هر سه این سیستمصها از روشص اتصالی برای تولید گفتار استفاده شده است. شرح مختصری از هر کدام از این سیستمصها و واحدهایشان به همراه ویژگیصهای خاص زبان کردی بیان شده است. همچنین نحوه تولید اطلاعات نوایی و راهکارهایی برای افزایش میزان طبیعی بودن گفتار تولید شده ارائه شده است. در نهایت هم چالش های موجود و کارهایی که در آینده می تواند در راستای تکمیل این پایانصنامه انجام گیرد مورد بررسی قرار گرفته اند. کلمات کلیدی: سیستم تبدیل متن به گفتار، زبان کردی، روش های اتصالی، واج گونه، هجا و دایفون
ABSTRACT The text-to-speech procedure consists of two main phases, usually called high- and low-level synthesis. In high-level synthesis the input text is converted into such form that the low-level synthesizer can produce the output speech. The three basic methods for low-level synthesis are the formant, concatenative, and Articulatory synthesis. The formant synthesis is based on the modeling of the resonances in the vocal tract and is perhaps the most commonly used during last decades. However, the concatenative synthesis which is based on playing prerecorded samples from natural speech is becoming more popular. In theory, the most accurate method is Articulatory synthesis which models the human speech production system directly, but it is also the most difficult approach. Since the quality of synthetic speech is improving steadily, the application field is also expanding rapidly. Synthetic speech may be used to read e-mail and mobile messages, in multimedia applications, or in any kind of human-machine interaction. The evaluation of synthetic speech is also an important issue, but difficult because the speech quality is a very multidimensional term. This has led to the large number of different tests and methods to evaluate different features in speech. Today, speech synthesizers of various qualities are available as several different products for all common languages. In this thesis, we design and implement three Kurdish Text-to-Speech (TTS) systems based on allophone, syllable, and diphone. These systems are based on the state of the art of concatenate speech synthesizers. A brief review of the major systems components are presented with some emphasis on the features that are relevant to the Kurdish language. In particular, how to generate prosodic information for improving naturalness and intelligibility of Kurdish TTS output are studied. Remaining challenges and future research directions are also discussed. Key-words: Text-to-Speech system, Kurdish language, Concatenative method, Diphone, Syllable, and Allophone |