چکیده : | زبان کردی که در دسته زبانهای هندواروپایی میباشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار میگیرد. علیرغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبانهای کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راهحل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی)KLPP(در دانشگاه کردستان شروع به کار کرده است. هدف اصلی پروژه، ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی میباشد. این گزارش، خروجیهای یک پایاننامه ارشد را که در چارچوب KLPP به انجام رسیده است، گزارش میکند. اولین خروجی این پروژه، مجموعه پیوان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی دوگویش اصلی زبان کردی- میباشد. این مجموعه یک منبع زبانشناسی غنی محسوب میشود و بصورت گسترده در تمامی بخشهای این پایاننامه برای تسهیل توسعه سایر ابزاها مورد استفاده قرار گرفته است. به دنبال ساخت این مجموعه اسناد، ما مجموعه آزمون پیوان را به عنوان یک سنگ محک برای سیستمهای بازیابی اطلاعات کردی، ایجاد میکنیم. پس از تولید این پیشنیاز ضروری، ما بر روی اهداف اصلی این پایاننامه، که شامل ساخت یک ریشهیاب، یک هستهیاب و یک غلطگیر، برای زبان کردی به طور عام و برای گویش سورانی به طور خاص میباشد، تمرکز میکنیم. برای این هدف، ابتدا ژیدهر، یک ریشهیاب مبتنی برقاعده (پشتیبانی کننده از هر دو گویش سورانی و کرمانجی) ایجاد و تاثیر آن را بر بهبود کارایی موتورهای جستجوی کردی نشان میدهیم. سپس، پهیو ، یک هستهیاب مستقل از فرهنگ لغت را ارائه میکنیم، که توانایی استخراج هسته کلمات مشتق (افعال یا اسامی) را دارد. پهیو ، مبتنی بر مجموعهای از قواعد ساختواژه میباشد، که آنها را از گویش سورانی گردآوری کردهایم. در نهایت، رینووس را که یک ابزار غلطگیر متون سورانی میباشد، ارائه میکنیم. غلطگیر از روشهای آماری، مبتنی برقاعده و فرهنگ لغت بهره میبرد. رینووس تنها برای تشخیص کلمات اشتباه ارائه نشده است، بلکه میتواند یک لیست از جایگزینهای بالقوه را به کاربر پیشنهاد کند. بسیار علاقهمندیم به این نکته اشاره شود که تمامی راهحلهای ارائه شده در این پایاننامه، پیادهسازی و کارایی آنها به صورت تجربی از طریق مطالعات آزمایشی مختلف بررسی شده است. اضافه بر آن، تمامی منابع زبانشناسی و ابزارهای نرمافزاری ارائه شده در طول این پایاننامه، به صورت دسترسی آزاد، در اختیار جامعه پژوهشی قرار گرفته است. امیدواریم که این کار، پژوهشهای بیشتر در حوزه پردازش زبان کردی را موجب شود. کلمات کلیدی: زبان کردی، بازیابی اطلاعات، پردازش زبان طبیعی، ریشهیابی، هستهیابی، غلطگیری
Kurdish is an Indo-European language spoken in a large geographical region spanning the intersections of Iran, Iraq, Turkey, and Syria. Despite having a large number of speakers, Kurdish is among the less-resourced languages and has not seen much attention from the information retrieval (IR) and natural language processing (NLP) research communities. In order to address this resource-scarceness problem, the Kurdish language processing project (KLPP) has been recently launched at University of Kurdistan. KLPP s primary aim is to provide the essential resources and tools for processing Kurdish texts. This report describes the outcomes of a Master s thesis that was carried out in the context of KLPP. The first outcome of this project is the Pewan corpus which contains a large number of documents written in Sorani and Kurmanji, the two main dialects of the Kurdish language. This corpus is a crucial linguistic resource and has been widely used throughout this thesis to facilitate the development of other resources. Building upon this corpus, we construct the Pewan test collection, an evaluation framework for Kurdish IR systems. After providing the necessary prerequisites, we then focus on the specific goals of this thesis which include building a stemmer, a lemmatizer, and a spell-checker for the Kurdish language in general and for the Sorani dialect in particular. To this end, we first build Jedar, a rule-based stemmer (supporting both Sorani and Kurmanji dialects) and show its effectiveness in improving the performance of Kurdish search engines. Next, we develop Peyv, a dictionary-independent lemmatizer which is capable of returning the proper root of any inflected word (verb or noun). Peyv relies on a rich set of morphological rules that we have compiled for the Sorani dialect. Finally, we build Renoos, a spell-checking tool for Sorani texts that leverages statistical as well as rule-based and dictionary-based knowledge. Renoos is able to not only detect the misspelled words, but also suggest a list of potential replacements to the user. We would like to note that all of the proposed solutions in this thesis have been implemented and their effectiveness has been empirically verified thorough experimental studies. Furthermore, all of the linguistic resources and software tools developed throughout this thesis have been made freely-available to the research community. We hope that this will bolster further research on Kurdish language processing. Key Words: Kurdish Language, Information Retrieval, Natural Language Processing, Stemming, Lemmatizing, Spell-Checking |