| چکیده : | زبان کردی در دسته زبان¬های هند و اروپایی می¬باشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار می¬گیرد. علی¬رغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبان¬های کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است.بر همین اساس، با هدف ارائه راه¬حل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی (KLPP) در دانشگاه کردستان و علوم تحقیقات شروع به کار کرده است. هدف اصلی این پروژه ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی می¬باشد. این گزارش، خروجی یک پایان¬نامه ارشد را که در چارچوب KLPP به انجام رسیده است، گزارش می¬کند.اولین خروجی این پروژه مجموعه پێوان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی – دو شاخه اصلی زبان کردی- می¬باشد. این مجموعه یک منبع زبان¬شناسی غنی محسوب می¬شود و در تمامی بخش¬های پایان¬نامه به عنوان مجموعه داده مورد استفاده قرار گرفته است. به دنبال ساختن این مجموعه اسناد، ما مجموعه آزمون پێوان را به عنوان یک سنگ محک برای سیستم¬های بازیابی اطلاعات کردی، ایجاد می¬کنیم.پس از تولید مجموعه آزمون پێوان، به اهداف دیگر پایان¬نامه یعنی تطبیق روش¬های انتخاب ویژگی برای زبان کردی می¬پردازیم. تا کنون، مطالعات بسیار اندکی به منظور دسته¬بندی متون کردی صورت گرفته است، به همین منظور، در این پروژه سعی شده روش¬های انتخاب ویژگی که تاثیر زیادی در دسته¬بندی مناسب متون دارند با زبان کردی تطبیق داده شود. ویژگی¬های انتخابی نقش بسزایی در کارایی دسته¬بندی متون دارند و کاملا وابسته به ساختار زبان متون می¬باشند. به همین دلیل، روش¬های مختلف انتخاب ویژگی به منظور کاهش ابعاد بردار ویژگی مورد بررسی قرار گرفته است و بهترین روش¬ها با هم ترکیب شده¬¬اند. بسیار علاقه¬مندیم به این نکته اشاره شود که تمامی راه¬حل¬های ارائه شده در این پایان¬نامه پیاده-سازی و کارایی آن¬ها به¬صورت تجربی از طریق مطالعات آزمایشی مختلف بررسی شده است. اضافه بر آن، تمامی منابع زبان¬شناسی و ابزارهای ارائه شده در طول این پایان¬نامه، به صورت دسترسی آزاد، در اختیار جامعه پژوهشی قرار گرفته است
Kurdish is an Indo-European language spoken in a large geographical region spanning the intersection of Iran,Iraq,Turkey and Syria. Despite having a large number of speakers, Kurdish is among the less-resourced languages and has not seen much attention from the information retrieval (IR) and natural language processing (NLP) research communities.In order to address this resource-scarceness problem, the Kurdish language processing projects (KLPP) has been launched at University of Kurdistan. KLPP̓s primary aim is to provide the essential resources and tools for processing Kurdish texts. This report describes the outcomes of a Master’s thesis that was carried out in the context of KLPP.The first outcome of this project is the Pewan corpus which contains a large number of documents written in Sorani and Kurmanji, the two main dialects of the Kurdish language. This corpus is a crucial linguistic resource and has been widely used throughout this thesis to facilitate the development of other resources. Building upon this corpus, we construct the Pewan test collection, an evaluation framework for Kurdish IR systems. After providing the necessary prerequisites, we then focus on the specific goals of this thesis which include accommodating feature selection methods to Kurdish language. For Kurdish classification, few studies have been done till now, so in this project we try to match the feature selection methods to Kurdish language and find the best match methods to Kurdish language structure. Text classification include different steps such as feature extraction,weighting extracted method,selecting best features, making document vectors and implementing classification methods based on vector of document. Selected features have important role in text category that is completely depended on language structure. In the begining of project, we provide two datasets then preprocessing has been done. Two ways of extracting methods have been studied and based on them, vector of documents have been built. Then, feature selection methods to decrease the features have been investigated and best methods have been combined. Finally, to choose the inline algorithms classification algorithms have been implemented.We would like to note that all of the proposed solutions in this thesis have been implemented and their effectiveness has been empirically verified thorough experimental studies. Furthermore, all of the linguistic resources and software tools developed throughout this thesis have been made freely-available to the research community. We hope that this will bolster further research on Kurdish language processing |