دسترسی همگانی(OPAC) نام کتابخانه در اوپک

ارائه الگوریتم‌های ریشه یاب و غلط گیر برای متون زبان کردی (پایان نامه) (1392) / صلواتی ، شاهین، نویسنده بازکردن لینک
نوع مدرک:متون چاپی
سرشناسهصلواتی ، شاهین، نویسنده
عنوان :ارائه الگوریتم‌های ریشه یاب و غلط گیر برای متون زبان کردی (پایان نامه)
تکرار نام مولف :شاهین صلواتی
ناشر:سنندج : کردستان
سال نشر :1392
ناشر دیگر :مهندسی
صفحه شمار:ط، 124 ص
ویژگی :مصور، جدول، نمودار
یادداشتزبان: فارسی
کتابنامه،واژه نامه و نمایهکتابنامه: ص. 124-119
توصیفگرهاغلطگیری  هسته‌یابی  ریشه‌یابی  پردازش زبان طبیعی  بازیابی اطلاعات  زبان کردی
چکیده :زبان کردی که در دسته زبان‌های هندواروپایی می‌باشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار می‌گیرد. علی‌رغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبان‌های کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راه‌حل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی)KLPP(در دانشگاه کردستان شروع به کار کرده است. هدف اصلی پروژه، ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی می‌باشد. این گزارش، خروجی‌های یک پایان‌نامه ارشد را که در چارچوب KLPP به انجام رسیده است، گزارش می‌کند. اولین خروجی این پروژه، مجموعه پیوان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی دوگویش اصلی زبان کردی- می‌باشد. این مجموعه یک منبع زبان‌شناسی غنی محسوب می‌شود و بصورت گسترده در تمامی بخش‌های این پایان‌نامه برای تسهیل توسعه سایر ابزاها مورد استفاده قرار گرفته است. به دنبال ساخت این مجموعه اسناد، ما مجموعه آزمون پیوان را به عنوان یک سنگ محک برای سیستم‌های بازیابی اطلاعات کردی، ایجاد می‌کنیم. پس از تولید این پیش‌نیاز ضروری، ما بر روی اهداف اصلی این پایان‌نامه، که شامل ساخت یک ریشه‌یاب، یک هسته‌یاب و یک غلطگیر، برای زبان کردی به طور عام و برای گویش سورانی به طور خاص می‌باشد، تمرکز می‌کنیم. برای این هدف، ابتدا ژیده‌ر، یک ریشه‌یاب مبتنی برقاعده (پشتیبانی کننده از هر دو گویش سورانی و کرمانجی) ایجاد و تاثیر آن را بر بهبود کارایی موتورهای جستجوی کردی نشان می‌دهیم. سپس، په‌یو ، یک هسته‌یاب مستقل از فرهنگ لغت را ارائه می‌کنیم، که توانایی استخراج هسته کلمات مشتق (افعال یا اسامی) را دارد. په‌یو ، مبتنی بر مجموعه‌ای از قواعد ساخت‌واژه می‌باشد، که آن‌ها را از گویش سورانی گردآوری کرده‌ایم. در نهایت، رینووس را که یک ابزار غلطگیر متون سورانی می‌باشد، ارائه می‌کنیم. غلطگیر از روش‌های آماری، مبتنی برقاعده و فرهنگ لغت بهره می‌برد. رینووس تنها برای تشخیص کلمات اشتباه ارائه نشده است، بلکه می‌تواند یک لیست از جایگزین‌های بالقوه را به کاربر پیشنهاد کند. بسیار علاقه‌مندیم به این نکته اشاره شود که تمامی راه‌حل‌های ارائه شده در این پایان‌نامه، پیاده‌سازی و کارایی آن‌ها به صورت تجربی از طریق مطالعات آزمایشی مختلف بررسی شده است. اضافه بر آن، تمامی منابع زبان‌شناسی و ابزارهای نرم‌افزاری ارائه شده در طول این پایان‌نامه، به صورت دسترسی آزاد، در اختیار جامعه پژوهشی قرار گرفته است. امیدواریم که این کار، پژوهش‌های بیشتر در حوزه پردازش زبان کردی را موجب شود. کلمات کلیدی: زبان کردی، بازیابی اطلاعات، پردازش زبان طبیعی، ریشه‌یابی، هسته‌یابی، غلطگیری
Kurdish is an Indo-European language spoken in a large geographical region spanning the intersections of Iran, Iraq, Turkey, and Syria. Despite having a large number of speakers, Kurdish is among the less-resourced languages and has not seen much attention from the information retrieval (IR) and natural language processing (NLP) research communities. In order to address this resource-scarceness problem, the Kurdish language processing project (KLPP) has been recently launched at University of Kurdistan. KLPP s primary aim is to provide the essential resources and tools for processing Kurdish texts. This report describes the outcomes of a Master s thesis that was carried out in the context of KLPP. The first outcome of this project is the Pewan corpus which contains a large number of documents written in Sorani and Kurmanji, the two main dialects of the Kurdish language. This corpus is a crucial linguistic resource and has been widely used throughout this thesis to facilitate the development of other resources. Building upon this corpus, we construct the Pewan test collection, an evaluation framework for Kurdish IR systems. After providing the necessary prerequisites, we then focus on the specific goals of this thesis which include building a stemmer, a lemmatizer, and a spell-checker for the Kurdish language in general and for the Sorani dialect in particular. To this end, we first build Jedar, a rule-based stemmer (supporting both Sorani and Kurmanji dialects) and show its effectiveness in improving the performance of Kurdish search engines. Next, we develop Peyv, a dictionary-independent lemmatizer which is capable of returning the proper root of any inflected word (verb or noun). Peyv relies on a rich set of morphological rules that we have compiled for the Sorani dialect. Finally, we build Renoos, a spell-checking tool for Sorani texts that leverages statistical as well as rule-based and dictionary-based knowledge. Renoos is able to not only detect the misspelled words, but also suggest a list of potential replacements to the user. We would like to note that all of the proposed solutions in this thesis have been implemented and their effectiveness has been empirically verified thorough experimental studies. Furthermore, all of the linguistic resources and software tools developed throughout this thesis have been made freely-available to the research community. We hope that this will bolster further research on Kurdish language processing. Key Words: Kurdish Language, Information Retrieval, Natural Language Processing, Stemming, Lemmatizing, Spell-Checking
لینک فایل دیجیتالی :https://libapp.uok.ac.ir/faces/search/bibliographic/biblioFullView.jspx?_afPfm=1 [...]
لینک ثابت رکورد:../opac/index.php?lvl=record_display&id=15876
زبان مدرک :فارسی
شماره ثبتشماره بازیابینام عام موادمحل نگهداریوضعیت ثبتوضعیت امانت
فاقد شماره ثبت