مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

دانشـکده مهندسـی

پایان‌نامه کارشناسی ارشد در رشته مهندسی کامپیوتر (نرم افزار)

مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

 

چکیده

 

مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

 

اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون هم‌ترجمه تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی استفاده می‌کنند. اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می‌شوند. در طرف دیگر پیکره‌های تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست می‌آید. پیکره‌های تطبیقی شامل متون هم‌ترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.

پیکره‌های تطبیقی شامل جملاتی هستند که می‌توانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه می‌شود از سه مرحله اصلی تشکیل می‌شود: (۱) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (۲) انتخاب جفت جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه و در نظر گرفتن ویژگی‌های مربوط به طول دو جمله، کلمات مشترک آنها و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله (۳) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را می‌توان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیک‌ترین جمله انجام داد.

در انتها کارآیی مدل ارائه شده در دو بخش (۱) ارزیابی طبقه‌بند آنتروپی بیشینه طراحی شده و (۲) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی می‌شود.

 

فهرست مطالب

 

 

عنوان                                           صفحه

 

  1. مقدمه.. ۲

۱-۱٫ مقدمه.. ۲

۱-۱-۱٫ ترجمه ماشینی مبتنی بر فرهنگ لغت.. ۳

۱-۱-۲٫ ترجمه ماشینی مبتنی بر قانون.. ۴

۱-۱-۳٫ ترجمه ماشینی مبتنی بر دانش.. ۵

۱-۱-۴٫ ترجمه ماشینی مبتنی بر پیکره.. ۵

ترجمه ماشینی آماری.. ۶

ترجمه ماشینی مبتنی بر مثال.. ۶

ترجمه ماشینی مبتنی بر متن.. ۷

۱-۲٫ ضرورت ساخت پیکره موازی.. ۷

۱-۳٫ مسئله تحقیق: ساخت پیکره موازی.. ۹

۱-۴٫ هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی.. ۱۰

۱-۵٫ سرفصل‌ها.. ۱۰

۱-۵-۱٫ فصل دوم: مبانی نظری.. ۱۰

۱-۵-۲٫ فصل سوم: مروری بر تحقیقات انجام شده.. ۱۱

۱-۵-۳٫ فصل چهارم: مدل پیشنهادی.. ۱۱

۱-۵-۴٫ فصل پنجم: ارزیابی و نتیجه گیری.. ۱۲

  1. مبانی نظری.. ۱۴

۲-۱٫ پیکره.. ۱۴

۲-۱-۱٫ پیکره موازی.. ۱۵

۲-۱-۲٫ پیکره تطبیقی.. ۱۷

۲-۲٫ همترازی.. ۱۸

۲-۲-۱٫ همترازی در سطح سند.. ۱۹

۲-۲-۲٫ همترازی در سطح جمله.. ۱۹

۲-۲-۳٫ همترازی در سطح کلمه (همترازی لغوی).. ۲۱

همترازی لغوی با استفاده از مدل‌های آی‌بی‌ام.. ۲۲

۲-۳٫ ارزیابی ترجمه ماشینی.. ۲۳

۲-۳-۱٫ بلو.. ۲۳

۲-۳-۲٫ متریک NIST. 24

2-3-3. نرخ خطای کلمه.. ۲۴

۲-۳-۴٫ نرخ خطای ترجمه (TER).. 25

  1. مروری بر تحقیقات انجام شده.. ۲۸

۳-۱٫ مقدمه.. ۲۸

۳-۲٫ ساخت پیکره موازی از روی متون هم‌ترجمه.. ۲۸

۳-۳٫ استخراج جملات موازی از وب.. ۳۰

۳-۴٫ استخراج جملات موازی از پیکره‌های تطبیقی.. ۳۲

۳-۵٫ تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه   ۳۴

۳-۶٫ ساخت پیکره موازی انگلیسی – فارسی.. ۳۶

  1. مدل پیشنهادی.. ۳۹

۴-۱٫ مقدمه.. ۳۹

۴-۲٫ انتخاب جفت جملات کاندید موازی بودن.. ۴۰

۴-۲-۱٫ فیلتر کلمات مشترک.. ۴۱

تبدیل کدگذاری کاراکترها.. ۴۲

مشخص کردن مرز جمله‌ها و کلمه‌ها.. ۴۳

ریشه‌یابی.. ۴۴

حذف کلمات پرتکرار.. ۴۵

رفع ابهام.. ۴۵

جستجوی معانی از دیکشنری.. ۴۶

گروه بندی کلمات تکراری جمله به همراه تعداد رخدادشان در جمله   ۴۶

الگوریتم یافتن نرخ کلمات مشترک (از طرف مبدأ).. ۴۷

۴-۳٫ انتخاب جفت جملات موازی از بین جفت جملات کاندید.. ۴۸

۴-۳-۱٫ طبقه‌بند آنتروپی بیشینه.. ۴۸

۴-۳-۲٫ ویژگی‌های عمومی.. ۴۹

ویژگی‌های مبتنی بر طول دو جمله.. ۴۹

نرخ کلمات مشترک.. ۵۰

۴-۳-۳٫ ویژگی‌های مبتنی بر همترازی در سطح کلمه یک جفت جمله   ۵۰

کلمات همتراز نشده.. ۵۰

باروری.. ۵۱

محدوده پیوسته.. ۵۲

نمره همترازی.. ۵۳

۴-۴٫ بالا بردن دقت جفت جملات موازی استخراج شده.. ۵۴

۴-۵٫ شیوه ارزیابی مدل.. ۵۵

  1. ارزیابی و نتیجه گیری.. ۵۸

۵-۱٫ ارزیابی طبقه‌بند آنتروپی بیشینه.. ۵۸

۵-۱-۱٫ ارزیابی ویژگی‌ها.. ۵۸

۵-۱-۲٫ حساسیت به دامنه.. ۶۰

۵-۲٫ تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی.. ۶۳

۵-۲-۱٫ پیکره تطبیقی مورد استفاده.. ۶۳

پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC).. 63

پیکره تطبیقی گرفته شده از مقالات ویکی پدیا.. ۶۵

۵-۲-۲٫ پارامترهای تنظیم شده و ابزار مورد استفاده.. ۶۶

انتخاب جفت جملات کاندید:.. ۶۶

انتخاب جفت جملات موازی:.. ۶۸

بالا بردن دقت جفت جملات استخراج شده:.. ۶۹

۵-۲-۳٫ ارزیابی جملات موازی استخراج شده با استفاده از ماشین ترجمه   ۶۹

۵-۳٫ نتیجه گیری.. ۷۲

۵-۴٫ پیشنهادات آینده.. ۷۵

 

 

 

 

فهرست جداول

 

 

عنوان                                           صفحه

 

جدول ۵-۱٫ مجموعه ویژگی‌ها.. ۵۹

جدول ۵-۲٫ ارزیابی مجموعه ویژگی‌ها.. ۵۹

جدول ۵-۳٫ حساسیت کارآیی طبقه‌بند به دامنه داده‌های آموزشی و آزمایشی   ۶۱

جدول ۵-۴٫ کارآیی طبقه‌بند در برابر داده‌های آزمایشی و آموزشی با دامنه‌های مختلف   ۶۲

جدول ۵-۵٫ شرح پیکره‌های آموزشی مورد استفاده در هر اجرا   ۷۰

جدول ۵-۶٫ نمره بلوی به دست آمده به ازای پیکره‌های آموزشی متفاوت   ۷۱

جدول ۵-۷٫ نمره بلوی به دست آمده به ازای پیکره‌های آموزشی متفاوت   ۷۲

جدول ۵-۸٫ارزیابی ماشین‌ترجمه ساخته شده با پیکره‌های آموزشی متفاوت در قالب نرخ n-gram‌ های مشترک                                  ۷۲

 

 

 

فهرست شکل‌ها

 

 

عنوان                                           صفحه

 

شکل ۱-۱٫ دسته‌بندی روش‌های ترجمه ماشینی.. ۳

شکل ۲-۱٫ نمونه‌ای از دو متن همتراز شده در سطح جمله   ۲۰

شکل ۲-۲٫ همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل گراف دو بخشی   ۲۱

شکل ۲-۳٫ همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل جدول همترازی   ۲۱

شکل ۲-۴٫ مثالی از نحوه محاسبه نمره TER. 25

شکل ۴-۱٫ شمای کلی مدل تولید پیکره موازی از روی پیکره تطبیقی   ۴۰

شکل ۴-۲٫ کلمات مشترک بین دو جمله فارسی و انگلیسی   ۴۱

شکل ۴-۳٫ الگوریتم یافتن نرخ کلمات مشترک   ۴۷

شکل ۴-۴٫ همترازی در سطح کلمه بین دو جمله غیرموازی   ۵۲

شکل ۴-۵٫ همترازی در سطح کلمه بین دو جمله موازی   ۵۳

شکل ۴-۶٫ فرآیند ارزیابی جفت جملات موازی استخراج شده   ۵۶

شکل ۵-۱٫ نمونه‌ای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران………………………………… ………………………………………………………………………………………. ۶۴

شکل ۵-۲٫ کلمات پرتکرار انگلیسی.. ۶۷

 

به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفه‌ای دشوار است. در چنین موقعیتی ترجمه ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته شود.

ترجمه ماشینی بعد از ۶۵ سال یکی از قدیمی‌ترین کاربردهای کامپیوتر است. در طول سال‌ها، ترجمه ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده است.

 

12000 تومان – خرید