ترجمه ماشینیترجمه ماشینی

امیر شهاب شهابی( دانشگاه آزاد اسلامی) و دكتر عبدالحسین صراف زاده(استاد یار دانشگاه تربیت معلم )

مقدمه

ترجمه خودكار متون، جزو اولین كاربردهای غیر محاسبه ای كامپیوتر است. ایده ترجمه ماشینی اولین بار در بحثی بین وارن ویور و آندره بوث شكل گرفت ( بوث، 1953 ). مدل آنان بر اساس جداولی طراحی شده بود كه در آنها برای رمز گشایی، از تواتر كلمات و حروف استفاده می شد.

با پیدایش تكنیك هایی چون جست و جوی دودوئی و روش تقلیل مسأله در الگوریتم های برنامه سازی و ایده ویرایش ثانویه در ترجمه، اعتقاد به عملی بودن ترجمه ماشینی قوت گرفت. در پایان دهه 50 و اوایل 60، COMIT به عنوان اولین زبان همه منظوره پردازش نماد مطرح شد و برنامه های كمكی واژه پرداز به مرحله پیاده سازی رسید. از سوی دیگر در زمینه زبان شناسی، نسبت به ساخت جملات زبان، دید الگوریتمیكی تحت عنوان دستور زبان گشتاری مطرح گردید ( چامسكی، 1975 )

نتیجه پروژه های دهه 60 كه بیشتر از آنها برای مقاصد سیاسی استفاده می شد، پیدایش دو شاخه اصلی در روش های ترجمه ماشینی بود. یكی از این روش ها استفاده از فرم های اصلاح شده دستور زبان گشتاری و دیگری استفاده از اطلاعات آماری در مورد نقش كلمات در جمله و ترجمه آنها بود. در پایان دهه 70، اعتقاد عمومی بر آن بود كه ترجمه ماشینی باید پیچیده تر از جابه جایی و جایگذاری كلمات زبان مبدا برای رسیدن به زبان مقصد باشد و ماشین باید به نوعی یك فهم از معنای هر دو نوشتار پیدا كند. این اعتقاد راه را برای استفاده از تكنیك های جدید هوش مصنوعی و به خصوص پردازش زبان طبیعی در ترجمه ماشینی هموار كرد.

در این مقاله با مرور بر ادبیات تحقیق، ابتدا به پژوهش هایی كه در زمینه درك متن فارسی و چگونگی واكافت واژه ای، ساختواژی، نحوی ومعنایی صورت گرفته، اشاره شده است و سپس اجزا و اركان یك سامانه مترجم فارسی بیان و مهمترین ركن آن یعنی رفع ابهام معنایی از كلمات جمله های فارسی، مطرح گردیده است. در ضمن، روش های مختلف حل این مشكل به اختصار بررسی و در پایان به موانع پرداخته شده است. از آنجا كه در زمینه ترجمه ماشینی زبان فارسی كمتر مطالعه شده است، این تحقیق سعی در تعمیم مطالعات به زبان فارسی دارد.

پردازش زبان فارسی

در سال 1372، در آزمایشگاه پردازش زبان طبیعی داشنگاه صنعتی شریف، مهرنوش شمس فرد ( 1373 ) سامانه ای به نام دنا طراحی و پیاده نمود. در این سامانه با به كارگیری نظریه وابستگی مفهومی شنك ( 1975 )، جمله های فارسی به شبكه ای از مفهوم ها و روابط میان آنها تبدیل می شوند. گام های گوناگون پردازش جملات عبارت اند از واكافت واژه ای، واكافت ساختواژی، واكافت نحوی، واكافت معنایی و استنتاج.

پس از آن، سه پروژه دیگر با تمركز بر بخش های گوناگون سامانه دنا 1 تعریف و اجرا شدند. هر یك از این پروژه ها سعی در گسترش یكی از بخش های این سامانه داشتند. یكی از آنها پروژه ای است كه روی پردازش نحوی جمله های نسبتا پیچیده زبان فارسی از جمله گروه های اسمی و جمله های مركب متمركز بوده ( مهدیه، 1376 ). پروژه دیگر به طراحی و پیاده سازی بخش واژگان و نیز اركان ساختواژی پرداخته ( رضا نیا، 1376 ) و سرانجام سومین پروژه، بخش استنتاج گر را با عمق بیشتری مورد توجه قرار داده است ( امامی، 1376 ).

برای درك جمله های زبان فارسی، پس از برداشتن گام های گوناگون در زمینه پردازش ساختواژی و نحوی و پیش از به كارگیری شیوه های استنتاج باید چارچوب مناسبی برای بازنمایی معنای جمله ها در نظر گرفته شود تا ضمن پردازش معنایی، جمله ها به این زبان بازنمایی تبدیل شوند. با توجه به اهمیت پردازش معنایی در یك سامانه درك متن و ضرورت كار بیشتر در این زمینه، پروژه ای برای بررسی شیوه های بازنمایی معنا، و انتخاب یك شیوه مناسب برای سامانه دنا 2 تعریف شد كه در طی اجرای پروژه با بررسی برخی شیوه های بازنمایی معنا، روش گراف های مفهومی به دلیل تمركز تعداد زیادی از سامانه های زبان طبیعی بر آن، به عنوان شیوه مناسب تر انتخاب شد ( فضلی، 1377 ).

در تحقیق دیگری ( شهابی، 1376 )، ابتدا،‌جمله های فارسی در محدوده معنایی خاص ( درخواست اشتغال به كار افراد برای یك سازمان ) توسط سیستم طراحی شده اخذ می شد. در گام اول، پردازش روی شناخت واژه های آن و یا به عبارت دیگر واكافت واژه ای صورت می گرفت كه هر نشانه از جمله با حروف آن خوانده می شد و پس از اتمام كلمه، تشخیص داده می شد كه چه كلمه ای است و آیا جزو كلمات با معنی زبان است یا خیر؟ سپس، گام دوم یعنی واكافت ساختواژی شروع می شد. به این معنا كه آیا كلمه های مركب از تركیب صحیحی تشكیل شده اند یا خیر؟ پس از آن، گام سوم یعنی واكافت نحوی صورت می گرفت. یعنی آیا كلمه های تشكیل دهنده جمله دستور زبان فارسی را رعایت كرده اند و آیا جمله مزبور متعلق به زبان می باشد یا خیر؟ این كار را سیستم به كمك دستور زبانی كه برای جمله های فارسی در آن تعبیه شده است انجام می دهد. این دستور زبان كلیه جمله های فارسی را شامل می شود و در واقع پایانه های آن به كلمه فارسی ختم می شود و در واقع پایانه های آن به كلمه های فارسی ختم می شود ( باطنی، 1374 )، پس از اینكه جمله اصلی تشخیص داده شد، شاید ژرف ساخت نیاز به به تبدیل داشته باشد؛ مثلا برای به دست آوردن جمله های سوالی یا مجهول و غیره احتیاج به نوعی گشتار است كه ژرف سخت به رو ساخت تبدیل نماید ( مشكوة الدینی، 1374 ) كه سیستم با وجود گشتارهای موجود روی زبان با تبدیل ژرف ساخت به رو ساخت به جمله مزبور می رسد و واكافت نحوی پایان می یابد. گام بعدی، واكافت معنایی یا استنباط معنا از جمله مذكور است. در این مرحله از یك شبكه معنایی به عنوان بازنمایی دانش موجود درمعنای جمله استفاده شده است.

در یك تحقیق دیگر ( شریفی، 1376 )، درك معنای جمله ها در ترجمه ماشینی به شكل دیگری صورت گرفته است و از هیچ یك از روش های فوق برای رسیدن به معنای جمله و نگهداری آن در یك پایگاه دانش استفاده نشده است. در این روش سعی شده است روشی جهت ماشینی كردن عمل ترجمه از یك زبان محاوره ای به زبان محاوره ای دیگر ارائه شود. برای رسیدن به این مقصود با در توجه به پیدایش شاخه های جدید هوش مصنوعی در زمینه شبیه سازی رفتار انسان و یادگیری ماشین، چگونگی پیاده سازی مترجم در قالب یك سیستم یادگیرنده ارائه شده است. این مترجم با استفاده از تجربیات قبلی خود در زمینه ترجمه تك تك كلمات و ترتیب قرار گرفتن آنها در جمله،‌ترجمه جملات با ساختارها و كلمات جدید را حدس می زند و به صورت پویا به تكمیل دانش خود در این زمینه می پردازد. از آنجا كه در این روش ترجمه، برای طراحی الگوریتم های ارائه شده جهت ایجاد پایگاه دانش و استنتاج دانش از آن از هیچ گونه اطلاعات پیش فرضی در زمینه چگونگی ساختار جملات زبان های مبدا و مقصد و نقش كلمات در جمله استفاده نشده است، مترجم حاضر مستقل از زبان های مبدا و مقصد، توانایی انجام عمل ترجمه از هر زبان به زبان دیگر را دارد.

ترجمه ماشینی

برای اینكه بتوان جمله ای را از یك زبان ترجمه و به زبان دیگری تبدیل نمود، ابتدا به یك روال تشخیص واژه ها یا واكافت واژه ای و واكافت ساختواژی نیاز می باشد، به طوری كه كلمات ساده و مركب آن زبان از ورودی تشخیص داده شود. سپس باید تركیب كلمات از نظر نحوی صحیح باشد و جمله متعلق به آن زبان را ایجاد نماید. حال برای اینكه این جمله به زبان دیگری برگردان شود، باید نقش و معنای هر كلمه مشخص و با توجه به دستور زبان مقصد و ترجمه كلمه با توجه به نقش آن، جمله زبان مقصد تولید شود. بنابراین دیده می شود كه مهمترین بخش، مشخص كردن نقش و معنای كلمات می باشد نقش كلمات با توجه به محل قرار گرفتن آن در جمله مشخص می گردد، اما مسئله مهم معنی كلمات می باشد؛ چرا كه تعدادی از كلمات دارای چند معنی می باشد كه این ابهام باید به روش مناسبی رفع گردد ( مانینگ و شوتس، 2000 ). در ترجمه ماشینی ابهام هم در معنای كلمات زبان مبدا وجود دارد ( از نظر درك معنی آن ) و هم در زبان مقصد و همین باعث می گردد روند ترجمه دچار مشكل شود. در ادامه، بیشتر به روش های حل این مشكل و موانعی كه در زبان فارسی وجود دارد، پرداخته می شود.

 رفع ابهام معنایی كلمات

یكی از اولین مشكلاتی كه هر سیستم پردازش زبان طبیعی با آن درگیر است، مسئله ابهام معنایی و ساختاری كلمات است. بخش عمده ای از این ابهام به كمك روالی به نام نشانه گذار بخش كننده جملات كه برای تعیین نقش كلمات در جمله به كار می رود، مرتفع می گردد( دلماس و زاورل، دمتریو و اتول، 2000؛ ویلكس، 1997 ). روال مذكور با تعیین نقش كلمه، ابهام ساختاری آن را مرتفع و در پیدا كردن معنای صحیح كلمات كمك شایانی می نماید. البته ابهام معنایی كلمات خیلی پیچیده تر از ابهام ساختاری آن است و برای رفع آن به روش های پیچیده تر نیاز است. ولی روش نشانه گذار بخش كننده جملات در پیدا كردن معنای دقیق كمك می كند و مراحل اولیه آن را انجام می دهد. در واقع، رفع ابهام از معنای یك كلمه بر می گردد به اینكه آن كلمه در چه جمله ای به كار رفته و با چه كلماتی همنشین گردیده است؛ چرا كه یك كلمه در یك جمله یك معنی می دهد، در حالی كه همان كلمه در جمله دیگر معنای دیگری به خود می گیرد.

رفع ابهام از معنای كلمات جملات یك زبان، از سه راه كلی می تواند انجام پذیرد كه هر راه خود روش های متعددی دارد: اول روش ابهام با مربی یا سرپرست است كه مبنای آن مجموعه آموزشی برچسب دار است. روش دوم رفع ابهام بر مبنای منابع لغوی مانند فرهنگ لغت و یا فرهنگ تساروس است ( ویلكس و استیونس، 1997 و 1998 ). و بالاخره روش سوم رفع ابهام بدون مربی یا سرپرست است كه در این حالت تنها مجموعه لغات و متون بدون برچسب در دسترس است ( كیت و ویلكس، 2000 ).

الف) روش رفع ابهام با مربی

در این روش یك مجموعه لغات ابهام زدایی شده برای آموزش در دسترس است. این مجموعه، نمونه كلماتی است كه هر كدام یك كلمه مبهم W می باشند و هر معنی آنها با یك برچسب معنایی متناسب با متنی كه در آن قرار می گیرند تعریف شده اند ( SK ).

این كار باعث می شود كه بتوان یك طبقه بندی آماری با سرپرست روی كلمات انجام داد. وظیفه اصلی این روش، ایجاد یك روتین طبقه بندی كننده است كه كلمات جدید را بر اساس متن هایی كه قبلا تعریف شده اند ( CI ) در طبقه مناسب خود قرار می دهد. رد رفع ابهام باسرپرست روش های مختلفی وجود دارد كه از جمله آنها می توان از طبقه بندی بیس را نام برد ( دیو و دلمانس، 2000 ) و نیز نظریه اطلاعات كه رفع ابهام بر مبنای آن نظریه صورت می گیرد ( مانینگ و شوتس، 2000 ).

ب)‌روش رفع ابهام بر مبنای فرهنگ لغت

اگر اطلاعاتی در مورد طبقه بندی معنایی یك كلمه وجود نداشته باشد، در این صورت می توان از مشخصات عمومی معنای یك كلمه در فرهنگ لغت استفاده نمود. در این روش، تا كنون از سه نو اطلاعات استفاده شده است. نوع اول روش لسك است كه مستقیما از تعریف معنای كلمات در فرهنگ لغت استفاده می شود. نوع دوم كه نشان می دهد چگونه از اطلاعات طبقه بندی شده موجود در فرهنگ لغت می توان طبقه بندی معنایی یك كلمه را با توجه به متنی كه آن كلمه در آن وجود دارد، به دست آورد. ( یارافسكی، 199222 ) و سوم اطلاعاتی است كه از ترجمه یك كلمه به كمك یك فرهنگ لغت دو زبانه به دست می آید و استفاده از معنای كلمه در زبان مقصد برای رفع ابهام از معنای كلمه.

ج) رفع ابهام بدون مربی

در این روش بدون اینكه اطلاعاتی در زمینه معنای لغات وكلمات به كار رفته در متن موجود باشد،‌ابتدا كلمات از نظر معنایی خوشه بندی و سپس بررسی می شود كه هر كلمه جدید به كدام خوشه نزدیك تر است و به آن تعلق دارد و با توجه به اینكه به هر خوشه معنای خاصی اختصاص داده شده است، آن معنی برای آن لغت در نظر گرفته می شود و در ترجمه مورد استفاده قرار می گیرد. در دو روش قبلی، برای رفع ابهام به یك سری اطلاعات اولیه از معنای لغات نیاز بود، اما شرایطی، اگر چه نادر، پیش می آید كه هیچ گونه اطلاعاتی از معنای كلمات در دسترس نیست؛ مثلا در مورد اصطلاحات فنی و یا پزشكی كه در فرهنگ های لغت عمومی پیدا نمی شود. در این حالات خاص است كه روش رفع ابهام بدون سرپرست یا مربی مناسب است و در به دست آوردن معنای صحیح كلمه با توجه به متن كمك زیادی می نماید (‌كیت و ویلكس، 2000 ؛ مانینگ و شوتس، 200 ).

موانع ترجمه ماشینی زبان فارسی

همان طور كه در بالا توضیح داده شد،‌ مهمترین بخش یك سامانه مترجم ماشینی، تشخیص نقش كلمات در جمله و تشخیص معنای صحیح آنها با توجه به متنی است كه آن كلمه در آن قرار گرفته است. برای تشخیص معنای صحیح كلمات از سه روش می توان استفاده نمود: در روش اول برای آموزش سامانه به یك مجموعه كلمات فارسی ابهام زدایی شده نیاز می باشد تا از روی آن بتوان عمل رفع ابهام برای كلمات جدید را در متن های مختلف انجام داد كه متأسفانه هنوز این مجموعه به صورت یك فرهنگ فارسی قابل خواندن برای ماشین تهیه و تدوین نگردیده است. یعنی این اطلاعات به صورت دستی وجود دارند، اما نسخه رایانه ای از آنها با یك استاندارد معین برای تعریف هر كلمه و معنی و نقش های مختلف آن وجود ندارد. بدیهی است برای این كار ابتدا باید با یك مركز زبان شناسی معتبر، استاندارد ذخیره سازی اطلاعات و انواع آن را تدوین نماید و سپس نسخه ای رایانه ای از این اطلاعات جهت استفاده های بعدی تهیه شود.

در روش دوم نیز سامانه مستقیما از یك فرهنگ لغت استفاده می كند، باز هم در مورد زبان فارسی این مشكل وجود دارد كه هنوز فرهنگ های لغت فارسی رایانه ای با یك استاندارد مشخص تهیه نشده اند. این در حالی است كه در زبان انگلیسی فرهنگ های متعددی مانند net LDOCE, Word یا Roget’s International Thesaurus به صورت MRD یا نسخ قابل خواندن توسط رایانه وجود دارند كه سامانه های مختلف مترجم ماشینی از آنها با یكی از روش های رفع ابهام مذكور بهره می جویند.

از روش سوم رفع ابهام نیز همان طور كه دیده شد صرفا برای لغات خاص و محدود فنی یا پزشكی استفاده می شود، نه برای كلیه لغات فارسی و چون متأسفانه هنوز استفاده از اصطلاحات فنی فارسی متداول و رایج نشده است، این روش رفع ابهام در زبان فارسی زیاد موفق نخواهد بود. از این رو برای اینكه بتوان از یك مترجم قوی وبدون مشكل فارسی بهره مند شد، ابتدا باید مقدمات بر شمرده را فراهم نمود و این خود تلاش گروهی متشكل از زبان شناسان، مترجمان، ادیبان و متخصان رایانه را می طلبد كه سرآغازی خواهد شد برای رسیدن به این هدف ملی.

نتیجه گیری

فراگیری ترجمه ماشینی عبارت اند از: واكافت واژه ای، واكافت ساختواژی، واكافت نحوی، واكافت معنایی، تشخیص نقش كلمات در جمله، تشخیص معنای صحیح كلمات ( با توجه به جمله حاوی و رفع ابهام از كلمات دارای معنی مشابه و یافتن معنی معادل كلمه در زبان مقصد و تبدیل جمله زبان مبدا به جمله زبان مقصد با توجه به دستور زبان مقصد و در صورت نیاز اعمال گشتارهای مناسب برای تبدیل جملات مقصد به شكل روساختی آن ). در این راستا مهمترین بخش یك مترجم كه دقت در آن باعث بالا رفتن دقت كل عمل ترجمه می گردد،‌ رفع ابهام معنایی از كلمات جملات زبان مبدا ونیز رفع ابهام از ترجمه آنها به زبان مقصد می باشد. برای رفع ابهام معنایی كلمات سه روش كلی وجود دارد كه عبارت اند از: ( الف ) رفع ابهام با مربی، (‌ب ) رفع ابهام بر مبنای فرهنگ لغت، و ( ج ) رفع ابهام بدون مربی.

در روش اول مجموعه ای از لغات ابهام زدایی شده وجود دارد كه سامانه با آن لغات آموزش داده می شود و اگر در حین عمل ترجمه با لغت جدیدی برخورد كرد،‌با توجه به اطلاعات آموزش دیده تشخیص می دهد كه كلمه مزبور با توجه به متنی كه در آن قرار گرفته در چه طبقه ای قرار می گیرد و معنای درست آن كدام است و آن را در ترجمه به كار می برد. در روش دوم اساسا برای هر كلمه از كل فرهنگ لغت استفاده می شود و با توجه به نقش كلمه و دیگر مشخصات آن با كمك فرهنگ لغت معنی صحیح آن متناسب با جمله ای كه در آن قرار گرفته است،‌ به دست می آید. بالاخره روش سوم كه روش رفع ابهام بدون مربی یا سرپرست است، مخصوص كلماتی است كه در فرهنگ های لغت معمولی وجود ندارند (‌اصطلاحات فنی یا پزشكی و … ) و باید از فرهنگ های لغت تخصصی و یا دایرة المعارف ها بهره جست.

اما مشكل اصلی بر سر راه رفع ابهام از كلمات فارسی این است كه اگر از دو روش اول استفاده شود، به یك نسخه رایانه ای از مجموعه لغات همراه بانقش های مختلفی كه می توانند به خود بگیرند و معانی مختلفی كه باتوجه به نقش های مختلف و یا همنشینی با كلمات مختلف به خود می گیرند، نیاز می باشد كه متأسفانه این نسخه رایانه ای و همچنین استاندارد ذخیره سازی این دسته اطلاعات وجود ندارد كه باید با كار گروهی متشكل از زبان شناسان، ادیبان و متخصصان رایانه ایجاد و جهت سیستم های مترجم زبان فارسی صورت بگیرد. استفاده از روش سوم رفع ابهام نیز خاص لغات فنی است كه در زبان فارسی هنوز كاملا جا نیفتاده است . بنابراین با توجه به این كه دقت در رفع ابهام از معنای كلمات دقت مترجم را بالا می برد،‌ هنوز نمی توان سامانه های مترجم فارسی مناسب را تهیه و از آنها بهره برداری نمود.

منابع

امامی و م . بررسی مسایل درك متن فارسی و پیاده سازی نمونه هایی از آن. پایان نامه كارشناسی ارشد، دانشكده مهندسی كامپیوتر، دانشگاه صنتعتی شریف.،1376.

Booth, A . D (1953), Machine Translation, Computer and Automation, Vol2, no4,

Chomsky, N., (1975), Reflection on Language, New York: Pantheon Books.

Daelemans, W., Zavrel , J. Berck P., Gillis. ( 1996 ), MBT: A Memory – Based Part – of – speech Tagger Generator, Proceeding at 4th Workshop on Very Large Corpora, Copenhagen.

Demetriou, G., Atwell, E.s., (2000), A domain Independent Semantic Tagger for the study of meaning Associations in English text. IWCS – 4 Program.

De Pauw, g ., Daelemans, W. ( 2002 ), The Role of Algorithm Bias Vs information Source in Learning Algrithms for

morphosyntactic Disambigution, Proceeding of cnoll-2000 and LLL-2000, Pages 19-24, Lisbon, Porugel.

Kit, C., Wilks, ( 1999 ), Unsupervised Learning of World Boundary Length Gain. Computational Natural Learning.

Manning, C.D. Schutze, H. ( 1999 ), MIT Press, Cambridge, MA.

Scjamlk, R.C. ( 1975 ), Conceptual Information Processing North Holland, Publishing Company, Amsterdam.

Wilks, Y., Stevenson, M. ( 1998 ), Word Sense Disambiguation Using Optimized Combining Weak Knowledge Sources for Sense Disambiguation. Proceeding of the third conference of Recent Advances in Natural Language Processing Conference, PP. 1-7.

Wilks, Y . in N. Ide ( Ed ) ( 1997 ), Senses and Texts, computers & G . humanities, vol. 31, PP. 77-90.

Yarawsky, D . ( 1992 ), Word Sense Disambiguation Using Statistical Models of Roget’s Categories Trained on Large Corpora, COLING 14, 454-460.

برگرفته از: مجله زبانشناسی – 1382

0 پاسخ

دیدگاه خود را ثبت کنید

دوست دارید به بحث ملحق شوید؟
نظرات خود را با ما در میان بگذارید!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *