روشی سریع برای جستجوی واژه های عربی در متون فارسی - پژوهشی در شاهنامه
قبل از هرچیز باید بگویم که این روش کاملا تخمینی است و در حدود نیمی ار واژه ها را بدست می دهد. مهمترین استفاده آن برای مواردی است که بخواهیم تخمینی از درصد واژه های عربی موجود در متنی را بدست آوریم. درصدی که این روش بدست می دهد را اگر دو برابر کنیم تخمین مناسبی از درصد وازه های عربی در متن مورد نظر بدست خواهد داد.
و اما توضیح این روش
با استفاده از یک اسکریپت کوتاه می توان در متن مورد نظر بدنبال واژه هائی گشت که در آنها حروف اختصاصی عربی (ث ، ح ، ص ، ض ، ط ، ظ ، ع ، ق ، غ) بکار رفته است. برای این کار از پایتون استفاده کردم. لیست واژه های بدست آمده را می توان با روش دستی پالایش کرد.
به عنوان نمونه این روش را بر روی متن شاهنامه فردوسی آزمایش کردم که نتایج زیر بدست آمد.
آمار مربوط به تمام شاهنامه (واژه ها با تکرار)
جمع واژگان شاهنامه = 547858
بدون حروف اضافه = 393115
جمع واژگان قسمت اسکندر = 32304
جمع واژگان عربی = 5732
جمع واژگان عربی قسمت اسکندر = 536
علت جدا نمودن قسمت مربوط به داستان پادشاهی اسکندر این است که بعضی معتقدند این قسمت در اصل متعلق به شاهنامه نیست و چنین استدلال می کنند که واژه های عربی شاهنامه در اصل مربوط به همین قسمت اسکندر است. تخمین جداگانه درصد واژه های عربی مربوط به بخش اسکندر و بقیه شاهنامه به این شبهه پاسخ می دهد.
برای تعیین بخش اسکندر، در متن شاهنامه کلید واژه سکندر مورد جستجو قرار گرفت و مشخص شد که آفست کاراکتر 2000000 الی 2300000 بیش از ۹۵ درصد واژه اسکندر موجود در شاهنامه را در بردارد. لذا فاصله بین این دو آفست به عنوان بخش اسکندر مورد آنالیز جداگانه قرار گرفت. نتایج این پژوهش نشان داد که قسمت اسکندر ۸٪ شاهنامه را تشکیل میدهد و ۹٪ واژه های عربی موجود در کل شاهنامه مربوط به این قسمت است. این موضوع نظریه کسانی که معتقدند واژه های عربی شاهنامه عمدتا مربوط به بخش اسکندر است را رد می کند. همچنین مشخص گردید که ۱/۶۵٪ بخش اسکندر و ۱/۴۴٪ کل شاهنامه عربی است که این نیز نشان میدهد توزیع واژه های عربی در قسمت اسکندر تفاوت معنی داری با بقیه شاهنامه ندارد.
همچنان که گفته شد آنالیز فوق با احتساب تکرار واژه ها بود. نتایج زیر مربوط به آنالیز واژه ها بدون تکرار که در اصطلاح به آن واژه نامه می گویند می باشد.
آمار مربوط به واژه نامه شاهنامه (واژه ها بدون تکرار)
تعداد واژگان در واژه نامه شاهنامه: 19324 (بدون حروف اضافه)
تعداد واژگان در واژه نامه قسمت اسکندر = 5049
تعداد واژگان عربی در واژه نامه شاهنامه = 374
تعداد واژگان عربی در واژه نامه قسمت اسکندر = 137
اگر فرض کنیم روش شناسائی واژه های عربی بکار رفته در این پژوهش نیمی از لغات را بدست می دهد، در این صورت درصد واژه های عربی شاهنامه نزدیک به چهار درصد تخمین زده می شود. درصد واژه های عربی در اشعار رودکی نزدیک به ۸ درصد تخمین زده شده است.۱
ایرادی که بر این روش می توان گرفت این است که همه واژه هایی که دارای حروف ویژه عربی هستند لزوما عربی نیستند. با این حساب پالایش دستی لیست بدست آمده با استفاده از فرهنگ واژه معتبر ممکن است ضروری باشد که در این پژوهش این کار صورت گرفت. البته نتایج پالایش دستی نشان داد که کمتر از ۵ درصد واژه هایی که با این روش بدست می آیند ممکن است عربی نباشند. با توجه به این واقعیت که روش مذکور کمتر از نیمی از لغات عربی موجود در یک متن فارسی را کشف می کند، برای سهولت کار عملا می توان از این مقدار ۵تقریبی درصد چشم پوشی کرد.
- ۹۱/۰۹/۲۴