دانش

مطالب علمی، سرگرمی و معما های مختلف

دانش

مطالب علمی، سرگرمی و معما های مختلف

نکته مهم در مورد منابع بکار رفته در این بلاگ: معماهای معرفی شده در این بلاگ اکثرا از منابع اینترنتی دیگر گرفته شده است و در این بلاگ بصورت ترجمه شده، و تعدیل شده مطابق با فرهنگ ایرانی و همراه با تصاویر کمکی ارائه شده است. با توجه به اینکه برای هر کدام از موضوعات منابع متعددی قابل ذکر است و بدرستی روشن نیست که نویسنده اصلی هر مطلب کدام منبع است، از ذکر منبع آنها خودداری شده است. این موضوع نباید موجب این تصور گردد که نویسنده و ابداع کننده این معماها خود اینجانب بوده است. در موارد خاصی که منبع کاملا مشخص بوده است آن منبع ذکر شده است.

پیام های کوتاه
آخرین مطالب
آخرین نظرات

قبل از هرچیز باید بگویم که این روش کاملا تخمینی است و در حدود نیمی ار واژه ها را بدست می دهد. مهمترین استفاده آن برای مواردی است که بخواهیم تخمینی از درصد واژه های عربی موجود در متنی را بدست آوریم. درصدی که این روش بدست می دهد را اگر دو برابر کنیم تخمین مناسبی از درصد وازه های عربی در متن مورد نظر بدست خواهد داد.

و اما توضیح این روش

با استفاده از یک اسکریپت کوتاه می توان در متن مورد نظر بدنبال واژه هائی گشت که در آنها حروف اختصاصی عربی (ث ، ح ، ص ، ض ،  ط ، ظ ، ع ، ق ، غ) بکار رفته است. برای این کار از پایتون استفاده کردم. لیست واژه های بدست آمده را می توان با روش دستی پالایش کرد.

به عنوان نمونه این روش را بر روی متن شاهنامه فردوسی آزمایش کردم که نتایج زیر بدست آمد.

آمار مربوط به تمام شاهنامه (واژه ها با تکرار)
جمع واژگان شاهنامه = 547858
بدون حروف اضافه = 393115
جمع واژگان قسمت اسکندر = 32304
جمع واژگان عربی = 5732
جمع واژگان عربی قسمت اسکندر = 536

علت جدا نمودن قسمت مربوط به داستان پادشاهی اسکندر این است که بعضی معتقدند این قسمت در اصل متعلق به شاهنامه نیست و چنین استدلال می کنند که واژه های عربی شاهنامه در اصل مربوط به همین قسمت اسکندر است. تخمین جداگانه درصد واژه های عربی مربوط به بخش اسکندر و بقیه شاهنامه به این شبهه پاسخ می دهد.

برای تعیین بخش اسکندر، در متن شاهنامه کلید واژه سکندر مورد جستجو قرار گرفت و مشخص شد که آفست کاراکتر 2000000 الی 2300000 بیش از ۹۵ درصد واژه اسکندر موجود در شاهنامه را در بردارد. لذا فاصله بین این دو آفست به عنوان بخش اسکندر مورد آنالیز جداگانه قرار گرفت. نتایج این پژوهش نشان داد که قسمت اسکندر ۸٪ شاهنامه را تشکیل میدهد و ۹٪ واژه های عربی موجود در کل شاهنامه مربوط به این قسمت است. این موضوع نظریه کسانی که معتقدند واژه های عربی شاهنامه عمدتا مربوط به بخش اسکندر است را رد می کند. همچنین مشخص گردید که ۱/۶۵٪ بخش اسکندر و ۱/۴۴٪ کل شاهنامه عربی است که این نیز نشان میدهد توزیع واژه های عربی در قسمت اسکندر تفاوت معنی داری با بقیه شاهنامه ندارد.

همچنان که گفته شد آنالیز فوق با احتساب تکرار واژه ها بود. نتایج زیر مربوط به آنالیز واژه ها بدون تکرار که در اصطلاح به آن واژه نامه می گویند می باشد.

آمار مربوط به واژه نامه شاهنامه (واژه ها بدون تکرار)
تعداد واژگان در واژه نامه شاهنامه: 19324 (بدون حروف اضافه)
تعداد واژگان در واژه نامه قسمت اسکندر = 5049
تعداد واژگان عربی در واژه نامه شاهنامه = 374
تعداد واژگان عربی در واژه نامه قسمت اسکندر = 137

نتایج نشان داد که ۲۶ درصد از واژگان موجود در واژه نامه شاهنامه مربوط به قسمت اسکندر است. ۳۶ درصد واژگان عربی موجود در واژه نامه شاهنامه مربوط به این قسمت است. ۲/۷ درصد واژه نامه قسمت اسکندر، عربی است. ۱/۷ درصد واژه نامه سایر قسمت ها عربی است. ۱/۹ درصد کل واژه نامه شاهنامه عربی است.
اگر فرض کنیم روش شناسائی واژه های عربی بکار رفته در این پژوهش نیمی از لغات را بدست می دهد، در این صورت درصد واژه های عربی شاهنامه نزدیک به چهار درصد تخمین زده می شود. درصد واژه های عربی در اشعار رودکی نزدیک به ۸ درصد تخمین زده شده است.۱

ایرادی که بر این روش می توان گرفت این است که همه واژه هایی که دارای حروف ویژه عربی هستند لزوما عربی نیستند. با این حساب پالایش دستی لیست بدست آمده با استفاده از فرهنگ واژه معتبر ممکن است ضروری باشد که در این پژوهش این کار صورت گرفت. البته نتایج پالایش دستی نشان داد که کمتر از ۵ درصد واژه هایی که با این روش بدست می آیند ممکن است عربی نباشند. با توجه به این واقعیت که روش مذکور کمتر از نیمی از لغات عربی موجود در یک متن فارسی را کشف می کند، برای سهولت کار عملا می توان از این مقدار ۵تقریبی درصد چشم پوشی کرد.

1 - Katarzyna Marszałek-Kowalewska. Iranian language policy: a case of linguistic purism. Investigationes Linguisticae, vol. XXII: 89 - 103