رونمایی از پایگاه لغتنامه برخط قاموس نور
تاریخ انتشار : 1400/7/24
به گزارش نورسافت، رونمایی از پایگاه لغتنامه برخط قاموس نور با مشارکت مرکز تحقیقات کامپیوتری علوم اسلامی و مؤسسه لغتنامه دهخدا در تهران برگزار گردید. این مراسم به جهت رعایت پروتکلهای بهداشتی با حضور حداقلی میهمانان و پژوهشگران زبان و ادبیات فارسی، به صورت مجازی و به صورت پخش زنده در تاریخ 21 مهر 1400 برگزار شد.
در این مراسم آقایان دکتر محمود بیجن خان، رئیس مؤسسه دهخدا، حجتالاسلام دکتر محمد حسین بهرامی رئیس مرکز تحقیقات کامپیوتری علوم اسلامی و حجتالاسلام توحیدی متکفل پروژه به ایراد سخنرانی و توضیحاتی در خصوص این پایگاه پرداختند.
دکتر بیجن خان با اشاره به اینکه بحث لغتنامه را با توجه به جامعه علمی کشور و از دیدگاه زبان فارسی به عنوان زبان علم می توانیم مطرح کنیم، افزودند اساساً هر کشوری که تاریخ، ادبیات، فلسفه، فرهنگ و تمدن دارد- مانند ایران- لاجرم باید یک فرهنگ لغت غنی داشته باشد و دسترسی به این فرهنگ غنی باید برای همه بسیار ساده و آسان فراهم باشد. این دسترسی ساده از دو جهت بسیار مهم است: یکی از جهت واژه سازی و دیگری از جهت رفع ابهام از معنای کلمات که ما از آن به ابهام زدایی معنایی یاد میکنیم.
ایشان با اشاره به اهمیت معادل سازی در زبان فارسی، تولید علم اصیل و ایجاد واژههای اصیل فارسی و اهمیت واژهسازی و ابهامزدایی معنایی، نقش پایگاه قاموس نور را در گسترش زبان فارسی و گسترش یافتههای علمی خودمان در قالب کپسولهای واژگانی و صادرات آنها از نظر توسعه فرهنگ و تمدن ایرانی با اهمیت توصیف کردند.
دکتر بیجن خان، لغتنامه دهخدا را یکی از آثار بی نظیر علوم انسانی در دوره فارسی معاصر توصیف کرده و افزودند این لغتنامه شامل 23911 صفحه سه ستونی است که هر ستون آن شامل 52 سطر و در مجموع حدود 22400000 کلمه را در خود دارد. در تهیه این لغتنامه از مجموعه فرهنگهای موجود بهره گرفته شده و روش تولید آن نیز به شیوه نخبه سپاری بوده به 70 نفر از استادان و نخبگان زبان و ادبیات فارسی بوده است.
ایشان در پایان ضمن اشاره به پروژه در جریان « لغتنامه بزرگ فارسی» که که به لحاظ زمانی و حجم شواهد و معادلهای فارسی کاملتر از لغتنامه موجود است، اظهار امیدواری نمودند که این لغتنامه جامع نیز پس از نهایی شدن، امکان عرضه در پایگاه قاموس نور را داشته باشد.
در ادامه حجت الاسلام دکتر محمد حسین بهرامی ضمن تشکر از همراهی و مساعدت مؤسسه لغتنامه دهخدا در برگزاری این مراسم، افزودند ما در مرکز نور خود را موظف به فراهمسازی زیرساختهای پژوهشی برای محققان علوم اسلامی و انسانی میدانیم و بر این اساس حجم قابل توجهی از منابع علوم اسلامی در رشتههای مختلف را به نسخههای دیجیتال در قالبهای مختلف رومیزی، پایگاه، موبایلی و ... تبدیل کردهایم .
یکی از حوزههایی که به صورت جدی مورد توجه ما بوده، زبان، ادبیات و لغت فارسی است و نرمافزارهای فاخری در این حوزه تولید شده که دانشنامه حافظ، مثنوی معنوی، شاهنامه فردوسی و پروین اعتصامی از جمله این آثار میباشند. در این نرمافزارها نسخههای مختلف، حواشی، شروح و اطلاعات پیرامونی اثر گردآوری شده و نسخههای صوتی ارزشمندی با صدای استادان و صداپیشگان مطرح نظیر مرحوم استاد آهی و خانم ژاله علو و خانم بی نیاز تولید و عرضه گردیده است.
ایشان ضمن اشاره به در دست تولید بودن کتابخانه نظم و نثر فارسی، تولید پیکرههای تخصصی زبان فارسی، پیکرههای صرفی، نحوی و گفتمانی و پیکره دو میلیارد کلمهای از کتابها، مجلات متقدم و متأخر و ... را از دیگر گنجینههای ارزشمند مرکز نور دانستند و افزودند پیکره حدود دو میلیون شکل کلمه فارسی غیرتکراری با برچسبهای متفاوت و نیز پیکره متناظر حدود 600 کتاب فارسی و عربی که در سطح کلمه، فراز، جمله یا پاراگراف به هم متصل هستند از دیگر منابع ارزشمند مرکز میباشد.
ایشان در پایان ضمن اشاره به اینکه فناوری اطلاعات، ابزار، روش فنی و ماهیت غایات علوم را تغییر میدهند، تغییر رویکرد از دایره المعارف نویسی به تولید ویکی پدیا از جمله این آثار دانستند و بر لزوم بازتعریف و بازآفرینی علوم در حوزه دیجیتال و علوم اسلامی و حرکت در مسیر جدید تأکید نمودند.
رئیس مرکز تحقیقات کامپیوتری علوم اسلامی از افتتاح «آزمایشگاه هوش مصنوعی و علوم انسانی-اسلامی دیجیتال» در هفته پژوهشِ سال جاری خبر داد و افزود: فازهای آینده پروژه قاموس نور -چه در حوزه لغت فارسی و چه در حوزه لغت عربی -در حال حرکت به سمتی است که نتیجه آن یک بازآفرینی نوین از لغتنامهها را در پی خواهد داشت.
در بخش پایانی حجتالاسلام والمسلمین مسیح توحیدی به توضیح امکانات و ویژگیهای پایگاه پرداختند و در پایان مراسم از پایگاه لغتنامه برخط قاموس نور رونمایی گردید.
هدف پایگاه لغت «قاموس نور» در فاز اول، ارائه موتور جستجویی هوشمند در جهت ارانه بهترین و نزدیک ترین پاسخ نسبت به درخواست کاربر می باشد. این خدمت نتیجه تلاش چندین ساله گروهی از پژوهشگران علوم اسلامی و همراهی جمعی از کارشناسان فنی در حوزه نرم افزار می باشد.
معرفی پایگاه لغتنامه قاموس نور
برای تحقق این مهم انجام امور ذیل ضروری به نظر رسید:
-
1- ساماندهی واژگان موجود در متون عربی
- از مجموع تقریبی دو ملیارد کلمه که در متون عربی در اختیار مرکز وجود دارد فهرست غیر تکراری مشتمل بر دو ملیون و هفتصد هزار کلمه تهیه شد و در ابزاری نسبت به تعیین وضعیت آنها از حیث ریشه و برچسب گذاری های متنوع اقدام شد.
-
2- ارزیابی منابع لغوی و استخراج مداخل و توصیفات از آنها
- شناسایی منابعی که از نظر ویرایشی قابلیت لازم را برای استخراج ماشینی مداخل و توصیفات داشتند
- استخراج ماشینی مداخل و توصیفات از منابع تعیین شده
- بازبینی اطلاعات استخراج شده توسط محققین به منظور تکمیل یا اصلاح موارد
-
3- یکی از اصلی ترین اهداف تولید پایگاه لغت برقراری ارتباط هوشمند بین کلمات استعمال شده در متون یا محاورات (حدود دو ملیارد کلمه) و مداخل نماینده (در حدود یکصد هزار مدخل) بدون نیاز به تحلیل ذهنی کاربر است. برای تحقق این مهم و ارائه بهترین پاسخ به درخواست کاربر چندین مرحله توسط موتور جستجوگر انجام می گیرد:
- ارائه پاسخ بر اساس جستجوی عین کلمه درخواستی در بین مداخل نماینده
- ارائه پاسخ بر اساس جستجوی در خواست کاربر پس از پیراسته سازی آن
- ارائه پاسخ بر اساس شناسایی جایگاه کلمه درخواستی کاربر در درخت نظام اشتقاق و یافتن نزدیک ترین مدخل نماینده به این جایگاه
- ارائه مداخل نماینده ای که در ریشه با درخواست کاربر مشابهت دارند. موتور جستجو با انجام این مراحل مجموعه ای از پاسخ ها را ارائه می کند که مرتب سازی آنها باید بر اساس تقریب هر چه بیشتر به درخواست کاربر باشد. مرتب سازی پاسخ ها به مرور زمان و در طی فازهای عملیاتی توسعه پایگاه ارتقاء پیدا خواهد کرد . ان شاء الله.
-
4- ساماندهی و تجمیع مداخل استخراج شده از منابع مختلف لغوی
- با وجود اینکه مشتقات دارای توصیف (مداخل) به طور طبیعی محدود می باشند و به طور تقریبی می توان آنها را در حدود یکصد هزار عدد تخمین زد ولی تنوع در تنظیم این مداخل از سوی مولفین باعث شده که تعداد این مداخل افزایش چند برابری پیدا کنند. به این خاطر لازم بود هماهنگی حداکثری جهت تجمیع این مداخل و مشخص کردن موارد مشابه صورت گیرد. لذا برای هر یک از مداخل دارای توصیف یک «مدخل نماینده» مشخص گردید. به این ترتیب توانستیم برای مجموع تقریبی هشتصد هزار مدخل استخراج شده از هفت کتاب لغوی تعداد تقریبی 120 هزار «مدخل نماینده» مشخص کنیم. با این کار بدون اینکه دخل و تصرفی در مداخل ارائه شده در کتب لغوی کرده باشیم یک دسته بندی جدید برای کاهش دادن تعداد پاسخ ها به کاربر صورت گرفت. لذا هم اکنون در پایگاه پس از هر جستجو دو عدد در صدر پاسخ ها به عنوان آمار ارائه می شود: 1- تعداد پاسخ 2- تعداد دسته
-
5- ساماندهی توصیفات استخراج شده
- با توجه به تشابه و تقارب لفظی توصیفات ذکر شده در بسیاری از موارد، لازم است هماهنگی و دستهبندی بین این توصیفات نیز صورت پذیرد که ان شاء الله در فازهای بعدی محقق خواهد شد.
-
6- برقراری ارتباط بین مداخل نماینده مترادف
- در برخی از منابع، کلمات مترادف جمع آوری و دسته بندی شده اند. از جمله مزیت های تعیین «مدخل نماینده» این است که توانستیم در پایگاه ذیل مداخل نماینده ای که دارای مترادف هستند ارتباطی بین مداخل نماینده مترادف در بخش «مترادفات» برقرار کنیم. البته استناد میزان صحت ترادف به منبعی است که در پایگاه معرفی شده است.
-
7- برقراری ارتباط بین مداخل نماینده هم موضوع
- در برخی از منابع، مداخل به صورت موضوعی – و نه بر اساس ریشه- مرتب شده اند. لذا مداخلی که اکثرا از نظر ریشه با هم تناسبی ندارند ولی در ذیل یک موضوع مشخص با هم ارتباط دارند در اینگونه منابع ذکر شده اند. در پایگاه برای مداخل نماینده ای که دارای این نوع ارتباط با سایر مداخل هستند بخش «مرتبطات» وجود دارد که فهرست مداخل مرتبط و موضوع ارتباط در آن مشخص شده و کاربر می تواند از این طریق به سایر مداخل دستیابی پیدا کند.
-
8- برقراری ارتباط مداخل نماینده با احادیث
- برخی از منابع لغوی به توضیح کلمات مشکل در احادیث تحت عنوان «غریب الحدیث» پرداخته اند. در پایگاه اطلاعات این منابع به مداخل نماینده مربوط به آن متصل شده و در بخش «روایت» از آن مدخل قابل مشاهده می باشد.
-
9- توصیف ریشه مداخل
- در کتاب «معجم مقاییس اللغه» در هر بخش قبل از پرداختن به توصیف مداخل، توصیفی کلی از ریشه اصلی مداخل را ارائه می کند. در پایگاه در مقابل هر یک از مداخل ریشه دار، آن ریشه ذکر شده که از طریق آن به صفحه ریشه منتقل می شویم. در این صفحه ابتدا توصیف ریشه از کتاب «معجم مقاییس اللغه » آمده است و سپس فهرستی از مداخل ذیل آن ریشه ارائه می شود.
در فازهای بعدی از توسعه پایگاه علاوه بر موارد فوق اطلاعات جانبی دیگری نیز در اختیار کاربر قرار می گیرد که عبارتند از:
- متضادات مداخل
- مداخل اضداد
- آیات مرتبط با مداخل
- اصطلاحات مرتبط با مداخل