علم دو گونه است: علم فطرى و علم اكتسابي؛ اگر هماهنگ با علم فطري نباشد سودمند نخواهد بود.
مرکز جهانی اطلاع رسانی آل البیت

رونمایی از پایگاه لغت‌نامه برخط قاموس نور

تاریخ انتشار : 1400/7/24

به گزارش نورسافت، رونمایی از پایگاه لغت‌نامه برخط قاموس نور با مشارکت مرکز تحقیقات کامپیوتری علوم اسلامی و مؤسسه لغت‌نامه دهخدا در تهران برگزار گردید. این مراسم به جهت رعایت پروتکل‌های بهداشتی با حضور حداقلی میهمانان و پژوهشگران زبان و ادبیات فارسی، به صورت مجازی و به صورت پخش زنده در تاریخ 21 مهر 1400 برگزار شد.

در این مراسم آقایان دکتر محمود بیجن خان، رئیس مؤسسه دهخدا، حجت‌الاسلام دکتر محمد حسین بهرامی رئیس مرکز تحقیقات کامپیوتری علوم اسلامی و حجت‌الاسلام توحیدی متکفل پروژه به ایراد سخنرانی و توضیحاتی در خصوص این پایگاه پرداختند.

دکتر بیجن خان با اشاره به اینکه بحث لغتنامه را با توجه به جامعه علمی کشور و از دیدگاه زبان فارسی به عنوان زبان علم می توانیم مطرح کنیم، افزودند اساساً هر کشوری که تاریخ، ادبیات، فلسفه، فرهنگ و تمدن دارد- مانند ایران- لاجرم باید یک فرهنگ لغت غنی داشته باشد و دسترسی به این فرهنگ غنی باید برای همه بسیار ساده و آسان فراهم باشد. این دسترسی ساده از دو جهت بسیار مهم است: یکی از جهت واژه سازی و دیگری از جهت رفع ابهام از معنای کلمات که ما از آن به ابهام زدایی معنایی یاد می‌کنیم. 

ایشان با اشاره به اهمیت معادل سازی در زبان فارسی، تولید علم اصیل و ایجاد واژه‌های اصیل فارسی و اهمیت واژه‌سازی و ابهام‌زدایی معنایی، نقش پایگاه قاموس نور را در گسترش زبان فارسی و گسترش یافته‌های علمی خودمان در قالب کپسول‌های واژگانی و صادرات آنها از نظر توسعه فرهنگ و تمدن ایرانی با اهمیت توصیف کردند.

دکتر بیجن خان، لغت‌نامه دهخدا را یکی از آثار بی نظیر علوم انسانی در دوره فارسی معاصر توصیف کرده و افزودند این لغتنامه شامل 23911 صفحه سه ستونی است که هر ستون آن شامل 52 سطر و در مجموع حدود 22400000 کلمه را در خود دارد. در تهیه این لغت‌نامه از مجموعه فرهنگ‌های موجود بهره گرفته شده و روش تولید آن نیز به شیوه نخبه سپاری بوده به 70 نفر از استادان و نخبگان زبان و ادبیات فارسی بوده است.

ایشان در پایان ضمن اشاره به پروژه در جریان « لغت‌نامه بزرگ فارسی» که که به لحاظ زمانی و حجم شواهد و معادلهای فارسی کاملتر از لغت‌نامه موجود است، اظهار امیدواری نمودند که این لغت‌نامه جامع نیز پس از نهایی شدن، امکان عرضه در پایگاه قاموس نور را داشته باشد.

در ادامه حجت الاسلام دکتر محمد حسین بهرامی ضمن تشکر از همراهی و مساعدت مؤسسه لغت‌نامه دهخدا در برگزاری این مراسم، افزودند ما در مرکز نور خود را موظف به فراهم‌سازی زیرساخت‌های پژوهشی برای محققان علوم اسلامی و انسانی می‌دانیم و بر این اساس حجم قابل توجهی از منابع علوم اسلامی در رشته‌های مختلف را به نسخه‌های دیجیتال در قالب‌های مختلف رومیزی، پایگاه، موبایلی و ... تبدیل کرده‌ایم .

 یکی از حوزه‌هایی که به صورت جدی مورد توجه ما بوده، زبان، ادبیات و لغت فارسی است و نرم‌افزارهای فاخری در این حوزه تولید شده که دانشنامه حافظ، مثنوی معنوی، شاهنامه فردوسی و پروین اعتصامی از جمله این آثار می‌باشند. در این نرم‌افزارها نسخه‌های مختلف، حواشی، شروح و اطلاعات پیرامونی اثر گردآوری شده و نسخه‌های صوتی ارزشمندی با صدای استادان و صداپیشگان مطرح نظیر مرحوم استاد آهی و خانم‌ ژاله علو و خانم بی نیاز تولید و عرضه گردیده است.

ایشان ضمن اشاره به در دست تولید بودن کتابخانه نظم و نثر فارسی، تولید پیکره‌های تخصصی زبان فارسی، پیکره‌های صرفی، نحوی و گفتمانی و پیکره دو میلیارد کلمه‌ای از کتاب‌ها، مجلات متقدم و متأخر و ... را از دیگر گنجینه‌های ارزشمند مرکز نور دانستند و افزودند پیکره حدود دو میلیون شکل کلمه فارسی غیرتکراری با برچسب‌های متفاوت و نیز پیکره متناظر حدود 600 کتاب فارسی و عربی که در سطح کلمه، فراز، جمله یا پاراگراف به هم متصل هستند از دیگر منابع ارزشمند مرکز می‌باشد.

ایشان در پایان ضمن اشاره به اینکه فناوری اطلاعات، ابزار، روش فنی و ماهیت غایات علوم را تغییر می‌دهند، تغییر رویکرد از دایره المعارف نویسی به تولید ویکی پدیا از جمله این آثار دانستند و بر لزوم بازتعریف و بازآفرینی علوم در حوزه دیجیتال و علوم اسلامی و حرکت در مسیر جدید تأکید نمودند.

رئیس مرکز تحقیقات کامپیوتری علوم اسلامی از افتتاح «آزمایشگاه هوش مصنوعی و علوم انسانی-اسلامی دیجیتال» در هفته پژوهشِ سال جاری خبر داد و افزود: فازهای آینده پروژه قاموس نور -چه در حوزه لغت فارسی و چه در حوزه لغت عربی -در حال حرکت به سمتی است که نتیجه آن یک بازآفرینی نوین از لغت‌نامه‌ها را در پی خواهد داشت.

در بخش پایانی حجت‌الاسلام والمسلمین مسیح توحیدی به توضیح امکانات و ویژگی‌های پایگاه پرداختند و در پایان مراسم از پایگاه لغت‌نامه برخط قاموس نور رونمایی گردید.

هدف پایگاه لغت «قاموس نور» در فاز اول، ارائه موتور جستجویی هوشمند در جهت ارانه بهترین و نزدیک ترین پاسخ نسبت به درخواست کاربر می باشد. این خدمت نتیجه تلاش چندین ساله گروهی از پژوهشگران علوم اسلامی و همراهی جمعی از کارشناسان فنی در حوزه نرم افزار می باشد.

 معرفی پایگاه لغت‌نامه قاموس نور

برای تحقق این مهم انجام امور ذیل ضروری به نظر رسید:

  • 1- ساماندهی واژگان موجود در متون عربی

    • از مجموع تقریبی دو ملیارد کلمه که در متون عربی در اختیار مرکز وجود دارد فهرست غیر تکراری مشتمل بر دو ملیون و هفتصد هزار کلمه تهیه شد و در ابزاری نسبت به تعیین وضعیت آنها از حیث ریشه و برچسب گذاری های متنوع اقدام شد.
  • 2- ارزیابی منابع لغوی و استخراج مداخل و توصیفات از آنها

    • شناسایی منابعی که از نظر ویرایشی قابلیت لازم را برای استخراج ماشینی مداخل و توصیفات داشتند
    • استخراج ماشینی مداخل و توصیفات از منابع تعیین شده
    • بازبینی اطلاعات استخراج شده توسط محققین به منظور تکمیل یا اصلاح موارد
  • 3- یکی از اصلی ترین اهداف تولید پایگاه لغت برقراری ارتباط هوشمند بین کلمات استعمال شده در متون یا محاورات (حدود دو ملیارد کلمه) و مداخل نماینده (در حدود یکصد هزار مدخل) بدون نیاز به تحلیل ذهنی کاربر است. برای تحقق این مهم و ارائه بهترین پاسخ به درخواست کاربر چندین مرحله توسط موتور جستجوگر انجام می گیرد:

    • ارائه پاسخ بر اساس جستجوی عین کلمه درخواستی در بین مداخل نماینده
    • ارائه پاسخ بر اساس جستجوی در خواست کاربر پس از پیراسته سازی آن
    • ارائه پاسخ بر اساس شناسایی جایگاه کلمه درخواستی کاربر در درخت نظام اشتقاق و یافتن نزدیک ترین مدخل نماینده به این جایگاه
    • ارائه مداخل نماینده ای که در ریشه با درخواست کاربر مشابهت دارند. موتور جستجو با انجام این مراحل مجموعه ای از پاسخ ها را ارائه می کند که مرتب سازی آنها باید بر اساس تقریب هر چه بیشتر به درخواست کاربر باشد. مرتب سازی پاسخ ها به مرور زمان و در طی فازهای عملیاتی توسعه پایگاه ارتقاء پیدا خواهد کرد . ان شاء الله.
  • 4- ساماندهی و تجمیع مداخل استخراج شده از منابع مختلف لغوی

    • با وجود اینکه مشتقات دارای توصیف (مداخل) به طور طبیعی محدود می باشند و به طور تقریبی می توان آنها را در حدود یکصد هزار عدد تخمین زد ولی تنوع در تنظیم این مداخل از سوی مولفین باعث شده که تعداد این مداخل افزایش چند برابری پیدا کنند. به این خاطر لازم بود هماهنگی حداکثری جهت تجمیع این مداخل و مشخص کردن موارد مشابه صورت گیرد. لذا برای هر یک از مداخل دارای توصیف یک «مدخل نماینده» مشخص گردید. به این ترتیب توانستیم برای مجموع تقریبی هشتصد هزار مدخل استخراج شده از هفت کتاب لغوی تعداد تقریبی 120 هزار «مدخل نماینده» مشخص کنیم. با این کار بدون اینکه دخل و تصرفی در مداخل ارائه شده در کتب لغوی کرده باشیم یک دسته بندی جدید برای کاهش دادن تعداد پاسخ ها به کاربر صورت گرفت. لذا هم اکنون در پایگاه پس از هر جستجو دو عدد در صدر پاسخ ها به عنوان آمار ارائه می شود: 1- تعداد پاسخ 2- تعداد دسته
  • 5- ساماندهی توصیفات استخراج شده

    • با توجه به تشابه و تقارب لفظی توصیفات ذکر شده در بسیاری از موارد، لازم است هماهنگی و دسته‏بندی بین این توصیفات نیز صورت پذیرد که ان شاء الله در فاز‏های بعدی محقق خواهد شد.
  • 6- برقراری ارتباط بین مداخل نماینده مترادف

    • در برخی از منابع، کلمات مترادف جمع آوری و دسته بندی شده اند. از جمله مزیت های تعیین «مدخل نماینده» این است که توانستیم در پایگاه ذیل مداخل نماینده ای که دارای مترادف هستند ارتباطی بین مداخل نماینده مترادف در بخش «مترادفات» برقرار کنیم. البته استناد میزان صحت ترادف به منبعی است که در پایگاه معرفی شده است.
  • 7- برقراری ارتباط بین مداخل نماینده هم موضوع

    • در برخی از منابع، مداخل به صورت موضوعی – و نه بر اساس ریشه- مرتب شده اند. لذا مداخلی که اکثرا از نظر ریشه با هم تناسبی ندارند ولی در ذیل یک موضوع مشخص با هم ارتباط دارند در اینگونه منابع ذکر شده اند. در پایگاه برای مداخل نماینده ای که دارای این نوع ارتباط با سایر مداخل هستند بخش «مرتبطات» وجود دارد که فهرست مداخل مرتبط و موضوع ارتباط در آن مشخص شده و کاربر می تواند از این طریق به سایر مداخل دستیابی پیدا کند.
  • 8- برقراری ارتباط مداخل نماینده با احادیث

    • برخی از منابع لغوی به توضیح کلمات مشکل در احادیث تحت عنوان «غریب الحدیث» پرداخته اند. در پایگاه اطلاعات این منابع به مداخل نماینده مربوط به آن متصل شده و در بخش «روایت» از آن مدخل قابل مشاهده می باشد.
  • 9- توصیف ریشه مداخل

    • در کتاب «معجم مقاییس اللغه» در هر بخش قبل از پرداختن به توصیف مداخل، توصیفی کلی از ریشه اصلی مداخل را ارائه می کند. در پایگاه در مقابل هر یک از مداخل ریشه دار، آن ریشه ذکر شده که از طریق آن به صفحه ریشه منتقل می شویم. در این صفحه ابتدا توصیف ریشه از کتاب «معجم مقاییس اللغه » آمده است و سپس فهرستی از مداخل ذیل آن ریشه ارائه می شود.

 

در فازهای بعدی از توسعه پایگاه علاوه بر موارد فوق اطلاعات جانبی دیگری نیز در اختیار کاربر قرار می گیرد که عبارتند از:

  • متضادات مداخل
  • مداخل اضداد
  • آیات مرتبط با مداخل
  • اصطلاحات مرتبط با مداخل

منبع :نورسافت