داده‌ها

یکی از مشکلات موجود بر سر تحقیقات فارسی نبود یک مجموعه داده برای آزمایش برنامه‌های تولیدی می‌باشد. در صورتی که انواع مجموعه داده‌ها به زبان انگلیسی بر روی فضای سایبر وجود دارد. در مورد این پروژه خاص نیز این مشکل وجود داشت. به همین دلیل بر آن شدیم که یک مجموعه داده مناسب برای این پروژه طراحی بنماییم. برای این کار از اشعار دیوان غزلیات خواجه حافظ شیرازی و دیوان شمس مولانا جلال الدین استفاده کردیم.

برای یافتن اوزان اشعار در مورد دیوان حافظ، از دیوان حافظ دکتر خطیب رهبر و همچنین کتاب استاد حسین آهی استفاده کردیم. و در مورد دیوان شمس از خانم ده‌نمکی یکی از اساتید ادبیات کمک گرفتیم، که جا دارد در این جا باز هم از زحمات ایشان قدردانی نمایم. ایشان وزن عروضی بیش از 450 غزل از این مجموعه را استخراج نمودند.

با حذف موارد اختلافی و استفاده از یک انتخاب تصادفی نزدیک به 1300 بیت از اشعار حافظ و مولانا همراه با کد وزن آنها به صورت قالب استاندارد تعریفی درآوردیم. یکی از مواردی که در ساخت این مجموعه داده مورد توجه قرار گرفته تعداد هر کد وزن است. تعداد هر کد وزن بسته به کاربرد هر وزن تعیین شده، مثلا برای کد وزن 1002 که پرکاربردترین وزن فارسی است بیشترین تعداد بیت در نظر گرفته شده است. برای بالا بردن دقت اوزان انتخابی تمامی ابیات انتخابی دوبار بررسی گردیده است.

نسخه 1/00 مجموعه داده و همچنین دیوان شمس، غزلیات حافظ و مثنوی مولانا از همین پایگاه وب قابل دریافت است. همچنین مجموعه کلمات زبان فارسی به همراه تلفظ و دیگر خصوصیات کلمات هم قابل دریافت هستند. این مجموعه کلمات از برنامه متن‌باز «واژگان زایای زبان فارسی» استخراج شده‌اند.

نام فایل توضیحات نوع فایل اندازه فایل آخرین ویرایش
مجموعه داده نسخه 2.00 تعداد ابیات نسبت به نسخه قبل تغییری نکرده است. تغییرات جدید عبارتند از: درهم سازی مجموعه به وسیله Close Hash و جداسازی مجموعه Train و Test، توضیحات بیشتر در فایل Comment.doc داخل همین مجموعه موجود است RAR 59,32 کیلوبایت دوشنبه 26 مهر 1389
مجموعه داده نسخه 1.00 شامل حدود 1300 بیت از اشعار مولانا و حافظ به همراه کد وزن آنها، توضیحات بیشتر در فایل Comment.doc داخل همین مجموعه موجود است RAR 53,82 کیلوبایت دوشنبه 26 مهر 1389
مجموعه کلمات مجموعه کلمات برنامه متن باز «لغات زایای زبان فارسی» شامل بیش از 50000 کلمه فارسی به همراه تلفظ آنها و نوع کلمه. شامل مجموعه‌ای از پیشوندها و پسوندهای فارسی. RAR 1,73 مگابایت دوشنبه 26 مهر 1389
دیوان شمس دیوان غزلیات شمس، مولانا جلال الدین محمد بلخی. به صورت هفت فایل Word. به همراه فهرست غزل‌ها بر اساس مطلع غزلیات. RAR 1,14 مگابایت دوشنبه 26 مهر 1389
دیوان حافظ شامل 495 غزل خواجه حافظ شیرازی به صورت یک فایل HTM. RAR 133,62 کیلوبایت دوشنبه 26 مهر 1389
مثنوی معنوی شامل شش دفتر مثنوی تایپ و تصحیح توسط حسین ُکرد از روی نسخه RAR 759,5 کیلوبایت دوشنبه 26 مهر 1389
مثنوی معنوی شامل شش دفتر مثنوی تایپ و تصحیح توسط حسین ُکرد از روی نسخه RAR 1,05 مگابایت دوشنبه 26 مهر 1389

استفاده از پایگاه عروض رایگان است اما اگر بخواهید می‌توانید از عروض حمایت مادی یا معنوی کنید.

حمایت مالی

در شبکه‌های اجتماعی، عروض را معرفی کنید.