برچسب گذار اجزای واژگانی کلام

12 آبان 1389

برچسب گذاري اجزاي واژگاني کلام عمل انتساب برچسب‌هاي واژگاني به کلمات و نشانه‌هاي تشکيل دهنده متن است، به صورتي که اين برچسب‌ها نشان‌دهنده نقش کلمات و نشانه‌ها در جلمه باشد. برچسب‌گذارهاي اجزاي واژگاني کلام و پيکره‌هاي برچسب خورده با اين برچسب‌ها در بسياري از حوزه‌هاي ديگر پردازش زبان طبيعي مورد استفاده قرار مي‌گيرند که از بين آنها مي‌توان به خطاياب، تبديل متن به گفتار، سيستم‌هاي تشخيص خودکار گفتار و ترجمه ماشيني اشاره کرد.

پيکره متني زبان فارسي پيکره‌اي است که مجموعه برچسب آن شامل 90 برچسب است که 14 عدد از آنها برچسب‌هاي مقولات اصلي است. ساختار برچسب کلمات در پيکره مذکور بر اساس استاندارد ايگلز و به صورت سلسله مراتبي است. استفاده از ساختار برچسب‌گذاري سلسله مراتبي امکان نمايش مقولات اصلي، زيرمقولات، وندهاي تصريفي، واژه‌بست و ديگر ويژگي‌هاي کلمات را فراهم مي‌سازد. استفاده از ساختار سلسله مراتبي باعث شده که تعداد برچسب‌هاي پيکره به بيش از 580 مورد برسد.

به تازگی وبگاه «پردازش زبان فارسی» شروع به کار نموده است. در این وبگاه با استفاده از پيکره متني زبان فارسي يک برچسب‌گذار اجزاي واژگاني ايجاد شده که نسخه اول آن به نمايش گذاشته شده است. مجموعه برچسب برچسب‌گذار شامل مقولات اصلي کلمات است. دقت برچسب‌گذار 95% است. 

اميد است که نسخه جديد برچسب‌گذار به زودي عرضه گردد. در نسخه جديد تعداد برچسب‌هاي مجموعه برچسب افزايش يافته (تا حدود400 برچسب) تا ويژگي‌هاي بيشتري از کلمات را بتوان نشان داد.

آدرس این وبگاه http://www.persianp.ir است.

استفاده از پایگاه عروض رایگان است اما اگر بخواهید می‌توانید از عروض حمایت مادی یا معنوی کنید.

حمایت مالی

در شبکه‌های اجتماعی، عروض را معرفی کنید.