مقاله یک پایگاه داده برای بازشناسی دستنوشته های برخط فارسی


در حال بارگذاری
23 اکتبر 2022
فایل ورد و پاورپوینت
2120
5 بازدید
۷۹,۷۰۰ تومان
خرید

توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد

  مقاله یک پایگاه داده برای بازشناسی دستنوشته های برخط فارسی دارای ۱۰ صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است

فایل ورد مقاله یک پایگاه داده برای بازشناسی دستنوشته های برخط فارسی  کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه  و مراکز دولتی می باشد.

توجه : در صورت  مشاهده  بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل ورد می باشد و در فایل اصلی مقاله یک پایگاه داده برای بازشناسی دستنوشته های برخط فارسی،به هیچ وجه بهم ریختگی وجود ندارد


بخشی از متن مقاله یک پایگاه داده برای بازشناسی دستنوشته های برخط فارسی :

برخی از منابع:

. شیرعلی شهرضا تشخیص کلمات و ارقام دستنویسی فارسی بوسیله شبکه های عصبی”، رساله دکتریا، دانشکده برق، دانشگاه صنعتی امیرکبیر، ۱۳۷۹.

– را عزمی بازشناسی متون چاپی فارسی”، رساله دکتری مهندسی برق، دانشگاه تربیت مدرس، تابستان ۱۳۷۸

– لک فائز، م. شیرعلی شهرضا، ” تشخیصی متن چاپی فارسی با فونت ثابت با استفاده از شبه کلمات ” ، مجله امیرکبیر ر سال هفتم شماره ۲۸، ص ۲۹۱- ۳۰۰ و ۱۳۷۶
– لثت. مسروری شناسایی برون خط کلمات دستنویس فارسی در ایالثت مجموعه محدود رساله دکتری مهندسی برقر دانشگاه تربیت مدرس و تابستان ۱۳۷۹

– R. Azmi and E. Kabir, “A New Segmentation Technique for Omnifont Farsi Text”, Pattern Recognition Letters, Vol. 22, pp. 97-104, 2001

مقدمه
بازشناسی نوشتار یکی از مهمترین شاخه های بازشناسی الگو است که تحقیقات گسترده ای در این زمینه انجام شده است و هنوز یکی از مسائل تحقیقاتی در حال رشد است. بازشناسی نوشتار با توجه به نحوه اخذ اطلاعات به دو دسته اصلی برون خط و برخط تقسیم بندی می شود. بازشناسی برون خط هم شامل بازشناسی نوشتارتایپی وهم نوشتار دستنویس می شود ولی بازشناسی برخط فقط در بازشناسی دستنوشته کاربرد دارد. در بازشناسی برون خط، تصویر روبش شده نوشتار به عنوان ورودی در نظر گرفته می شود، ولی در بازشناسی برخط، مختصات نقاط مسیر حرکت قلم و فشار قلم ورودی سیستم است. در این حالت وسیله ارتباط انسان با کامپیوتر معمولا یلت قلم ویلث صفحه رقومیکننده” است[۴-۱] . شکل (۱) نشان دهنده نحوه ورود اطلاعات در دو حالت است.

تحقیقات گسترده ای هم در زمینه بازشناسی برخط و هم در زمینه بازشناسی برون خط انجام گرفته است . تحقیقات در زمینه بازشناسی برون خط از بازشناسی کاراکترها با جوهر مغناطیسی شروع شده است و هم اکنون سیستمهای تجاری OCR وجود دارند که تصویر متون را به فایل متنی تبدیل می کنند. در بازشناسی برخط نیز پیشرفتهای زیادی رخ داده است. بعضی از سیستمهای بازشناسی برخط فقط کاراکترهای خاصی را بازشناسی می کنند. سیستمهایی نیز وجود دارند که نوشتار پیوسته لاتین را بازشناسی می کنند. در زمینه بازشناسی برون خط نوشتار فارسی تحقیقات زیادی انجام شده است ولی هنوز نرم افزار کاربردی در این زمینه وجود ندارد[۱۲-۷] در زمینه بازشناسی برخط نوشتار فارسی تحقیقات اندکی انجام شده است (۱۴-۱۳] بازشناسی برخط به دلایل زیر کاربردهای زیادی پیدا کرده است و هم اکنون تحقیقات زیادی در این زمینه انجام می شود [۲].
۱- نوشتن با قلم خیلی سریعتر و راحت تراز تایپ کردن است
۲- بعضی جاها امکان تایپ وجود ندارد مثلا در ایالت کلاس درس دانشجویان نمی تواتنند مطالب درسی را تایپ کنند ولی می توانند آن را بنویسند.
۳PDA – Personal Digital Assistant ها ، کامپیوترهای جیبی که امکان ذخیره تقویم و آدرسها و دسترسی به email را دارند، گاهی آنقدر کوچکند که یا امکان وجود یک صفحه کلید کامل در آنها وجود ندارد و یا صفحه کلید ندارند.
۴- کامپیوترهای شخصی صفحهای (Tablet PCs) اطلاعات را میتوانند از طریق دستنوشته دریافت کنند.
۵- بعضی زبانهای طبیعی تعداد زیادی نماد دارند ، مثلا خط Kanji شامل ۹۰۰۰ کاراکتر می باشد. در چنین زبانهایی وارد کردن اطلاعات از صفحه کلید کار بسیار دشواری است.
بنابراین بازشناسی دستنوشته برخط ضروری به نظر می رسد. اولین تحقیقات در این زمینه برای خطوط چینی و ژاپنی انجام شده است ۶-۵ در زمینه بازشناسی برخط نوشتار لاتین نیز تحقیقات گسترده ای انجام شده و هنوز در حال انجام است. برای بازشناسی بهتر ، مجموعه نویسههای خاصی تعریف شده اند که در بعضی از حالات با شکل اصلی نویسهها تفاوت اساسی دارند. اخیرا سیستمهای تجاری زیادی به بازار آمده اند که از این الفباها استفاده می کنند. دقت بازشناسی با استفاده از چنین الفباهایی خیلی خوب (%۹۹ح) گزارش شده است. ولی این سیستم ها در مواقعی که سرعت در نوشتن مطرح است، مثل نت برداری و کاربردی نیستند. سیستمهای تجاری دیگری از الفباهای طبیعی تر استفاده می کنند ولی آنها محدودیت روی نوشتن کاراکترها به صورت مجزا و کلمات جداشده از همدیگر را دارند. محصولاتی نیز وجود دارند که سعی در بازشناسی نوشته های بدون قید و محدودیت دارند [۲]. در زمینه بازشناسی دستنوشته های برخط فارسی و عربی تحقیقات کمی انجام شده است. تحقیقات انجام شده بیشتر روی بازشناسی نویسهها، شامل ارقام ، حروف مجزا و علائم ، است. در زمینه بازشناسی کلمات دستنویس برخط تحقیقات بسیار کمی و با محدودیت هایی در نحوه نوشتن و در تعداد کلمات معتبر انجام شده است . بعنوان مثال در مرجع [۱۵ برای بازشناسی برخط کلمات دستنویسی از یاث فرهنگ ۹۰۰ کلمه ای معتبر استفاده شده است. یعنی تعداد کلماتی را که سیستم بازشناسی می کند فقط ۹۰۰ کلمه است. نرخ بازشناسی برای همین ۶۰۰ کلمه ۸۰% گزارش شده است: با توجه به مطالب فوق انجام تحقیقات در زمینه بازشناسی برخط نوشتار فارسی ضروری به نظر می رسد. برای انجام هر تحقیق نیاز به داده می باشد. که ما دادههایی از دستنوشتههای افراد مختلف بصورت برخط جمع آوری کرده ایم. در هر مسئله بازشناسی نوشتار یالث مجموعه کلمات معتبر نیز لازم است که ما یالت مجموعه کلمات معتبر ورایج با بیش از ۳۰۰۰۰۰ کلمه را بدست آورده ایم در بخشی ۲ به چگونگی بدست آوردن مجموعه کلمات معتبر و رایج می پردازیم و در بخش ۳ جمع آوری داده های برخط را توضیح خواهیم داد .

۲- تهیه یک مجموعه کلمات رایج در زبان فارسی
یک مجموعه کلمات معتبر برای بازشناسی کلمات لازم است. همه کلمات موجود در ایالت زبان خیلی زیاد است. ولی مجموعه کلمات رایج زیر مجموعه ای از کل کلمات است که بیشتر بکار برده می شوند. یلت مجموعه از کلمات را می توان از مدخلهای یک فرهنگ یافت. مثلا یک فرهنگ دوزبانه فارسی – انگلیسی شامل تعداد زیادی کلمه است. کلمات موجود در فرهنگ ممکن است شامل همه کلمات رایج نباشد، مثلا از مجموعه کلمات ( گفتن ، گفتم، گفتی ، گفت ، گفتیم، گفتید ، گفتند، گفته} فقط کلمات {گفتن ، گفت ، گفته} در مداخل یک فرهنگ نمونه وجود دارد. اطلاعات موجود در فرهنگ های الکترونیکی را براحتی نمی توان توسط برنامه های کامپیوتری استخراج کرد. سازندگان فرهنگ های الکترونیکی نیز اطلاعات فنی را در اختیار دیگران قرار نمی دهند. همچنین اطلاعاتی در مورد تکرار کلمات در متون مختلف در فرهنگهای معمولی وجود ندارد بنابر این تصمیم به تهیه یک مجموعه کلمات رایج معتبر گرفتیم. چون روزانه هزاران کلمه در یک روزنامه چاپ می شود ، روزنامهها را برای استخراج کلمات رایج مناسب دیدیم، اکثر روزنامهها در ایران بصورت الکترونیکی با فرمت PDF منتشر می شوند و استخراج متون آنها کار راحتی نیست. با جستجو در اینترنت دو روزنامه را که اطلاعات آنها بصورت فایل متنی html است یافتیم. این دو روزنامه دارای آرشیوی هستند که مطالب گذشته آنها از چند سال پیش تا کنون در آن بایگانی شده است و میتوان به آن دست یافت. مطالب شش سال از یک روزنامه و یک سال از روزنامه ای دیگر را از اینترنت دریافت کردیم و برای بدست آوردن مجموعه کلمات مورد نظر آنها را پردازش کردیم . این کار در مراحل زیر انجام شد.

۲ – ۱- خواندن اطلاعات موجود در فایل های html و حذف حروف لاتین و علائم و ارقام
هر صفحه html یک فایل منبع دارد که دارای دستورات html و متونی است که در صفحه html نمایش داده می شود. نمونه ای از یلت صفحه html و قسمتی از فایل منبع آنرا در شکل (۲) می بینید. از فایل Html اطلاعات بصورت کاراکتری خوانده می شود و بجای کاراکترهای لاتین و ارقام و علائم ، blank قرار داده می شود و فایل جدید یا حاصل می شود این فایل فقط شامل کلمات فارسی است

۲ – ۲- خواندن و شمارش کلمات فارسی و ذخیره آنها
از فایلی که در مرحله الف حاصل می شود اطلاعات بصورت کلمه کلمه خوانده می شود ودر آرایه ای قرار می گیرد. فرض بر اینست که بین هر دو کلمه حداقل یک فضای خالی وجود دارد. اگر کلمه ای که خوانده می شود قبلا در آرایه وجود داشته باشد فقط به شمارنده مربوط به آن کلمه یلت واحد اضافه میشود در غیر اینصورت کلمه به آرایه اضافه می شود و شمارنده مربوط به آن یالث می شود. این کلمات و تعداد تکرار آنها در ایالت فایل ذخیره می شوند. نمونه هایی از کلمات استخراج شده و تعداد تکرار آنها را در جدول (۱) می بینید. تعداد کل کلمات استخراج شده ۳۱۳۲۲۵ کلمه است. همانطور که در ستون آخر جدول (۱) دیده می شود کلماتی که تعداد تکرار آنها کم است کلمات رایجی نیستند. بعضی از این کلمات بخاطر اشتباهات تایپیستها بوجود آمدهاند. اما برای آزمایشات بعدی ۲۹۷۳۹ کلمه را که تعداد تکرار آنها بیش از ۳۰ است انتخاب کرده ایم. همانطور که در جدول (۱) مشاهده می شود ، کلماتی با تعداد تکرار کم کلماتی مثل روشنفکرترین هستند که کمتر استفاده می شوند یا بخاطر اشتباه تایپیستها بوجود آمده اند. مثلا “روندرو به” از سه کلمه جدا تشکیل شده است که هنگام تایپ باید علامت فضای خالی بین سه کلمه ” روند، رو ، به ” قرار داده می شد. یا ” روند صعودی ” از دو کلمه تشکیل شده که فضای خالی بین دو کلمه فراموش شده است

۱ . ۳- استخراج زیرکلمات
هر کلمه از چند حرف تشکیل می شود. در زبان فارسی بعضی از حروف یلت کلمه بهم می چسبند. به حروفی که در یک در متون تایپی زیرکلمات جدا از هم نوشته می شوند. بصورت تصویری می توان زیرکلمات را از هم جدا کرد و هر زیر کلمه را جداگانه بازشناسی کرد. گاهی زیرکلمات با الگوریتم های جداسازی به حروف شکسته می شوند و حروف بازشناسی می شوند.

اشتراک‌گذاری:

  راهنمای خرید:
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.