مقاله موتور های جستجوگر


در حال بارگذاری
23 اکتبر 2022
فایل ورد و پاورپوینت
2120
3 بازدید
۷۹,۷۰۰ تومان
خرید

توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد

  مقاله موتور های جستجوگر دارای ۲۹ صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است

فایل ورد مقاله موتور های جستجوگر  کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه  و مراکز دولتی می باشد.

توجه : در صورت  مشاهده  بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل ورد می باشد و در فایل اصلی مقاله موتور های جستجوگر،به هیچ وجه بهم ریختگی وجود ندارد


بخشی از متن مقاله موتور های جستجوگر :

موتورهای کاوش بسیاری موجود هستند و براحتی در دسترس قرار می‌گیرند Netsearch متعلق به نت اسکیپ و www by subject or keyword مربوط به کتابخانه کنگره، هر دو با هم موتورهای کاوش اصلی را گرد آورده‌اند. همچنین ابرموتورهایی وجود دارد که به جستجوگران اجازه می‌دهد که سریعاً به چندین موتور کاوش دسترسی پیدا کنند،

اما فقط Savy search قادر به جستجوی بیش از ۵ پایگاه در یک زمان است. “All-in-one” گروهی دیگر از ابزارهائی را که ارائه دهنده نمونه‌های جستجو بسیاری از موتورهای کاوش در یک پایگاه وب برای آسان‌سازی عمل جستجو هستند را نشان می‌دهد.
کار عنکبوتها، روباتها و دیگر برنامه‌های خودکار بوسیله پروسیس خلاصه شده است. (۱۹۹۵) و محدودیتهای این ابزارها بوسیلهء کاستر تجزیه و تحلیل شده‌اند. (۱۹۹۵) چندین مقاله ادعا کرده‌اند که ابزارهای جستجوی اینترنت را ارزیابی کرده‌اند، اما اغلب آنها توصیفهایی از شبکه جهانی وب یا موتورهای کاوش ارائه داده‌اند. برینکلی و بیورک (۱۹۹۵) هایتلنت، آرچی، گوفر، و ایزو شبکه جهانی وب را شرح داده‌اند.

کورتولیس، بیرواستارک (۱۹۹۵) پرسشهایی بکار برده‌اند برای اینکه موتورهای کاوش و نمایه‌های وب را آزمایش کنند. اما گزارش آنها بیشتر توصیفی است. کایمل (۱۹۹۶) تاریخچه‌ای از پایگاههای تولید شده بوسیله رباتها را ارائه داده و به جستجوگران مبتدی راهنمائی‌های خوبی در مورد موتورهای کاوش پیشنهاد کرده است. وندیتو(۱۹۹۶) هفت موتور کاوش را آزمایش کرده و ویژگیهای جستجوی آنها را شرح داده است. گزارشهای مشابه در مورد اینترنت فراوان است و بسیاری از آنها را می‌توان در لیت کمپبل پیدا کرد. نمونه‌های خوب بسیار کم هستند. مثل گزارشهای لین (۱۹۹۵)، وین شیپ (۱۹۹۵) وبستر و پانول (۱۹۹۵).

مطالعات ارزشیابی نسبتاً کمی وجود داشته که شامل تحقیق میدانی در مورد موتورهای جستجو باشد. دسای (۱۹۹۵) قدرت بازیابی سیزده ابزار جستجو را با یک سؤال آزمایش کرده است. او قادر بود با جستجوی نامش تعیین کند که چگونه بسیاری از اسناد وبی او بازیابی شده است. اینفوسیک و لایکاس با بازیابی هفت سند از ۲۴ سند بهتر عمل کردند. در حالیکه دیگر موتورها و نمایه‌ها نظیر وب کرولر و یاهو ضعیف عمل کردند. لیتون (۱۹۹۵) عملکرد اینفوسیک، لایکاس، وب کرولر و ورلد واید وب وارم را با استفاده از ۸ سؤال مقایسه کرده است.

او این آزمایش را با ۴ معیار انجام داد-نسبت تکراری بودن، دقت، دقت کامل و حداکثر ۱۰ دقت- و نتیجه گرفت که لایکاس و اینفوسیک بهتر از بقیه عمل کردند. پکروتومایولو ۲ سؤال مرجع را در آلتاویستا، ماژلان، اینفوسیک، لایکاس و یونیت جستجو کردند. امتیاز دقت آنها مبتنی بود بر ۱۰ نتیجه اول، آنها فهمیدند که آلتاویستا بهترین عملکرد را داشت بعد از آن اینفوسیک، لایکاس، ماژلان و پوینت. مقابقاب (۱۹۹۵) ۵ سؤال را برای امتحان کردن ۵ موتور کاوش با اجرای جستجوهای اصلی و اصلاح شده در هر موتور بکار برد. او دقت نتیجه اول را تغییر داد. با استفاده از ۲۵ نتیجه بعنوان پایه و مبنا. او یاهو را بعنوان بهترین عمل کننده شناخت.

یافته‌های این مطالعات بطور قطعی بهترین موتورهای کاوش را مشخص نکرد بعلت سؤالات مختلف، تعداد متفاوت سؤالات و مقیاسهای مختلف بکار رفته برای ارزشیابی. با این وجود، این مطالعات شیوه‌های مختلف ارزیابی موتورهای کاوش را ثابت کرد و معیارهای جدید و منطقی برای اجرای جستجو پیشنهاد کرد.

روش‌شناسی
این مطالعه هشت موتور کاوش را که مشهور هستند و برای عموم رایگانند ارزیابی می‌کند. این موتورها عبارتند از: آلتاویستا، اکسایت، اینفوسیک، گاید، لایکاس، ماژلان، این تکست، وب کرولر و ورد واید وب وارم.

عوامل بسیاری ممکن است برای موفقیت یک جستجو مشارکت کنند. درک صحیح از تقاضای جستجو، استراتژی جستجو، پایگاه اطلاعاتی، موتور کاوش، و قضاوت میزان ارتباط بوسیلهء جستجوگران. در این تحقیق تعدادی از این معیارها کنترل شده بودند بنحوی که تفاوت موتورهای کاوش قابل مشاهده بود. موتورهای کاوش از نظر اندازه، محتوای پایگاه اطلاعاتی‌شان، خط‌مشی‌های نمایه‌سازیشان، کنترل کیفیت، شیوه‌های بازیابی و ارائه نتایج جستجو متفاوتند.

فرض بر این شد که سؤالات آزمایشی با پیچیدگی و وضع متفاوت در تعیین بهترین موتور جستجو با ارزش‌تر خواهد بود. با این وجود، مطالعات پیشین مشخص کردند که امکان اینکه یک موتور جستجو در جوابگویی همه نوع سؤالات بهتر از همه باشد، وجود ندارد. ما تقاضاهای جستجو را با استفاده از ۲۰ سؤال مطرح شده در میز مرجع استاندارد کردیم. و ۵ سؤال موضوعی که در حوزه‌هایی که منابع اینترنتی بسیاری داشت،

بوجود آمده بود-سرگرمی، تجارت، سیاست اقتصاد و بهداشت. سؤالات مرجع گردآوری شده شامل سؤالات تخصصی و پرسشهای موضوعی وسیع بود و از نظر اینکه توانایی موتورهای کاوش را در جوابگویی به سؤالات مرجع واقعی مورد آزمایش قرار داد با ارزش بودند. ۵ سؤال موضوعی ساختگی بودند، اما این طراحی ما را قادر می‌ساخت که تجزیه و تحلیل معنی‌دار بیشتری انجام دهیم. با این همه، هیچ ارزشیابی خیلی خردمندانه نبود اگر ما از سؤالاتی که برای آن هیچ چیز قابل بازیابی نبود، استفاده می‌کردیم.

مجموعه داده‌ها۲ به هشت موتور کاوش چهار جستجو اختصاص یافته بود برای اطمینان از اینکه هر سؤال دو بار در یک موتور جستجو شده است. به جستجوگران آموزش داده شد که از مرورگر نت اسکیپ برای دسترسی به اینترنت استفاده کنند و سؤالات داده شده را در موتورهای کاوش تعیین شده جستجو کنند و نسخه‌های چاپی از نتایج جستجو ارائه دهند. جستجوگران کار را در آوریل شروع کردند و در ژوئن ۱۹۹۶ نتیجه‌گیری انجام شد. جمله‌بندی سؤالات مرجع برای جستجوهای اینترنتی کمی تغییر داده شد. برای اطمینان یافتن از تکنیکهای مشابه بکار رفته، کلیدواژه‌ها تعیین شده بودند و پارامترهای اساسی در مورد اینکه در هر موتور کاوش جستجو به چه صورت انجام شود ارائه شدند. به جستجوگران گفته شد که بهترین قضاوتشان را در ارزیابی ارتباط منابع بازیابی شده بکار گیرند.

یکی از سؤالات مرجع دو بخش داشت، بنابراین سئوالات مرجع به ۲۱ تبدیل شد. هر کدامیک از سؤالات ۲۱ گانه مرجع و ۵ سؤال موضوعی دو بار در هر موتور، جستجو شده بود. اما در اکسایت ۴ بار جستجو شد، زیرا در این موتور، جستجوگر قادر به جستجوی کلیدواژه‌ای و نیز جستجوی مفهومی می‌باشد. در میانه راه با ماژلان جستجوگران گزینه‌ای از جستجو را در بخش خاصی از پایگاههای اطلاعاتی یا کل پایگاهها به منظور هماهنگی و یکدستی همه جستجوگران در کل پایگاهها انجام دادند. در کل ۴۶۸ جستجو انجام شده بود.
متغیرهای وابسته. چهار متغیر برای این تحقیق اندازه‌گیری شدند. «دقت»۳ که بطور سنتی تعریف شده بود: تعداد منابع مرتبط بازیابی شده تقسیم بر تعداد منابع بازیابی شده و یک معیار استانداردی برای سیستمهای بازیابی اطلاعات بوده است. از آنجائی که ارزیابی ارتباط تعداد زیاد صفحات بازیابی شده بوسیلهء موتورهای کاوش غیرممکن بود .

این متغیر در این تحقیق بطور عملیاتی چنین تعریف شده:
دقت: تعداد منابع مرتبط در ۱۰ گزینه اول
شیوه استفاده از ده گزینه اول قابل توصیه است، زیرا این گزینه‌ها بیشتر امکان دارد که به وسیله جستجوگران دیده شود. این معیار را لیتون، پیکروتومایولو بکار برده است. اما برخلاف تحقیق لیتون، این تحقیق پایگاههای ارجاعی و تکراری را در معیار دقت درنظر می‌گیرد. زیرا آنها بالقوه مفید بودند (در صورتی که گزینه‌های تکراری مرتبط باشد) و حذف آنها باعث می‌شد که پایهء مقایسه (که ده تا بود) کوچکتر شود.

«تکراری بودن»۴: در همان اوایل جستجو در موتورهای کاوش گزارشهای حکایت گونه‌ای از تکراریها بوجود آمد. در نتیجه این معیار در ارزیابی‌های ما وارد شد. تکراری بودن بطور عملیاتی «تعداد گزینه‌هایی که تکرار شدند و قبل از آن نیز ارائه شده بودند» تعریف شده بود. پایگاههای ارجاعی هم جزء تکراریها به حساب آمدند. در این مطالعه ما تعداد گزینه‌های تکراری را بر اساس ده نتیجه اول در نظر گرفتیم.

«امتیاز مرتبط‌ترین گزینه»۵: همه موتورهای کاوش انتخابی، نتایج بازیابی را با استفاده از الگوریتم متفاوت مرتب می‌کنند و بهترین تطبیقها را اول ارائه می‌دهند. اما تنظیم همیشه مفید نبوده است. این متغیر برای امتحان کردن توانایی درجه‌بندی موتورهای کاوش طراحی شده بود. که بر این فرضیه مبتنی است که شیوه درجه‌بندی مؤثر، مرتبط‌ترین گزینه‌ها را در بالاترین لیست نتایج جستجو قرار می‌دهد.

جستجوگران، بطور عملیاتی مرتبط‌ترین گزینه از بین ده گزینه تعریف کردند و به آن بخاطر جایگاهش یک امتیاز دادند. اگر این گزینه در اولین، دومین یا سومین گزینه بود این موتور امتیازی بین ۱ یا ۲ یا سه می‌گرفت. اگر این گزینه جای دیگر ظاهر می‌شد به آن امتیاز ۶ داده می‌شد. عدد ۶ به این علت انتخاب شده بود که نشان می‌داد این گزینه در خارج از اولین نیمه لیست ده تایی قرار گرفته است. امتیاز پائین در مورد مرتبط‌ترین گزینه نشان دهنده این بود که آن موتور بهترین درجه‌بندی گزینه‌های مرتبط را داشته است.

«امتیاز درجه‌بندی میزان ارتباط»۶: این متغیر نیز درجه‌بندی میزان ارتباط در موتورهای کاوش را ارزیابی کرد اما به شیوه‌ای متفاوت. این متغیر به عنوان درصد گزینه‌های مرتبط که در اولین نیمه لیست ده گزینه‌ای ظاهر شدند تعریف شد. این تعریف مبتنی بود بر این فرضیه که میزان ارتباط گزینه‌ها کاهش خواهد یافت هر چقدر که به گزینه‌های پائین‌تر می‌رسیم. جستجوگران تعداد گزینه‌های مرتبط را در هر نیمه از لیست ده گزینه‌ای ثبت کردند و مأموران تحقیق این تعداد را با توجه به فرمول زیر برای رسیدن به امتیاز درجه‌بندی براساس میزان ارتباط تبدیل کردند:
تعداد گزینه‌های مرتبط در اولین لیست
کل تعداد گزینه‌های مرتبط در لیست ده‌تایی

«بازیابی»۷: یکی دیگر از معیارهای استاندارد برای بازیابی اطلاعات است و چنین تعریف شده: تعداد گزینه‌های مرتبط بازیابی شده تقسیم بر کل تعداد گزینه‌های مرتبط در یک فایل اطلاعاتی. این معیار برای استفاده دشوار بود زیرا جستجوگران می‌بایست همه گزینه‌های مرتبط را در کل یک پایگاه یا فهرست شناسائی کنند. این مشکل در شبکه جهانی وب خیلی شدیدتر است. با هزاران هزار صفحه وب نمایه شده به وسیله موتورهای جستجو انتخابی غیرممکن بود که همه صفحات وب مرتبط با موضوع جستجو شناسایی شود. به این ترتیب بازیابی در این مطالعه استفاده نشد.
«تجزیه و تحلیل داده‌ها»۸: از ۴۶۸ جستجوی انجام شده ۴ معیار برای هر جستجو در موتور کاوش ثبت شد. بسامد و میانگین این معیارها برای هر موتور جستجو با نوع سؤالات حساب شده بودند.

یافته‌ها
دقت
سؤالات مرجع عمومی متنوع بود بطوری که شاید یک کتابدار مرجع برای یافتن پاسخ آنها از اینترنت استفاده نمی‌کرد. با این وجود همه سؤالات در موتورهای کاوش جستجو شده بودند که توانائی‌شان را در پاسخگویی به سؤالات مرجع ارزیابی کنند. موتورهای کاوش این کار را بخوبی انجام ندادند. میانگین امتیاز دقت خیلی پائین بود. بین ۳۱/۰ و ۹۳/۲

این تکست بالاترین تعداد گزینه‌های مرتبط را بازیابی کرد. بعد از آن آلتاویستا و اینفوسیک و سپس لایکاس با اختلاف کم چهارم شد. برای نشان دادن جنبه دیگری از این جستجوها، اطلاعاتی در مورد نقاط کور هر موتور در جدول ۱ قرار گرفتند که نشان داد اکسایت پائین‌ترین تعداد نقاط کور را داشت و بعد از آن این تکست و لایکاس. بر رویهم رفته، این دو مجموعه از داده‌ها این تکست را بعنوان بهترین موتور در برخورد با سؤالات مرجع معرفی کرد. این موتور صفحات وب را برای این سؤالات بازیابی کرد و نتایج جستجویش بالاترین امتیاز میزان دقت را داشت.

در این پژوهش موتورهای جستجو با سؤالات موضوعی ساختگی بهتر عمل کردند. سؤالات موضوعی پائین‌ترین میانگین امتیاز دقت (۲/۳) نسبت به بالاترین امتیاز میزان دقت (۹۳/۲) در سؤالات مرجع واقعی بالات بود. اینفوسیک بهتر عمل کرد بعد از آن ماژلان و این تکست و باز هم لایکاس با اختلاف کم چهارم شد. از آنجائی که سؤالات مرجع برای حوزه‌هایی طراحی شده بودند که در مورد آن اطلاعات بیشتری در وب موجود باشد، مشکل نقاط کور در این سؤالات خیلی جدی نبود. در سؤالات مرجع کیفیت گزینه‌های بازیابی شده، «دقت خاص» تعداد جستجوهایی که بیش از ۵ گزینه مرتبط را بازیابی کردند در نظر گرفته شد که در جدول ۲ آمده است.

اینفوسیک باز هم برنده ظاهر شد، بعد از آن ماژلان و این تکست و لایکاس و وب کرولر هر سه بطور مساوی در جایگاه سوم قرار گرفتند. این اطلاعات نشان داد که اینفوسیک در برخورد با سؤالات بهترین بود. این موتور بیش از ۵ گزینه مرتبط را برای اغلب پرسشهای موضوعی بازیابی کرد ونتایج جستجویش بالاترین امتیاز میزان دقت را داشت.

تکراری بودن
تکراریها در بازیابی زمان جستجوگران را تلف می‌کنند و باعث سردرگمی می‌شوند. علاوه بر قصه شکایت در مورد تکراریها، به هر حال، این مسأله به نظر می‌رسد که در بیشتر موتورهای کاوش مطرح بوده است. میانگین تعداد موارد تکراری برای هر دو سؤالات مرجع و سؤالات موضوعی در هر موتور کاوش ناچیز است (کمتر از یک). اما سؤالات موضوعی شانسشان برای داشتن موارد تکراری بیشتر بود. این اطلاعات نشان می‌دهد که نمایش داده‌های تکراری حتی زمانی که گزینه‌های مرتبط زیادی بازیابی شده بود اهمیت چندانی نداشتند.

امتیاز مرتبط ترین گزینه
این امتیاز توانایی هر موتور کاوش را برای نشان دادن اولین گزینهء مرتبط اندازه‌گیری کرد. بخاطر اینکه امتیازی به محل گزینه‌ها اختصاص یافته بود، پائین‌ترین امتیازها عملکردهای بهتر را نشان می‌داد. برای سؤالات مرجع امتیاز موتورهای جستجو بین ۳/۳ و ۳/۵ قرار داشت، اول اپن تکست بعنوان برنده بعد از آن اکسایت و آلتاویستا قرار گرفتند. موتورهای کاوش با سؤالات موضوعی خوب عمل نکردند. امتیازات آنها بین ۵/۲ تا ۲/۴ قرار داشت. اپن تکست و بعد از آن اینفوسیک و وب کرولر بهترین عملکرد را داشتند. اپن تکست در ارائه مرتبط‌ترین گزینه همیشه بهترین بود.

امتیاز تنظیم براساس ارتباط
این امتیاز قدرت موتورهای کاوش را اندازه‌گیری کرد برای ارائه گزینه‌های مرتبط در اولین نیمه نتایج جستجو. برای سؤالات مرجع، امتیازات موتورهای کاوش بین ۵/۱۵% تا ۱/۴۵% و با پیشتازی اپن تکست و بعد از آن اینفوسیک و اکسایت قرار داشت. برای سؤالات موضوعی امتیازاتشان بین ۲۳% تا ۸/۵۲% قرار گرفت. اینفوسیک بعنوان بهترین عمل کننده لایکاس در جایگاه دوم و اکسایت به عنوان سومین جایگاه.
عملکرد جامع
چهار معیار جنبه‌های قدرت بازیابی موتورهای کاوش را اندازه‌گیری کردند. نمودار ۲ دقت، تکراری بودن و امتیاز مرتبط‌ترین گزینه‌ها را برای سؤالات مرجع خلاصه کرده است.

امتیاز رتبه‌بندی براساس میزان ارتباط در آن وارد نشد، زیرا دامنه آنها خیلی بالاتر بود و نمی‌توانست بطور کامل در این نمودار وارد شود. بهترین موتور جستجو بالاترین دقت، پائین‌ترین موارد تکراری، پائین‌ترین امتیاز مرتبط ترین گزینه و بهترین امتیاز تنظیم براساس دقت را دارد. این نتایج در نمودار ۲ روشن است، به هر حال موتورهای کاوش چنین عمل کردند: اپن تکست بالاترین مانعیت و پائین‌ترین امتیاز مرتبط‌ترین گزینه را داشت. اما اکسایت و اینفوسیک پایین‌ترین تعداد موارد تکراری را داشتند. از این ۴ معیار، اپن تکست بهترین امتیاز را از بین آنها داشت و توانست بهترین عمل کننده برای این نوع سؤالات باشد. رتبه دوم مشخص نبود چون این موتورها فقط در یک یا دو معیار ممتاز بودند. با این وجود این امکان وجود داشت که آنها را به دو گروه تقسیم کنیم: آلتاویستا، اکسایت، اینفوسیک و لایکاس نسبتاً بهتر از ماژلان، وب کرولر و ورلدواید وب وارم عمل کردند.

نمودار ۳ شباهت دشواری را در تعیین برنده برای سؤالات موضوعی نشان می‌دهد. اطلاعات موجود بر روی نمودار ۳ اینفوسیک را بهترین عملگر می‌داند و امتیاز تنظیم براساس ارتباط آنرا تقویت می‌کند. بقیه موارد برای اعلام کردن خیلی مشکل بود.

جستجو در اینترنت
در سال ۲۰۰۰ حدود یکصدمیلیون پایگاه وب بر روی شبکه جهانی اینترنت وجوددارد و پیش بینی می شود که تنها پس از گذشت ۲ سال ، در سال ۲۰۰۲ به ۲۵۰ میلیون پایگاه برسد. با رشد تصاعدی حجم اطلاعات ، یافتن اطلاعات موردنظر در این دریای پهناور کار مشکلی است و بکارگیری ابزارهای جستجوی مناسب یکی از ضروریات کار باشبکه می باشد.

موتورهای جستجو از سال ۱۹۹۴ مورداستفاده قرار گرفتند. در ابتدا فعالیت آنها فقطجستجو در وب بود ولی با گذشت زمان ، خدمات دیگری از جمله فروش کالا، اجاره فضای وب و پست الکترونیک ، تحلیل سایتها و; به فعالیت آنها اضافه شد.

  راهنمای خرید:
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.