هنگامی که ویژگی ها انتخاب شدند، گام بعدی ایجاد مجموعه ای بزرگی از صفحات تست با مقادیر متفاوت و ترکیب های مختلف از این ویژگی ها می باشد. “gerridae plasmatron” به عنوان عبارت کلیدی برای بهینه سازی صفحات انتخاب شده است. هدف تخمین تاثیر ویژگی های صفحه در الگوریتم های رتبه یابی است و تعیین اینکه آیا صفحات آزمایشی بهتر از سایتهای قانونی هستند.
( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
بنابراین صفحات قانونی و هرزنامه را به صورت دستی امتحان کرده و میانگین، فرکانس های تجربی را استخراج نموده اند. برای نمونه فرکانس کلمات کلیدی در بدنه متن تا ۱% به عنوان پایه در نظر گرفته شده و ۴% به عنوان بالا و ۱۰% به عنوان هرزنامه در نظر گرفته شده است.
یک زیرمجموعه ۳۰ تایی از ترکیب ویژگی ها را انتخاب کرده، هر شکل ترکیب یک گروه آزمایشی است که دربرگیرنده سه نمونه یکسان است که مقادیر ویژگیهای همانند را به اشتراک می گذارند.
برای این ۳۰ گروه مقادیر ویژگی ها به طریقی انتخاب شده که موارد عادی، متفاوت را بیان کند. مورد عادی یک سایت قانونی هست که به وسیله صفحه مرجع بیان می گردد. برای این صفحه مقادیر ویژگی ها به کلاس نرمال تعلق دارد. موارد دیگر کلمات کلیدی را در مکانهای مختلف صفحه در بر می گیرد (به عنوان مثال، بدنه، عنوان، سرفصل) یا مقادیر متفاوت از لینکهای ورودی یا خروجی.
با بهره گرفتن از این عبارت جستجو صفحات آماده شده و در پایان یک صفحه مرجع را دربرگیرنده اطلاعات درباره gerridae و plasmatron گردآوری شده از منابع مختلف است، خلق شده است.
در مرحله دوم این صفحه مرجع ۹۰ بار کپی شد. برای فرار از تشخیص های تکراری توسط موتورهای جستجو، در هر کدام از این ۹۰ صفحه، بسیاری از کلمات با شیوه ای شبیه ]۸۸[ جایگزین شدند.
نتایج :
هنگامی که ۳۰ گروه آزمایشی ایجاد شدند، آنها در ۹۰ دامنه ثبت شده قرار گرفتند که توسط ۴ ارائه دهنده خدمات میزبانی سرویس می گرفتند. به علاوه تعدادی دامنه ها در بخش وب سرور دپارتمان ما مستقر شدند.
هنگامی که سایتها مستقر شدند، اقدام به ثبت تصاویر لحظه ای[۷۵] از نتایج موتور جستجو برای پرسش “gerridae plasmatron” شد. برای ۲۳۱۲ پرسش ارائه شده به گوگل و ۱۷۰۰ پرسش ارائه شده به یاهو، مشاهده شد که رتبه بندی نمی تواند در طول مدت طولانی پایدار بماند. در حقیقت ، طولانی ترین دوره برای یک رتبه بندی پایدار برای صفحات آزمایشی تنها ۶۸ ساعت برای گوگل و ۱۴۳ ساعت برای یاهو بود. گوگل صفحاتی که مسیر (URL) آنها شامل بیش از ۵ دایرکتوری هست شاخص سازی نمی کند. تعدادی از صفحات آزمایشی در هفته های اول از شاخص حذف شدند. برای گوگل جستجو برای“gerridae” نزدیک به ۵۵۰۰۰ نتیجه در برداشت. صفحات تست ما ۵ تا از ده اسلات بالای رتبه بندی را اشغال کردند. ۶ بالاترین مکان مشاهده شده برای پرسش“plasmatron” بود. برای یاهو برای هر دو کلمه کلیدی صفحات تست ما در مکان ۱ قرار گرفتند و برای دو هفته دارای همین رتبه بندی بودند .
بدلیل رتبه بندی متفاوت، موقعیت یک صفحه با میانگین گیری موقعیت آن در طی شش هفته تعیین شد. به این دلیل شش هفته تعیین شد که فاز ابتدایی آزمایش اشتباهاتی به دلیل کشف تکراری در بر می گرفت. هم چنین گنجانده شدن صفحات در شاخص زمان می گرفت. مشاهده شد که وقتی یک پرسش مشابه به گوگل یا یاهو داده میشود ، رتبه بندی های مختلفی تولید می کنند. این نشان می دهد که الگوریتم های به کار رفته متفاوت است. بنابراین وزن های ویژگی متفاوت برای گوگل ، یاهو استخراج شده است.
با دانستن ترکیبات مقادیر همه ویژگی ها برای یک صفحه k و مشاهده مکان آنها pos(k) در رتبه بندی، هدف تعیین کردن یک وزن بهینه برای هر ویژگی است که به بهترین وجه اهمیت ویژگی را برای الگوریتم رتبه بندی ثبت و ضبط کند. به عنوان اولین قدم، یک تابع نمره تعیین شده که این تابع به عنوان ورودی مجموعه ای از وزن ها و مقادیر ویژگی دریافت می دارد و یک نمره score(k) را برای صفحه page(k) محاسبه می کند] ۸۹[.
Score(k)=.wi
N تعداد ویژگی ها ، wi وزن ویژگی i و[-۱,۱] wi ، وجود ویژگی i در صفحه تست k می باشد.
این محاسبات برای همه صفحات تست تکرار می شود البته با وزن های مشابه. وقتی که همه نمرات محاسبه شدند، مجموعه صفحات تست بر طبق نمره شان مرتب شدند و این اجازه می دهد که یک رتبه بندی پیش بینی شده rank(k) به هر صفحه اختصاص داده شود. تفاوت مابین رتبه بندی پیش بینی شده و جایگاه واقعی برای همه صفحات محاسبه می شود. وقتی مجموع این تفاوت ها کمینه شود ، وزن ها بهینه هستند. این به یک تابع هدف مسئله برنامه ریزی خطی (LP) تبدیل می شود] ۸۹[.
min: |pos(k)-rank(k)|
فاکتور α(k) = m−pos(k) را به LP اضافه کرده، که اجازه می دهد صفحات تست با رتبه بندی بالاتر، تاثیر بیشتری را روی وزن های ویژگی اعمال کنند (m تعداد صفحات تست می باشد). موقعیت دقیق صفحات با رتبه بندی پایین در حال نوسان است. بنابراین باید راهی یافت که این تاثیر تصادفی را روی محاسبه وزن ها کاهش دهد. حل LP با الگوریتم سیمپلکس در وزن ها برای تمام ویژگی ها، فاصله میان مقادیر پیش بینی شده و واقعی را کاهش می دهد.
نهایتاً مشخص شد برای گوگل تعداد عبارات جستجو در عنوان[۷۶] و بدنه متن[۷۷] تاثیر مثبت و قوی در رتبه بندی دارد. هم چنین تعداد لینک های خروجی مهم بوده است. از سوی دیگر کلمات کلیدی که جزء مسیر فایل هستند تاثیر کمی در رتبه بندی دارند.
برای یاهو، ویژگی ها کاملاً متفاوت هستند. برای مثال کلمه کلیدی که در عنوان آشکار می شود تاثیر کمتری دارد و حتی با افزایش فرکانس این تاثیر کمتر نیز می شود. یاهو وزن را بیشتر روی تعداد لینک های ورودی و خروجی نسبت به گوگل قرار می دهد. به عبارت دیگر تعداد دفعاتی که کلمه کلیدی در متن آشکار می گردد چندان تاثیر مثبتی ندارد.
با توجه به نتایج گوگل ۷۸ صفحه از ۲۶ گروه آزمایشی در رتبه بندی فهرست شده اند. گروه های آزمایشی از دست رفته ما صفحاتی با سلسله مراتب سطح ۵ هستند و بنابراین توسط موتورهای جستجو شاخص سازی نشده اند. موقعیت برای شش گروه (۲۳%) با فاصله ۲ مورد پیش بینی قرار گرفت و برای یازده گروه(۴۲%) با فاصله ۵ یا کمتر پیش بینی شد. برای یاهو وقتی که گروه های آزمایشی با رتبه بندی مقایسه کردند، ۲۱ گروه در رتبه بندی آشکار شدند. سه تا از این گروه ها (۱۴%) با فاصله ۲ پیش بینی شدندو هشت گروه(۳۸%) با فاصله ۵ یا کمتر پیش بینی شدند .
در نگاه اول پیش بینی های چندان دقیق به نظر نمی رسد ، با این حال برای یاهو پیش بینی ها نزدیک به نتایج واقعی هستند .هر چند پیش بینی دقیق نیست اما روند کلی را مشخص می کند .
می توان نتیجه گرفت که ارزیابی کلی از اهمیت یک ویژگی درست است، اگرچه که مقادیر وزنی دقیق ممکن است متفاوت باشد. در اینجا تنها یک تابع رتبه بندی خطی در نظر گرفته شده در حالی که الگوریتم های رتبه بندی پیچیده تر می باشند.
ساخت طبقه بندی کننده:
رویکرد تعیین یک طبقه بندی کننده است که صفحات هرزنامه را از غیرهرزنامه مطابق با این ویژگی ها تشخیص دهد.
طبقه بندی ارائه شده برای موتور جستجوی گوگل توسعه داده شده است. بنابراین آن دسته از ویژگی ها که مربوط به گوگل هستند در نظر گرفته شده است. اینها تعداد کلمات کلیدی در متن، بدنه و نام دامنه هستند. به علاوه اطلاعات لینک نیز مورد توجه قرار گرفته است. تعداد لینک های خروجی بی اهمیت است و تعداد لینکهای ورودی نیز بی آسانی قابل تعیین نیست. اطلاعات لینک های ورودی که به یک صفحه اشاره می کنند توسط موتورهای جستجو موجود نیست. و به این علت ویژگیهای مربوطه را با لینک کمکی: پرسش ها تخمین زده شده است. گوگل و یاهو پرسش ها را درشکل لینک http://www.example.com پشتیبانی می کنند که یک فهرست از صفحات که به این سایت لینک می شوند را نتیجه می دهد. مشکل اینجاست که نه یاهو و نه گوگل همه صفحاتی که به صفحه پرسش پیوند می خورند را شامل نمی شود. بنابراین این تعداد تنها تقریبی از تعداد واقعی لینک ها که به یک سایت اشاره می کنند، هستند.
برای ساخت طبقه بندی کننده صفحات وب نیاز به یک مجموعه آموزشی برچسب گذاری شده است و همچنین مجموعه دیگری از داده ها به منظور بررسی مدل حاصل و ارزیابی کارآیی آن مورد نیاز است. برای ایجاد این مجموعه ها، ۱۲ پرسش به موتور جستجوی گوگل ارائه شد (درخواست برای عبارات جستجو شده رایجِ استخراج شده از فهرست پرسش های رایج گوگل). برای هر پرسش ۵۰ نتیجه اول به صورت دستی به عنوان قانونی/ هرزنامه طبقه بندی شدند. با دست کشیدن از صفحات غیر HTML (برای مثال pdf، ppt) یک مجموعه داده آموزشی شامل ۲۵۹ سایت به عنوان نتیجه حاصل شد (۱۹۴ تا قانونی و ۱۰۱ هرزنامه). مجموعه داده آزمایشی برای این مطالعه ۲۵۲ صفحه دارد (۱۹۳ تا قانونی و ۵۹ تا هرزنامه).
همه صفحات نتیجه دانلود شده و کدهای منبع HTML تجزیه می شود و مقادیر ویژگی برگردانده می شود. اگر پرسش شامل اصطلاحات چندگانه شود، استخراجگر ویژگی مستقل، در صورتی که پرسش به صورت کامل با ویژگی آنالیز شده مطابقت داشته باشد مقادیر بالاتری را گزارش می کند. منطق پشت این موضوع این است که یک برچسب Heading واحد که پرسش کامل را در بر می گیرد تطابق بهتری را نسبت به برچسب های Heading چند گانه که هر کدام دربرگیرنده یک قسمت از پرسش هستند نشان می دهد. استخراجگر ویژگی که از این رویکرد پیروی می کند، در فهرست زیر با (X) نشان داده شده که تمام ویژگی هایی مورد نظر را شمارش می کند.
عنوان: تعداد اصطلاحات پرس و جو از برچسب عنوان HTML
برچسب H1: تعداد اصطلاحات پرس و جو در برچسب H1 HTML
بدنه: تعداد اصلاحات پرس و جو در قسمت بدنه HTML
نام دامنه: تعداد اصطلاحات پرس و جو در نام دامنه
(برای مثال http://www.gerridae-plasmatron.com/index.php)
مسیر فایل: تعداد اصطلاحات پرس و جو در مسیر URL، برای مثال
http://www.example.org/gerridae-plasmatron/index.php))
لینک های خروجی: تعداد کلی لینک های خروجی
کلمات کلیدی لینک های خروجی: تعداد لینک های خروجی که کلمات کلیدی را در بر می گیرند .
لینک های ورودی گوگل: تعداد لینک های ورودی گزارش شده گوگل
لینک های ورودی یاهو: تعداد لینک های ورودی گزارش شده یاهو
نشانه رتبه بندی: مقدار رتبه بندی گوگل برای URL که به وسیله نوار ابزار گوگل گزارش می شود .
دامنه رتبه بندی: مقدار رتبه بندی گوگل برای دامنه نیز به وسیله نوار ابزار گوگل گزارش می شود.
تعداد کلمه: تعداد کلی کلمات در متن
T فرکانس: فرکانس اصطلاحات پرس و جو آشکار شده در متن (تعداد کلمات پرس و جو / تعداد کلمات روی صفحه)
با بهره گرفتن از مجموعه آموزشی برچسب گذاری شده به عنوان پایه، یکسری الگوریتم ها برای آموزش مدل های مختلف طبقه بندی اجرا شد. در پایان از ابزار weka استفاده شد که از بسیاری مدل های کلاس بندی پشتیبانی می کند.
ارزیابی مدلهای طبقه بندی:
هشت مدل طبقه بندی متفاوت از ابزار وکا برای ارزیابی قابلیت اجرای هدف مورد بررسی قرار گرفته است.
نهایتاً یک درخت تصمیم گیری به عنوان طبقه بندی کننده انتخاب شده زیرا اهمیت ویژگی ها را تعیین می کند، ویژگیهای نزدیک به ریشه مهم تر هستند. اجرای j48 موجود در بسته وکا، احتمالات مختلفی را برای نتیجه نهایی ارائه می دهد. جالب ترین فاکتور، فاکتور اطمینان است که درجه هرس کردن را نشان می دهد و بنابراین دقت کلاس بندی را نشان می دهد.
مقدار ۰٫۱ منجر به بهترین نتیجه برای مجموعه داده مورد آزمایش می شود. این درخت شامل ۲۱ گره می شود که ۱۱ تای آنها برگ هستند. ۵ ویژگی به وسیله الگوریتم انتخاب شده اند که می توانند به عنوان معیارهای تمایز بین سایت های هرزنامه و غیر هرزنامه مفید باشند. علاوه بر این وکا یک فاکتور اطمینان را برای هر برگ محاسبه می کند. مهم ترین ویژگی مربوط به وجود اصطلاحات مورد جستجو در صفحه است. ویژگیهای مهم دیگر نام دامنه، مسیر فایل، لینک های ورودی گزارش شده یاهو و ارزش رتبه بندی گزارش شده به وسیله نوار ابزار گوگل می باشند.
شکل ۳-۱:درخت j48 تولید شده توسط وکا ] ۸۹[
این درخت تصمیم برای ارزیابی داده های تست مورد استفاده قرار گرفت و ماتریس زیر را حاصل شد. طبقه بندی کننده نرخ مثبت غلط ۱۰٫۸ % و نرخ منفی غلط ۶۴٫۴ % را ارائه می دهد. همچنین نرخ تشخیص ( مثبت درست) ۳۵٫۶ درصد بدست آمده است.