از مزیتهای درخت تصمیم نسبت به بسیار دیگری از ردهبندها همانند شبکههای عصبی قابلیت تفسیر آن است به راحتی میتوان اطلاعات موجود در درخت را بصورت عبارات منطقی نمایش داد. مزیت دیگر درخت تصمیم ردهبندی سریع است معمولا با چندین پرسش ساده ردهبندی صورت میگیرد.
|
الگوریتم C5 [53] یکی از الگوریتمهایی است که با بهره گرفتن از دادههای آموزشی درخت تصمیم را میسازد درختی که توسط الگوریتم C5 تولید میشود میتواند برای ردهبندی به کار برود. الگوریتم C5 به طریقی مشابه یا الگوریتم ID3 و با بهره گرفتن از مفهوم آنتروپی اطلاعات درخت تصمیم را از روی دادههای آموزشی میسازد. دادههای آموزشی یک مجموعه به صورت از نمونههای ردهبندی شده است. هر نمونه یک بردار است که در آن ها نمایانگر ویژگیهای آن نمونه هستند. دادههای آموزشی با بردار نشانهگذاری شدهاند که درآنها ها رده متناظر با هر نمونه را نشان می دهد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
الگوریتم C5 از این حقیقت استفاده میکند که هر ویژگی داده میتواند برای تولید یک تصمیم به کار رود که بر اساس آن دادهها به زیر بخشهای کوچکتری تقسیم میشوند این الگوریتم بهره اطلاعاتی نرمال شده ویژگی را محاسبه میکند و ویژگی برای ایجاد تصمیم انتخاب میشود که بهره اطلاعاتی نرمال شده بیشتری داشته باشد. تصمیم فهرست دادهها را براساس مقادیر مختلف آن ویژگی به چند زیر فهرست تقسیم مینماید پس از آن الگوریتم بر روی زیر فهرستها دنبال میشود.
الگوریتم C5 موارد پایه کمی دارد. متداولترین مورد پایه هنگامی است که تمام نمونههای موجود در فهرست به یک رده یکسان تعلق داشته باشند. در چنین مواقعی، یک گره برگ حاوی برچسب آن رده تولید میشود. مورد پایه دیگر هنگامی است که هیچ ویژگی نتواند دادههای مورد بررسی را افراز کند. در چنین مواردی مابین دادههای باقیمانده رای اکثریت گرفته میشود و گره برگی با برچسب ردهای که اکثریت را داشته باشد ایجاد میشود علاوه بر این موارد ممکن است در یک زیر شاخه از یک گره هیچ نمونهای وجود نداشته باشد (هیچ یک از نمونهها در میان نمونههای مورد برسی مقدار خاص مورد نظر از ویژگیای را که برای ساخت گره تصمیم به کار رفته بود نداشتهاند) در این مورد گره برگی با برچسب رده اکثریت نمونههای مورد بررسی ساخته میشود. روال الگوریتم C5 را در شکل ۳-۴ مشاهده مینمایید.
|
شکل۳-۴: الگوریتم C5
۳-۲. خوشهبندی
هدف از خوشهبندی که یکی از مهمترین روشهای یادگیری بدونِناظارت محسوب میشود، کشف یک ساختارp در میان مجموعه دادهی D میباشد که تابع هدف بهینه شود. به عبارت دیگر، با توجه به انتظاراتی که با شنیدن نام خوشهبندی ایجاد میشود، پیش بینی میشود که یک الگوریتم مناسب قادر باشد تا از طریق بررسی شباهتها یا تفاوتهایی (مانند فاصلهها) موجود میان نقاط دادهای در مجموعه داده مفروض به کشف ساختار بپردازد. به این ترتیب خوشههایی ایجاد میشود که آیتمهای موجود در هر خوشه بسیار شبیه به یکدیگر باشند و با آیتمهای خوشههای دیگر نیز تا حد ممکن متفاوت باشند. از جنبه محاسباتی باید در نظر داشت که تقسیم N نمونه به C خوشه، ایجاد تعداد زیادی از افرازها را فراهم میسازد.[۲] استفاده از عدد استرلینگ را برای نشان دادن دادههای ممکن برای این افرازها را معرفی کردهاست.
رابطه (۳-۱۳) Sn©
به طور کلی یک الگوریتم افراز یک مجموعه دادهی D را میگیرد و مجموعهای از خوشهها P={Ci,…,CC} را که یک شِما از افراز نمونهها از D است را برمیگرداند. این بدین معنا است که خوشههای Ci با هم اشتراک ندارند و اجتماع همه آنها مجموعه داده را کامل میکند.
[۵۶] الگوریتم افرازبندی را به دو دستهی اصلی تقسیم بندی میکند؛ (۱) بستهای، (۲) افزایشی. الگوریتمهای خوشهبندی بستهای، کل مجموعه دادهها را بررسی میکنند تا مناسبترین راه را برای سازماندهی آنها پیدا کنند. الگوریتمهای افزایشی، در هر بار، یک مرحله از افراز دادهها را انجام میدهد. به طوریکه هر مرحله شامل یک آیتم دادهای واحد باشد. الگوریتمهای بستهای در ابتدای کار به تمام دادههای مجموعه داده نیاز دارند. در حالیکه الگوریتمهای افزایشی برای برنامههای کاربردی برخطی که دادهها در جریان مشاهدات افزایش پیدا می کنند مناسب هستند.
۳-۲-۱. الگوریتمهای افراز بستهای
این الگوریتمها شامل چهار دستهی کلی برای خوشهبندی میباشند ۱) خوشهبندی مبتنی بر بخشبندی (تابع هدف)، ۲) خوشهبندی سلسله مراتبی، ۳) خوشهبندی مبتنی بر مدل، و ۴) خوشهبندی مبتنی بر گراف.
در خوشهبندی مبتنی بر بخش بندی، اساس کار یک تابع هدف است. که کمینه سازی آن ما را به کشف ساختار موجود در مجموعه رهنمون میسازد و (در بسیاری موارد مسئله ی بهینه سازی را میتوان به خوبی فرموله کرد) به طور معمول در این گروه از الگوریتمها، تعداد خوشهها از قبل مشخص است و کار با بهینه سازی تابع هدف ادامه پیدا میکند. با اعمال برخی تغییرات روی الگوریتمها میتوان تعداد خوشهها را به طور پویا تنظیم کرد. مسئلهی اصلی در خوشهبندی سلسله مراتبی توسعهی متوالی خوشهها است که میتواند توسط الگوریتمهای حریصانه[۲۰۳] و یا بهینگی مرحلهای[۲۰۴] انجام شود. در این روش کار به دو طریق بالا به پایین و یا پایین به بالا انجام میپذیرد. در حالت بالا به پایین، ابتدا کل مجموعه دادهها بعنوان یک خوشه در نظر گرفته میشوند و کار با تقسیمات متوالی ادامه پیدا میکند تا در آستانه توقف برسد. در حالت پایین به بالا، هر یک از نقاط به عنوان خوشه اولیه در نظر گرفتهمیشود و سپس ادغام صورت میگیرد. ( این فرایند ما را به مفهوم خوشهبندی انباشتی[۲۰۵] رهنمود میسازد). آنچه برای خوشهبندی سلسله مراتبی مهم است، انتخاب تابع فاصله مناسب و نحوهی تعیین فاصله موجود میان الگوها و نقاط است. با توجه به این مورد، طیف وسیعی از روشها (تک پیوندی، پیوند کامل[۲۰۶] و…) به وجود میآید. خوشهبندی مبتنی بر دادهها در نظر میگیرد. سپس پارامترها برآورد میشوند.
۳-۲-۱-۱.خوشهبندی سلسله مراتبی پایین به بالا
الگوریتمهای خوشهبندی سلسله مراتبی، دادهها را بصورت گراف نمایش میدهند. ساخت گرافها (این روشها با در نظر گرفتن هر یک از نمونه ها، ساختار را آشکار میسازند) را میتوان با توجه به دو رویکرد انجام داد: پایین به بالا، و بالا به پایین، در رویکرد پایین به بالا، که به آن رویکرد انباشتی نیز گفته میشود، هر الگو را یک خوشه تک عنصری در نظر گرفته و سپس بطور متوالی نزدیکترین خوشهها را ادغام میکنیم. این فرایند تا جایی ادامه پیدا میکند که به یک خوشه منفرد یا یک آستانه از پیش تعریف شده دست پیدا کنیم. رویکرد بالا به پایین که به آن رویکرد تقسیم کننده نیز گفته میشود، در جهت مخالف رویکرد قبلی عمل میکند. در این رویکرد، کل مجموعه داده در ابتدا یک خوشه منفرد در نظر گرفته شده، و در ادامه بطورمتوالی به خوشههای کوچکتر تقسیم میشود. با توجه به طبیعت فرآیندهای بالا به پایین و پایین به بالا، درمییابیم که این روشها در اغلب موارد از نظر محاسباتی ناکارا هستند. تنها حالتی که امکان دارد در آن پیاده سازی روشهای مذکور بصرفه باشد، زمانی است که با الگوهای دودویی مواجه هستیم.
نتایج حاصل از خوشهبندی سلسله مراتبی بصورت دندروگرام نمایش داده میشود. همانطور که در شکل۳-۵ ملاحظه میکنید، دندروگرام، یک درخت دودویی با ریشه معین است که برگهای آن از تمامیِ اجزای دادهها تشکیل شدهاست. فرایند ادغام متوالی خوشهها، با توجه به مقادیرفاصله هدایت میشود. با توجه به مقدار فاصله، دنبالهای از خوشههای تودرتو تولید میگردد. دندروگرامها، دارای ساختار جالبی هستند که ما را در ادغام خوشهها یاری میرساند، گرههایی که در پایین گراف قرار میگیرند متناظر با نمونههای موجود میباشند و همانطور که در گراف به سمت بالا حرکت میکنیم، میبینیم نقاطی که با توجه به تابع تشابهِ مفروض به یکدیگر نزدیک هستند ادغام شدهاند. با حرکت در جهت بالا، اندازه خوشهها نیز افزایش مییابد. از طرف دیگر فرایند ادغام تا زمانی ادامه مییابد که یا تنها یک خوشه داشته باشیم و یا اینکه به یک آستانه مناسب برسیم.
شکل۳-۵: مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع [۲۰۷] |