روش های داده کاوی را می‌توان به دو دسته با ناظر و بدون ناظر تقسیم بندی کرد. در روش های بدون ناظر ، هیچ متغیر هدفی تعیین نمی‌شود. در عوض، الگوریتم داده کاوی به دنبال الگوها و ساختارها در بین تمام متغیرهاست. خوشه بندی ، رایج‌ترین روش داده کاوی بدون ناظر است .به عنوان مثال، ممکن است مشاوران سیاسی با استفاده از روش های خوشه بندی، حوزه های انتخاباتی را به منظور آشکارسازی مکان خوشه هایی از رأی دهندگان که به یک پیام خاص نامزد انتخاباتی پاسخ می‌دهند، مورد تحلیل قرار دهند. در این مورد، تمام متغیر های مناسب (مانند: در آمد، نژاد، جنسیت) ورودی الگوریتم خوشه بندی خواهند بود متغیر هدف تعیین نشده است تا جهت مقاصد تبلیغاتی و تأمین سرمایه، مشخصات درستی از رأی دهندگان را بسط دهند.
روش دیگر داده کاوی که می‌تواند با ناظر یا بدون ناظر باشد، استخراج قوانین انجمنی است. به عنوان مثال، در تحلیل سبد بازار، ممکن است کسی علاقه‌مند باشد بداند چه کالاهایی با هم خریداری می‌شوند که در این حالت متغیر هدف تعیین نشده است. در اینجا مشکل این است که تعداد کالاهای موجود برای فروش بسیار زیاد است، لذا به دلیل وجود تعداد ترکیبات بسیار زیاد از کالاها، جستجوی تمام وابستگی های ممکن می‌تواند کار طاقت فرسایی باشد. هر چند که الگوریتم های معینی، همچون الگوریتم استقرایی به طرز هوشمندانه ای با این مسأله برخورد می‌کنند.
اکثر روش های داده کاوی روش های با ناظر هستند. بدین معنی که اولا، حتما یک متغیر با هدف خاص از پیش تعیین شده وجود دارد و دوما، مثال های فراوانی برای این الگوریتم فراهم شده است که در آن ها مقدار متغیر هدف معلوم است، در نتیجه الگوریتم می‌تواند یاد بگیرد که چه مقداری از متغیر هدف، با چه مقادیری از متغیرهای پیشگوکننده وابسته است. به عنوان مثال، روش های رگرسیونی در زمره روش های با ناظر قرار می‌گیرند، چون مقادیر مشاهده شده از متغیر پاسخ (y) را برای الگوریتم حداقل مربعات که به دنبال حداقل کردن مربع فاصله بین مقادیر y و مقادیر پیش بینی شده و بر حسب بردار است، فراهم می‌کنند.
تمام روش های طبقه بندی شامل درخت تصمیم ، شبکه های عصبی و الگوریتم k نزدیکترین همسایه ، روش های باناظر هستند. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.

روش های با ناظر و بدون ناظر داده کاوی

متدولوژی مدل سازی باناظر

اکثر روش های داده کاوی با ناظر، متدولوژی ای که در ادامه شرح داده می‌شود را برای ساخت و ارزیابی یک مدل به کار می‌گیرند. ابتدا، مجموعه داده های آموزش در اختیار الگوریتم قرار داده می‌شوند. این مجموعه از داده ها، حاوی مقادیر از پیش طبقه بندی شده متغير هدف و متغیرهای پیشگوکننده هستند. به عنوان مثال، اگر بخواهیم براساس سن، جنسیت و شغل، بازه درآمد را طبقه بندی نماییم، آنگاه الگوریتم طبقه بندی ما نیازمند تعداد زیادی رکورد حاوی اطلاعات کامل تا حد امکان درباره هر فیلد حاوی متغیر هدف (بازه در آمد) خواهد بود. به عبارت دیگر، بایستی رکوردهای مجموعه آموزش از قبل طبقه بندی شده باشند. سپس یک مدل داده کاوی موقت با استفاده از نمونه های آموزش فراهم شده در مجموعه داده های آموزش، ایجاد می‌گردد.
اما الزاما این مجموعه آموزش کامل نیست. بدین معنی که این مجموعه، داده های جدید یا آتی که در واقع مدلسازان داده ها، به طبقه بندی آن‌ها علاقه‌مند هستند را شامل نمی‌شود. بنابراین، باید از الگوریتم در برابر به یاد آوردن مجموعه آموزش و اعمال کورکورانه تمام الگوهای یافت شده در مجموعه آموزش مربوط به داده های آتی محافظت کنیم.با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.
به عنوان مثال، ممکن است که تمام مشتریانی که نام آن‌ها در مجموعه آموزش « دیوید » است، در زمره افراد با درآمد بالا قرار گیرند. از قرار معلوم نمی‌خواهیم مدل نهایی که برای داده جدید به کار می‌بریم، شامل الگوی مثال بالا اگر اسم کوچک مشتری دیوید باشد، آنگاه آن مشتری که دارای درآمد بالایی است باشد. چنین الگویی یک محصول ساختگی از مجموعه آموزش است و قبل ازپیاده سازی، نیازمند معتبرسازی است.

روش های با ناظر و بدون ناظر داده کاوی

بنابراین گام بعدی در متدولوژی داده کاوی با ناظر، بررسی چگونگی عملکرد مدل داده کاوی موقت روی مجموعه داده های آزمون است. در مجموعه آزمون (مجموعه داده های جدا نگه داشته شده) مقادیر متغیر هدف، به طور موقت از مدل موقت مخفی نگه داشته می‌شوند. سپس براساس الگوها و ساختار آموخته شده از مجموعه داده های آموزش، طبقه بندی انجام می‌شود. در مرحله بعد، کیفیت طبقه بندی های انجام شده از طریق مقایسه آن‌ها با مقادیر واقعی متغیر هدف، مورد ارزیابی قرار می‌گیرد. سپس مدل داده کاوی موقت در جهت حداقل کردن نرخ خطا روی مجموعه داده های آزمون، تعدیل می‌شود.
سپس مدل داده کاوی تعدیل شده روی مجموعه داده های معتبرسازی (یک مجموعه داده جدا نگه داشته شده دیگر) به کار گرفته می‌شود، در این حالت نیز متغیر هدف به طور موقت از مدل مخفی می‌شود. مدل تعدیل شده، خود نیز در جهت حداقل شدن نرخ خطا روی مجموعه داده های معتبرسازی، تعدیل می‌گردد. برآورد عملکرد مدل در آینده (داده های دیده نشده) را می‌توان از طریق مشاهده معیارهای مختلف ارزیابی که در مورد داده های معتبرسازی به کار می‌روند، محاسبه نمود.
معمولا دقت مدل داده کاوی موقت روی مجموعه داده های آزمون یا معتبرسازی، به اندازه دقت آن روی مجموعه داده های آموزش نیست. زیرا اغلب، مدل داده کاوی موقت روی مجموعه آموزش دچار بیش برازش می‌شود. بیش برازش زمانی رخ می‌دهد که مدل داده کاوی موقت تلاش می‌کند تمام روندها و ساختارهای ممکن در مجموعه داده ها (حتی در موارد غیر عادی مانند: مثال «دیوید» در فوق) را شرح دهد. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
در مدل سازی، یک تضاد همیشگی بین پیچیدگی مدل که به دقت بالای مدل روی مجموعه داده های آموزش می‌انجامد و تعمیم پذیری آن به مجموعه آزمون و معتبر سازی وجود دارد. افزایش پیچیدگی مدل به منظور افزایش دقت روی مجموعه آموزش و نهایتا به کاهش تعمیم پذیری مدل موقت داده کاوی روی مجموعه های آزمون و مجموعه های معتبر سازی منجر می‌شود.

 وقتی پیچیدگی مدل موقت شروع به افزایش می‌کند، نرخ خطا روی هر دو مجموعه آموزش و معتبرسازی کاهش می‌یابد. همچنان که پیچیدگی مدل افزایش می‌یابد، نرخ خطای مجموعه آموزش به طور یکنواخت کاهش می‌یابد.اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
اما همچنان که پیچیدگی مدل افزایش می‌یابد، نرخ خطای مجموعه معتبرسازی شروع به یکنواخت شدن و افزایش می‌کند، چون مدل موقت داده کاوی، مجموعه آموزش را به یاد می‌آورد و جایی برای تعمیم مدل به داده های دیده نشده باقی نمی‌گذارد. در نقطه‌ای که نرخ خطا روی مجموعه آزمون به حداقل می‌رسد، سطح بهینه پیچیدگی مدل حاصل می‌شود. پیچیدگی بیشتر از این مقدار، بیش برازش و پیچیدگی کمتر از این مقدار کم برازش تلقی می‌گردد.

موازنه واریانس – اریبی

فرض کنید نمودار پراکنش را در اختیار داریم و می‌خواهیم منحنی (یا خط مستقیم) بهینه‌ای که نقاط خاکستری تیره و روشن را از هم جدا می‌کند، بکشیم. خط مستقیم پیچیدگی کمتری دارد، اما دارای خطای طبقه بندی است (برخی از نقاط در سمت اشتباه خط قرار دارند). ما خطای طبقه بندی را به صفر کاهش دادیم، اما این کار با استفاده از یک تابع جداسازی (خط مارپیچی) بسیار پیچیده‌تر انجام شده است. ممکن است  برخی وسوسه شوند که به منظور کاهش نرخ خطا، پیچیدگی بیشتر را بپذیرند. اما باید مراقب بود و به حالت های غیرنرمال مجموعه آموزش اتکا نکرد. به عنوان مثال، فرض کنید که نقاط دیگری را به نمودار پراکنش اضافه کردیم. توجه داشته باشید که جداکننده با پیچیدگی کم (خط مستقیم ) جهت انطباق با نقاط دادهای به تغییرات زیادی نیاز ندارد. بدین معنی که جداکننده با پیچیدگی کم، واریانس کمی دارد. اما جداکننده با پیچیدگی زیاد (خط مارپیچی) در صورتی که قادر به حفط نرخ قبلی خود باشد، بایستی به طور قابل ملاحظه‌ای تغییر یابد. بالا بودن درجه تغییرات، نشان دهنده این است که خط جداکننده با پیچیدگی بالا، دارای واریانس بالایی است.
اگر چه مدل بسیار پیچیده دارای نرخ اریبی (بر حسب نرخ خطا روی مجموعه آموزش) است، اما این مدل دارای واریانس بالایی است. همچنین اگر چه مدل با پیچیدگی کم دارای اریبی بالایی است، اما دارای واریانس پایینی است. به این توضیح، موازنه واریانس – اریبی گفته می‌شود.
همچنان که پیچیدگی مدل افزایش می‌یابد، اریبی کم می‌شود، اما واریانس افزایش می‌یابد. هدف ساختن مدلی است که اریبی و واریانس آن خیلی زیاد نباشد. اما معمولا حداقل کردن یکی سبب افزایش دیگری می‌شود.
به عنوان مثال، معمول ترین روش ارزیابی دقت بر آورد، استفاده از میانگین مربعات خطا (MSE) است. از بین دو مدل رقیب ممکن است مدلی انتخاب شود که MSE پایین‌تری دارد.
چرا MSE معیار ارزیابی خوبی بشمار می رود؟ چون MSE واریانس و اریبی را با هم ترکیب می‌کند. میانگین مربعات خطا، تابعی از خطای برآوردیابی (MSE) و پیچیدگی مدل (مانند درجه های مختلف آزادی) است. می‌توان نشان داد که میانگین مربعات خطا با استفاده از معادله زیر تفکیک پذیر است، این معادله به طور واضحی رابطه مکملی بین واریانس و اریبی را نشان می‌دهد.

2 )اریبی) + واریانس = میانگین مربعات خطا (MSE)

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

روش های با ناظر و بدون ناظر داده کاوی