EDA تکنیک جالب و قوی برای به کارگیری وظیفه تشریح داده کاوی است. از طرف دیگر، چون تکنیک های تشریح هیچ گونه طبقه بندی، بر آوردیابی و پیشگویی را انجام نمی دهند، در نتیجه پیدا کردن یک روش کمی برای ارزیابی کارایی این تکنیک ها، می‌تواند کار بسیار دشواری باشد. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
ملاک قضاوت در این موارد، عقل سلیم است. حتما به خاطر دارید که مدل ها و تکنیک  های داده کاوی باید تا حد امکان واضح باشند، یعنی نتایج مدل‌های داده کاوی باید بیان کننده الگوهایی باشند که به سادگی بتوان آن‌ها را تشریح و تفسیر نمود. اثربخشی EDA انجام شده با وضوح درک نکات استخراج شده، توسط مخاطبین شما بهتر ارزیابی می‌شود (خواه مخاطبین گروهی از مدیران باشند که طرح جدید را ارزیابی می‌کنند، خواه هیئت ارزیابی وزارت بهداشت باشند که اثربخشی یک داروی جدید پیشنهاد شده را بررسی می کنند).
اگر اصرار دارید که از یک معیار کمی برای تشریح استفاده کنید، می‌توانید اصل حداقل طول تشریح کننده را به کار ببرید، اگر سایر عوامل یکسان باشد. تیغ اوكام (اصلی که بعد از ویلیام، به نام اوکام از دانشمندان قرون وسطی نامگذاری شد) بیان می‌کند که یک ارائه ساده بر یک ارائه پیچیده ارجحیت دارد. اصل حداقل طول تشریح کننده، این اصل را کمی کرده و اظهار می‌دارد که بهترین ارائه (یا تشریح)، مدل یا حجمی از داده ها که از حداقل اطلاعات (برحسب بیت) جهت کدگذاری مدل و استثنائات آن مدل استفاده کند. تکنیک‌ های ارزیابی مدل برای وظایف بر آوردیابی و پیشگویی می‌دارد که بهترین ارائه (یا تشریح)، مدل یا حجمی از داده ها که از حداقل اطلاعات (برحسب بیت) جهت کدگذاری مدل و استثنائات آن مدل استفاده کند.

تکنیک های ارزیابی مدل برای وظیفه تشریح

تکنیک های ارزیابی مدل برای وظایف بر آوردیابی و پیشگویی

در مدل های برآوردیابی و پیشگویی که از روش های باناظر استفاده می‌کنند، هم مقدار برآورد شده (پیش بینی شده) متغیر عددی هدف ( y) وهم مقدار واقعی آن در اختیار ما قرار می‌گیرد. بنابراین، یک معیار طبیعی برای ارزیابی کفایت مدل، آزمون خطای برآوردیابی یا باقیمانده (  y – y ) است. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
چون همیشه میانگین باقیمانده برابر صفر است، نمی‌توانیم از آن برای ارزیابی مدل استفاده کنیم. بنابراین، معیار دیگری مورد نیاز است.

تکنیک های ارزیابی مدل برای وظیفه تشریح

تکنیک های ارزیابی مدل برای وظیفه طبقه بندی

 شاید متداول ترین کاربرد استفاده از داده کاوی با ناظر، طبقه بندی باشد. به یاد بیاورید که در طبقه بندی، یک متغیر هدف طبقه‌ای وجود دارد. مدل داده کاوی، تعداد فراوانی از رکوردها را مورد بررسی قرار می‌دهد، که هر یک از این رکوردها شامل اطلاعاتی درباره متغیر هدف و مجموعه ای از ورودی ها یا متغیرهای پیشگو است. تحلیلگر علاقه‌مند است که یک طبقه بندی برای متغیر هدف رکوردها یا اشخاص جدید که در حال حاضر در پایگاه داده موجود نیستند، را بر اساس ویژگی های آن شخص انجام دهد. با استفاده از داده های آموزش (که در آن‌ها اطلاعاتی درباره متغیرهای پیشگو و متغیر هدف موجود است) الگوریتم می‌آموزد که هر ترکیب از متغیرها با چه طبقه‌ای از متغیرهای هدف طبقه‌ای مرتبط هستند. سپس الگوریتم به رکوردهای جدید مجموعه‌های آزمون و معتبرسازی که برای آن‌ها اطلاعاتی در مورد متغیر هدف موجود نیست، می‌پردازد. الگوریتم بر اساس طبقه بندی های مجموعه آموزش، طبقه هایی را به رکوردهای جدید تخصیص می‌دهد.
سؤال این است که عملکرد الگوریتم طبقه بندی تا چه اندازه خوب است؟با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.
واضح است که تخصیص نوع طبقه بندی را می‌توان با استفاده از روش های مختلفی از جمله پرتاب یک سکه انجام داد. باید از کدامیک از تکنیک های ارزیابی استفاده کنیم تا مطمئن شویم که طبقه بندی انجام شده توسط الگوریتم داده کاوی اثربخش و درست بوده است یا خیر؟ آیا الگوریتم استفاده شده از پرتاپ سکه بهتر عمل می‌کند؟

در این بخش، روش ها و ابزارهای ارزیابی کننده زیر را بررسی می‌کنیم:

نرخ خطا، مثبت های کاذب، منفی های کاذب

 تنظیم هزینه خطا، ترفيع، نمودارهای ترفیعا و نمودارهای بهره. این کار در نرم افزار کلمنتاین یک ماتریس از طبقه بندی های درست و غلط انجام شده به وسیله الگوریتم را برای ما فراهم می‌کند، که آن را ماتریس ابهام می‌نامند. ستون‌ها، طبقه بندی های پیش بینی شده را نشان می‌دهند و سطرها، طبقه بندی های واقعی را  نشان می‌دهد. حال می‌خواهیم عملکرد طبقه بندی درخت تصمیم را با استفاده از نرخ خطا، مثبت های کاذب، منفی های کاذب  برای درآمد افراد بر اساس کم درآمد و پر درآمد ارزیابی کنیم. با وجود 24.986  رکورد، تعداد 19002رکورد وجود دارد که مقدار واقعی متغیر هدف یعنی درآمد برای آن‌ها، کمتر یا مساوی 50000 دلار است. همچنین 5984 رکورد وجود دارد که مقدار واقعی در آمد برای آن‌ها بیشتر از 50000 دلار است. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
الگوریتم C5. 0 ، تعداد 20162 رکورد را در طبقه با درآمد کمتر یا مساوی 50000 دلار و 4824 رکورد را در طبقه با درآمد بیشتر از   50000دلار قرار می‌دهد. از 20162 رکوردی که توسط الگوریتم، درآمد آن‌ها کمتر یا مساوی 50000 دلار پیش بینی شده است، 17845 رکورد واقعأ درآمد پایینی داشتند. اما الگوریتم به اشتباه تعداد 2317 رکورد از 20162 رکورد را به عنوان پردرآمد طبقه بندی کرده است.

حال، فرض کنید که این تحلیل، برای یک مؤسسه اعطای وام انجام شده که علاقه مند است تعیین کند که درآمد یک متقاضی وام بیشتر از 50000 دلار است یا خیر. طبقه پردرآمد به عنوان مثبت در نظر گرفته می‌شود، زیرا مؤسسه به افراد پردرآمد وام می‌دهد. طبقه کم درآمد منفی تلقی می‌شود، چون مؤسسه تقاضای وام افراد کم درآمد را رد می‌کند. فرض کنید در مواقعی که اطلاعات دیگری در دست نیست، تصمیم پیش فرض رد تقاضای وام به دلیل پایین بودن درآمد باشد (یعنی اگر اطلاعاتی در دست نباشد، شرکت متقاضی را کم درآمد در نظر می‌گیرد.)
بنابراین، 20162 طبقه بندی (پیش بینی) انجام شده به عنوان کم درآمد را منفی گویند و 4824 طبقه بندی (پیش بینی) انجام شده به عنوان پردرآمد را مثبت گویند. تعداد 2317 رکورد که به صورت غلط در طبقه منفی قرار گرفته را منفی کاذب گویند. به عبارت دیگر، یک منفی کاذب رکوردی را به ما نشان می‌دهد که به صورت منفی طبقه بندی شده است، اما در واقع مثبت است. از 4824 طبقه بندی مثبت انجام شده، تعداد 1157 رکورد در واقع کم درآمد هستند، بنابر این 1157 مثبت کاذب وجود دارد. منظور از مثبت کاذب، رکوردی است که مثبت طبقه بندی شده، اما در حقیقت منفی است.
نرخ خطای کل یا در حقیقت نرخ خطا برابر است با مجموع منفی های کاذب و مثبت های کاذب تقسیم بر تعداد کل رکوردها است همچنین برای بدست آوردن نرخ منفی کاذب و مثبت کاذب تعداد منفی / مثبت کاذب را بر تعداد کل طبقه بندی های منفی / مثبت تقسیم کنید.
یعنی با استفاده از مدل درخت تصمیم C5 . 0 فعلی، احتمال این که یک متقاضی به طور اشتباه در طبقه پردرآمد قرار بگیرد، دو برابر احتمال این است که یک متقاضی به طور اشتباه در طبقه منفی قرار گیرد. تحلیلگران می‌توانند با استفاده از نرخ مثبت کاذب، نرخ منفی کاذب و نرخ خطا، دقت و صحت مدل های مختلف را با هم مقایسه کنند. به عنوان مثال، مدل درخت تصمیم C5 . 0 را می‌توان با مدل درخت تصمیم CART یا شبکه عصبی مقایسه کرد. تصمیم گیری در انتخاب مدل، می تواند بر اساس رتبه بندی نسبی این معیارهای ارزیابی ارائه شود.

H0=  درآمد کمتر یا مساوی 50000 دلار

Ha = درآمد بیشتر از 50000 دلار

  • H0  نشان دهنده فرض، پیش فرض ویا صفر است.
  • Ha نشان دهنده فرض جایگزین است و پشتیبانبی از آن به مدارکی نیازدارد. مثبت کاذب، به عنوان خطای نوع 1 (نوع اول) در نظر گرفته می‌شود و بیانگر رد فرض صفر به غلط است. در حالی که منفی کاذب، به عنوان خطای نوع II (نوع دوم) در نظر گرفته می‌شود و این بدین معنی است که اشتباه فرض صفر پذیرفته شده است.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

تکنیک های ارزیابی مدل برای وظیفه تشریح