شاید رایج‌ترین وظیفه داده کاوی، طبقه بندی است. مثال‌هایی از طبقه بندی را تقریبا می‌توان در اکثر زمینه های کاری پیدا کرد:

  • بانکداری: تعیین اینکه یک تقاضای وام دارای ریسک اعتباری بالاست یا پایین، یا اینکه آیا یک تراکنش کارت اعتباری معتبر است یا کلاهبرداری
  • آموزش: قرار دادن یک دانش آموز جدید در یک رشته خاص با توجه به نیازهای خاص.
  • پزشکی: تشخیص وجود یک بیماری خاص.
  • حقوق: تشخیص اینکه یک وصیت نامه توسط شخص متوفی نوشته شده است یا به طور کلاهبردارانه توسط دیگری؟
  • رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
  • امنیت ملی: شناسایی اینکه یک رفتار فردی یا مالی خاص، نشان دهنده یک تهدید تروریستی است یا خیر؟

در طبقه بندی، یک متغیر طبقه‌ای هدف (مانند بازه درآمد) که به طبقات با دسته‌های از پیش تعیین شده مانند درآمد بالا، درآمد متوسط و درآمد پایین تقسیم بندی شده است، وجود دارد. مدل داده کاوی، مجموعه بزرگی از رکوردها را که هرکدام از این رکوردها شامل اطلاعاتی در مورد متغیر هدف و مجموعه‌ای از متغیرهای ورودی یا پیشگوکننده است، را مورد بررسی قرار می‌دهد. به عنوان مثال، بخشی از یک مجموعه داده را در نظر بگیرید. فرض کنید یک محقق می‌خواهد بازه درآمد اشخاصی که در بانک اطلاعاتی موجود نیستند را بر اساس دیگر خصیصه های آن شخص از قبیل: سن، جنسیت و شغل، طبقه بندی نماید. این کار یک وظیفه طبقه بندی است که تناسب بسیار زیادی با روش ها و تکنیک های داده کاوی دارد.

طبقه بندی در داده کاوی

این الگوریتم تقریبا به شرح زیر ادامه می یابد: ابتدا، مجموعه داده هایی که شامل هر دو متغیر پیشگوکننده و بازه درآمد به عنوان متغیر هدف از پیش طبقه بندی شده هستند را در نظر گرفته می‌شوند و الگوریتم (نرم افزار) می‌آموزد که چه ترکیب هایی از متغیرها به چه بازه هایی از درآمد وابسته‌اند. به عنوان مثال، ممکن است خانم های مسن تر به بازه درآمد بالا وابسته باشند. این مجموعه داده را مجموعه آموزش می‌نامند. سپس، الگوریتم به رکوردهای جدیدی نگاه می‌کند که در آن‌ها هیچ اطلاعاتی درباره بازه درآمد وجود ندارد.برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
براساس طبقه بندی های مجموعه آموزش، این الگوریتم رکوردهای جدید را طبقه بندی نموده و آن‌ها را به طبقات مناسب تخصیص می‌دهد. به عنوان مثال، یک استاد خانم با 63 سال سن، احتمالا در گروه افراد با بازه درآمد بالا قرار می‌گیرد.

طبقه بندی در داده کاوی

الگوریتم k نزدیک ترین همسایه

 اولین الگوریتمی را که مورد بررسی قرار می‌دهیم، الگوریتم k نزدیک ترین همسایه است. از این الگوریتم می‌توان برای طبقه بندی و همچنین برآوردیابی و پیشگویی استفاده نمود. k نزدیک ترین همسایه، مثالی از یادگیری نمونه محور است که در این شیوه از یادگیری، مجموعه داده ی آموزش ذخیره می‌شوند. بنابراین به سادگی می‌توان طبقه ای را برای یک رکورد جدید طبقه بندی نشده، از طریق مقایسه آن با مشابه ترین رکوردهای موجود در مجموعه آموزش پیدا کرد. حال به بررسی یک مثال می‌پردازیم.
حال فرض کنید که اطلاعات یک بیمار جدید بدون طبقه دارویی به دست ما رسیده است. می‌خواهیم بر اساس دارویی که برای دیگر بیماران با مشخصه‌های مشابه تجویز شده است، دارویی که باید برای این بیمار تجویز شود را تعیین نماییم. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق بخشید.
وی را با عنوان بیمار جدید ۱ نشان می دهیم که ۴۰ سال سن دارد و نسبت سدیم به پتاسیم (Na / K ) او ۲۹ است، این بیمار در مرکز دایره تعیین شده . اما برای بیمار جدید ۲ بایستی چه طبقه دارویی را در نظر بگیریم؟
چون مشخصه های این بیمار وی را کاملا در بخشی از نمودار پراکنش قرار می‌دهد که برای تمام بیمارهای آن بخش داروی Y تجویز می‌شود، پس برای این بیمار، طبقه دارویی Y را در نظر می‌گیریم. برای تمام نقاط نزدیک به این نقطه، یعنی تمام بیماران با وضعیت مشابه (از لحاظ سن ونسبت سدیم به پتاسیم) مشابهی تجویز می‌شود، در نتیجه این یک طبقه بندی ساده است. در مرحله بعد، بیمار جدید ۲ با سن ۱۷ سال و نسبت سدیم به پتاسیم 12.7 را بررسی می‌کنیم.

فرض کنید در الگوریتم ما نزدیک ترین همسایه ۱ = k باشد، در این صورت بیمار جدید ۲ براساس نزدیک ترین تک مشاهده‌ای که به آن وجود دارد، طبقه بندی می‌گردد. در این مورد، برای بیمار جدید ۲ طبقه های دارویی B و C در نظر گرفته می‌شود، چون این طبقه ها نزدیک ترین همسایه ها به بیمار جدید ۲ در نمودار پراکنش هستند.
اما فرض کنید که ۲= k است، آنگاه بیمار جدید ۲ براساس دو همسایه نزدیک به آن طبقه بندی می‌شود. یکی از این نقاط خاکستری تیره است، دیگری خاکستری متوسط. در نتیجه ما برای بیمار جدید ۲، با مسأله انتخاب از بین طبقه دارویی B و C  و طبقه دارویی A و X روبه رو هستیم.
آیا می‌توان از بین این دو طبقه دارویی یکی را انتخاب کرد؟ احتمالا رأی گیری چاره کار نیست، چون برای هر طبقه یک رأی وجود دارد. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید

اما رأی گیری می‌تواند به ما کمک کند. اگر برای الگوریتم 3= k باشد، بنابراین برای بیمار جدید ۲، براساس سه همسایه نزدیک به آن طبقه دارویی تعیین می‌شود. چون دو نقطه از سه نقطه مذکور خاکستری متوسط هستند، پس طبقه بندی بر اساس رأی گیری، داروهای A و X را به عنوان طبقه دارویی بیمار جدید ۲ انتخاب می‌کند. توجه داشته باشید که طبقه دارویی تخصیص داده شده به بیمار جدید ۲ براساس مقدار انتخابی ، متفاوت خواهد بود. در نهایت، بیمار جدید  با سن ۴۷ سال و نسبت سدیم به پتاسیم 13.5 را در نظر بگیرید.
اگر 3= k باشد، آنگاه الگوریتم k نزدیکترین همسایه، طبقه دارویی خاکستری تیره (داروهای B و C) را براساس معیار فاصله برای بیمار جدید ۳ انتخاب می‌کند. اما اگر ۲= k باشد، روش رأی گیری جواب نمی‌دهد. اگر 3= k باشد، بازهم روش رأی گیری جوابگو نیست، چون سه همسایه نزدیک به بیمار جدید ۳ دارای طبقه های دارویی متفاوتی هستند.
این مثال برخی از مسائل مرتبط با ساخت مدل با استفاده از الگوریتم k نزدیک ترین همسایه را نشان می‌دهد. این مسائل شامل سؤالات زیر است:

  • چند همسایه باید در نظر گرفته شود؟ یعنی k چند باشد؟
  • فاصله را چگونه اندازه گیری کنیم؟
  • اطلاعات مربوط به بیش از یک مشاهده را چگونه باهم ترکیب کنیم؟
  • آیا باید تمام نقاط دارای وزن یکسانی باشند؟ یا بعضی از نقاط باید تأثیر بیشتری نسبت به دیگر نقاط داشته باشند؟

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

طبقه بندی در داده کاوی