خوشه بندی، بر گروه بندی رکوردها، مشاهدات یا نمونه ها در طبقه هایی از اشیای مشابه دلالت دارد. یک خوشه در حقیقت مجموعه ای از رکورد هاست که با هم مشابه‌اند، ولی با رکوردهای دیگر خوشه ها متفاوت است. خوشه بندی با طبقه بندی تفاوت دارد، از این جهت که در خوشه بندی متغیر هدف وجود ندارد.
خوشه بندی به طبقه بندی، برآوردیابی یا پیشگویی مقادیر متغیر هدف نمی‌پردازد. در عوض الگوریتم خوشه بندی، به دنبال بخش بندی کردن داده ها به گروه‌ها یا خوشه های نسبتا همگون است، به گونه‌ای که شباهت رکورد های درون هر خوشه حداکثر و شباهت با رکوردهای خارج از خوشه حداقل شود.  رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
به عنوان مثال، شرکت کاریتاس یک شرکت تجاری در زمینه خوشه بندی است که اطلاعات جمعیتی هر نقطه جغرافیایی در ایالات متحده آمریکا، که به وسیله کد محلی تعریف شده‌اند را فراهم می‌کند.
یکی از مکانیسم های خوشه بندی مورد استفاده توسط آن‌ها، سیستم بخش بندی PRIZM است، که هرکد محلی را بر حسب نوع سبک زندگی مجزا تشریح می‌کند. به عنوان مثال، حتما به خاطر دارید که خوشه های تعیین شده برای کدپستی 90210، توسط بورلی هیلز از کالیفرنیا به شرح زیر بود:

خوشه بندی

خوشه 01:  یعنی “مدیران رده بالای با ثبات”، متخصصین و ثروتمندانی که در مناطق مرفه نشین آمریکا زندگی می‌کنند، آن‌ها به رفاه و زندگی متجمل عادت دارند. یک دهم افراد این گروه ملیونر هستند. سطح بعدی از نظر مالی، خیلی پایین‌تر از سطح افراد این گروه است. در زیر نمونه هایی از کاربرد خوشه بندی در تجارت و تحقیقات ارائه شده است:

  • بازاریابی یک محصول پرسود برای یک شرکت کم سود که دارای بودجه زیادی برای بازاریابی نیست . در مورد حسابرسی و حسابداری، بخش بندی رفتارهای مالی به دسته های بی خطر و مشکوک. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
  • به عنوان یک ابزار کاهش بعد، هنگامی که مجموعه داده ها دارای صدها خصیصه است.
  • خوشه بندی اصطلاحات ژنی، هنگامی که امکان دارد تعداد بسیار زیادی از ژن ها رفتار مشابه‌ای از خود نشان دهند.

خوشه بندی، اغلب به عنوان یک گام ابتدایی در فرآیند داده کاوی مورد استفاده قرار می‌گیرد و خوشه های به دست آمده از آن به عنوان ورودی های بیشتر در یک تکنیک پایین دست، مانند شبکه های عصبی استفاده می‌شوند. به خاطر اندازه خیلی بزرگ بسیاری از پایگاه داده های امروزی، اغلب به کار بردن تحلیل خوشه بندی در ابتدای داده کاوی برای کاستن فضای جستجو برای دیگر الگوریتم ها مفید است. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.

خوشه بندی

تحلیل خوشه بندی در مورد موضوعاتی به کار می‌رود که بسیاری از آن‌ها شبیه به موضوعاتی است که در بخش طبقه بندی به آ‌ن‌ها پرداخته شد. به عنوان مثال، ممکن است به دنبال تعیین موارد زیر باشیم:

  • چگونگی اندازه گیری تشابه
  • چگونگی کدگذاری مجدد متغیرهای رسته‌ای
  • چگونگی استانداردسازی یا نرمال سازی متغیرهای عددی
  • تعداد خوشه هایی که انتظار داریم کشف شوند.

روش های خوشه بندی سلسله مراتبی

 الگوریتم های خوشه بندی به دو دسته سلسله مراتبی و غیر سلسله مراتبی تقسیم می‌شوند. در خوشه بندی سلسله مراتبی، از طریق تفکیک (روش های جداسازی ) یا ترکیب (تجمعی) بازگشتی خوشه های موجود، یک ساختار خوشه ای درخت مانند (نمودار درختی) ایجاد می‌گردد.
ابتدا، روش های خوشه بندی تجمعی هر مشاهده را به عنوان یک خوشه در نظر می‌گیرند. سپس در مراحل بعد، نزدیک‌ترین دو خوشه ادغام شده و یک خوشه ترکیبی جدید تشکیل می‌شوند. بدین ترتیب در هر مرحله، از تعداد خوشه های مجموعه یکی کم می‌شود. در نهایت، تمام رکوردها با هم ترکیب شده و یک خوشه بزرگ را تشکیل می‌دهند. الگوریتم های جداسازی، در ابتدا تمام رکوردها را در یک خوشه بزرگ قرار می‌دهند، سپس به طور بازگشتی نامشابه ترین رکوردها جدا می‌شوند و در یک خوشه جداگانه قرار می‌گیرند. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
این کار ادامه می‌یابد، تا هر خوشه فقط شامل یک رکورد باشد. چون بیشتر برنامه‌های کامپیوتری از روش های تجمعی برای خوشه بندی سلسه مراتبی استفاده می‌کنند، پس ما هم بر روی این روش ها متمرکز می‌شویم.

در صورتی که کدسازی مجدد و نرمال سازی به نحو مناسبی انجام شده باشد، محاسبه فاصله بین رکورد ها نسبتا ساده خواهد بود. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
اما چگونه می‌توانیم فاصله بین خوشه‌ای رکوردها را به دست آوریم؟ آیا می‌توان دو خوشه را به گونه‌ای نزدیک به هم فرض کرد که نزدیک ترین نقاط مجاور آن‌ها به همدیگر نزدیک باشند، یا دورترین نقاط مجاور آن‌ها به نزدیک باشند؟ در مورد معیاری که بر پایه میانگین گیری از این حالات استوار است، چه می‌اندیشید؟

در زیر چندین معیار را برای تعیین فاصله بین خوشه های تصادفی A و B بررسی می‌کنیم:

  • ارتباط منفرد که بعضی اوقات رویکرد نزدیک ترین همسایه نیز نامیده می‌شود، بر پایه کمترین فاصله بین هریک از رکوردهای خوشه A و هریک از رکوردهای خوشه B استوار است. به عبارت دیگر، تشابه خوشه ها براساس شباهت مشابه ترین اعضای خوشه ها تعیین می‌شود. ارتباط منفرد معمولا خوشه های بلند و باریک را به وجود می‌آورد، که گاهی اوقات این معیار منجر به ایجاد خوشه هایی با اعضای متشکل از رکوردهای ناهمگون می‌شود.
  • ارتباط کامل که برخی اوقات رویکرد دورترین همسایه نامیده می‌شود، بر پایه حداکثر فاصله بین هر یک از رکوردهای خوشه A و هر یک از رکوردهای موجود در خوشه B استوار است. به عبارت دیگر، تشابه خوشه ها، براساس شباهت غیرمشابه ترین اعضای هر یک از خوشه ها تعیین می‌شود. ارتباط کامل، معمولا در صدد تشکیل خوشه های فشرده‌تر و کروی شکل که تمام رکوردهای یک خوشه درون یک قطر مشخص از دیگر رکوردها قرار دارند، می‌باشد.
  • ارتباط متوسط، برای کاهش وابستگی معیار ارتباط خوشه‌ای بر روی مقادیر افراطی مانند رکوردهای مشابه تر یا غیر مشابه‌تر طراحی شده است. در ارتباط متوسط، معیار میانگین فاصله، فاصله تمام رکوردهای خوشه A از تمام رکوردهای خوشه B است. خوشه های به دست آمده در این شیوه معمولا دارای اختلاف درون خوشه ای تقریبا یکسانی هستند.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

خوشه بندی