در سال 1982 یک محقق فنلاندی به نام تیوو کوهنن شبکه های کوهنن را مطرح نمود. اگرچه شبکه های کوهنن در ابتدا برای تحلیل عکس و فیلم صدا و تصویر به کار گرفته شدند، اما آن ها دارای یک مکانیزم مؤثر برای تحلیل خوشه بندی نبودند. شبکه های کوهنن نوعی از شبکه های خود سازمانده هستند و شبکه های خود سازمانده نیز نوعی از شبکه های عصبی هستند. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
هدف شبکه های خود سازمانده، تبدیل یک سیگنال ورودی پیچیده با ابعاد بالا، به یک نقشه ساده تر و با ابعاد پایین است. بنابراین شبکه های خود سازمانده، زمانی که برای تحلیل خوشه هایی به دنبال الگوهای پنهان بین رکورد ها و فیلد ها هستیم، بسیار مناسب هستند. نگاشت های خود سازمانده، گره خروجی خوشه ایی از گره ها که در آن‌ها گره های نزدیک به هم شباهت بیشتری نسبت به گره های دورتر از هم دارند، سازماندهی می‌کند. ریتر نشان داده که شبکه های خود سازمانده یک تعمیم غیرخطی از مؤلفه های اصلی است و روش دیگری برای کاهش بعد است.
شبکه های خود ساز مانده براساس یادگیری رقابتی بنا نهاده شده‌اند، بدین معنی که گره های خروجی برای معرفی خود به عنوان گره یا نرون برنده با هم به رقابت می‌پردازند. گره برنده، تنها گرهی است که به وسیله مشاهده یک ورودی خاص، فعال می‌شود. هایکین این موضوع را بدین گونه شرح می‌دهد که: نرون ها به طور تصادفی (دلخواه خود را با الگوهای ورودی مختلف (محرک) یا طبقاتی از الگوهای ورودی در زمان فرایندهای یادگیری رقابتی تطبیق می‌دهند. لایه ورودی در پایین شکل نشان داده شده است، که در این لایه به ازای هر فیلد یک گره وجود دارد. گره های ورودی همانند شبکه های عصبی هیچ فرایند پردازشی روی خود انجام نمی‌دهند، بلکه فقط مقادیر ورودی فیلد را به مرحله بعد می‌فرستند.

شبکه خود سازمانده (SOM)

شبکه های خود سازمانده (SOM) همانند شبکه های عصبی پیش خور بوده و کاملا به هم متصل هستند. شبکه های پیش خور اجازه تشکیل حلقه یا دور را نمی‌دهند. منظور از کاملا متصل این است که هر گره در هر لایه به گره دیگری در لایه بعدی متصل می‌شود، ولی به به دیگر گره های همان لایه متصل نمی‌شوند. همانند شبکه های عصبی رابطه بین گره ها دارای وزن است، که در مرحله آغاز فرایند به صورت تصادفی در بازه بین صفر و یک قرار می‌گیرند.
تنظیم این وزن‌ها در حقیقت نکته اصلی مکانیزم یادگیری در شبکه های عصبی و شبکه های خود سازمانده است. همانند شبکه های عصبی، مقادیر متغیرها باید نرمال سازی یا استانداردسازی شوند تا در فرایند یادگیری برخی از متغیرها چیره نباشند. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
برخلاف اکثر شبکه های عصبی، در شبکه های خود سازمانده (SOM) لایه پنهان وجود ندارد. داده ها به طور مستقیم از لایه ورودی به لایه خروجی وارد می‌شوند. لایه خروجی دارای فرم مشبک یک بعدی یا دو بعدی است. این مشبک نوعا مستطیل شکل است. البته ممکن است از اشکال دیگری مانند شش وجهی نیز استفاده شود.

شبکه خود سازمانده (SOM)

شبکه های خود سازمانده، سه فرایند اصلی زیر را شامل می‌شود:

  • رقابت : همان طور که پیشتر اشاره شد، گره های خروجی برای یک تابع امتیازدهی خاص (فاصله اقلیدسی)، رایج ترین تابع امتیاز دهی است با هم رقابت می‌کنند. در این مورد، گره خروجی که دارای کمترین فاصله اقلیدسی بین داده های فیلد و وزن های اتصالات است، به عنوان گره برنده مشخص می‌شود. جزئیات و چگونگی انجام این فرایند در مثالی مورد بررسی قرار خواهد گرفت.
  • همکاری : سپس گره برنده، مرکز همسایگی نرون های تحریک شده می‌شود. این تقلید رفتار نرون های انسانی است که نسبت به خروجی دیگر نرون های مجاور حساس است. در نگاشت های خود سازمانده، تمام گره های موجود در این همسایگی، در “تحریک ” یا “پاداش” به دست آمده توسط گره های برنده سهیم هستند، که به این ویژگی انطباق می‌گویند. پس اگرچه گره های موجود در لایه خروجی ارتباط مستقیمی با هم ندارند، اما به خاطر این پارامتر همسایگی دارای خصوصیات مشترکی هستند.
  • انطباق : گره های مجاور گره برنده در انطباق شرکت دارند، این موضوع یادگیری نامیده می‌شود. وزن های این گره ها نیز در جهت بهبود بیشتر تابع امتیازدهی تنظیم می‌شوند. به عبارت دیگر، شانس این گره ها جهت برنده شدن به ازای مجموعه مقادیر مشابهی از فیلد، افزایش می‌یابد. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.

اعتبار خوشه

به منظور جلوگیری از حصول نتایج غلط و کسب اطمینان از اینکه خوشه ها منعکس کننده کل جمعیت هستند، باید خوشه های به دست آمده معتبرسازی شوند. یکی از روش های متداول معتبر سازی نمونه اصلی این است که رکورد ها به صورت تصادفی به دو دسته تقسیم شوند و هر یک از این دسته ها خوشه بندی شده و سپس خوشه های به دست آمده با استفاده از روش های زیر را با دیگر روش های خلاصه سازی مقایسه کرد.
حال فرض کنید که یک محقق درصدد انجام استنباط بیشتر، پیش بینی و دیگر تحلیل ها روی یک فیلد خاص است و می‌خواهد از خوشه ها برای پیش بینی استفاده کند. این محقق نباید این فیلد را جزء فیلدهایی که برای خوشه بندی استفاده می‌شوند، قرار دهد. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
به عنوان نمونه در مثال زیر، خوشه ها با استفاده از مجموعه داده های رویگردانی مشتری ایجاد می‌شوند. ما می‌خواهیم از این خوشه ها به عنوان پیشگویی کننده برای طبقه بندی مشتریان در طبقه مشتریانی که از شرکت رویگردان می‌شوند و طبقه مشتریانی که از شرکت رویگردان نمی‌شوند، استفاده کنیم. بنابراین، فیلد رویگردانی مشتری نباید بین متغیرهایی که برای ایجاد خوشه ها استفاده می‌شوند، قرار گیرد.

کاربرد خوشه بندی به وسیله شبکه های کوهنن

حال، الگوریتم شبکه کوهنن را برای مجموعه داده های رویگردانی مشتری به کار می‌گیریم. حتما به خاطر دارید، این مجموعه داده ها دارای 20 متغیر با اطلاعات ارزشمند مربوط به 3333 مشتری هستند. همچنین این مجموعه داده ها حاوی یک فیلد است که نشان می‌دهد مشتری از شرکت رویگردان شده است یا خیر. متغیرهای زیر با استفاده از نرم افزار کلمنتاین وارد الگوریتم شبکه کوهنن شده اند:

  • متغیرهای علامت (0 یا 1)
  • طرح بین المللی و طرح پست صوتی
  • متغیرهای عددی
  • مدت حساب، پیام های پست صوتی، دقایق روزانه، دقایق غروب، دقایق شب، دقایق و بین المللی و تعداد تماس ها با بخش خدمات مشتری.
  • توجه داشته باشید که برای متغیرهای عددی، از نرمال سازی مینیمم – ماکسیمم استفاده شده است.

هریک از گره های لایه ورودی به کمک وزن هایی که در شکل نشان داده نشده‌اند به تمام گره های لایه خروجی متصل شده‌اند. این گره ها به گونه ای برچسب گذاری شده‌اند که شیوه استفاده از آن‌ها با خروجی نرم افزار کلمنتاین همخوانی داشته باشد.
پارامترهای یادگیری کوهنن به صورت زیر در کلمنتاین تنظیم شده اند. در 20 دور اول (حرکت از ابتدا تا انتهای مجموعه داده ها)، اندازه همسایگی (R) برابر 2 قرار داده شد و نرخ یادگیری  (n) به گونه‌ای تنظیم شد که مقدار آن به صورت خطی کاهش یابد و مقدار اولیه آن برابر 0.3 قرار داده شد. در 150 دور بعدی، اندازه همسایگی به 1 تغییر داده شد و نرخ یادگیری به صورت خطی از 0.3 به صفر کاهش یافت. الگوریتم کوهنن کلمنتاین، از بین نه گره موجود، فقط از شش گره استفاده کرده است و گره های خروجی 01، 11 ، 21 هرس شده‌اند.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

شبکه خود سازمانده (SOM)