ایده شبکه های عصبی از اینجا پیدا شد که انسان ها پی بردند سیستم های یادگیری پیچیده موجود در مغز حیوانات از مجموعه نرون هایی که به صورت دقیق به هم متصل شده اند، تشکیل شده است. اگر چه ممکن است یک نرون خاص دارای ساختار نسبتا ساده ای باشد، اما شبکه های متراکم از نرون های متصل، می توانند وظایف پیچیده یادگیری همچون طبقه بندی و تشخیص الگو را انجام دهند. به عنوان مثال، مغز انسان تقریبا شامل ۱۰ نرون است که هر نرون به طور متوسط به ۱۰٬۰۰۰ نرون دیگر متصل است. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
یعنی ۱۰ اتصال سیناپسی بین نرون ها وجود دارد. شبکه های عصبی مصنوعی (که از این پس شبکه های عصبی نامیده می شوند) نمایانگر تلاشی هستند که در سطح خیلی مقدماتی برای تقلید کردن از نوعی یادگیری غیر خطی است که در طبیعت شبکه عصبی اتفاق می افتد.
یک نرون واقعی از دندریت ها برای گردآوری ورودی ها از نرونهای دیگر استفاده و اطلاعات ورودی را با هم ترکیب می کند و هنگامی که برخی از آستانهها حاصل می شوند، یک پاسخ غیر خطی ( فعال سازی ) تولید شده و با استفاده از آکسون ها به نرون های دیگر فرستاده می شود. ورودی ها ، از نرون های بالادست (یا مجموعه داده ها) جمع آوری شده و از طریق یک تابع ترکیب، باهم ترکیب می شوند، سپس وارد یک تابع فعال سازی (معمولا غیر خطی شده تا پاسخ خروجی تولید و به نرون های پایین دست فرستاده شود.

شبکه های عصبی در داده کاوی

چه نوع مسائلی برای حل با شبکه های عصبی مناسباند؟ یکی از مزایای استفاده از شبکه های عصبی این است که در رابطه با داده های اختلال بسیار قوی عمل می کنند. زیرا شبکه دارای گره های فراوان (نرون های مصنوعی) با مقادیر تخصیص داده شده به هر اتصال بوده و می‌تواند بیاموزد که چگونه در اطراف این نمونه های بدون اطلاعات و غیر مفید (حتی غلط) از مجموعه داده ها کار کند.
اما بر خلاف درخت های تصمیم گیری، قواعد شهودی (فهم آن‌ها نیاز به دانش قبلی ندارد برای وزن غیر متخصص قابل فهم هستند. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.
بعدا خواهیم دید که شبکه های عصبی برای ما انسان ها نسبتا مبهم و غیر قابل درک هستند. در قسمت های بعدی این ابهامات را بیشتر توضیح می‌دهیم. هم چنین شبکه های عصبی برای آموزش معمولا به مدت زمان بیشتری نسبت به درختهای تصمیم گیری برای آموزش خود نیاز دارند، که این زمان اغلب به چندین ساعت هم می‌رسد.

شبکه های عصبی در داده کاوی

کد گذاری ورودی و خروجی

یکی از اشکالات بالقوه شبکه های عصبی این است که مقادیر تمام خصیصه های رسته ای باید به شیوه ای استاندارد کدگذاری شوند و مقادیری بین صفر تا یک را بگیرند. بعدأ هنگام بررسی جزئیات الگوریتم پس انتشار خطا ضرورت این کار را درک می کنیم. اما استانداردسازی تمام خصیصه ها چگونه انجام می شود؟ می توان به سادگی از نرمال سازی مینیمم – ماکسیمم برای این کار استفاده کرد.
این روش مادامی که مقادیر مینیمم و ماکزیمم معلوم باشند و هم چنین تمام داده های جدید بالقوه بین این حدود قرار گرفته باشند، کارایی مناسبی دارد. شبکه های عصبی در برابر تجاوزهای جزئی از این حدود، تقریبا قوى عمل می کنند. اگر تجاوزهای جدی تری مدنظر باشند، ممکن است از راه حل های معین تک منظوره‌ای مانند عدم پذیرش مقادير خارج از حدود یا قرار دادن این مقادیر به عنوان مینیمم یا ماکزیمم استفاده شود.
همان گونه که انتظار می‌رفت، متغیرهای رسته‌ای مشکلات بیشتری را ایجاد می‌کنند. اگر تعداد رسته ها خیلی زیاد نباشد، می توان از متغیرهای شاخص (علامت) استفاده نمود. به عنوان مثال، تعداد زیادی از مجموعه داده ها دارای خصیصه جنسیت با مقادیر زن، مرد یا نامشخص هستند. چون شبکه عصبی توانایی کار کردن با این متغیرها را با شکل فعلی شان ندارد، می توانیم متغیرهای شاخص را برای زن و مرد به وجود آوریم. هر رکورد حاوی مقادیر معینی برای این دو متغیر شاخص خواهد بود. رکوردهای مربوط به زنان برای زن مقدار یک و برای مرد مقدار صفر را دارند. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید. در حالی که رکوردهای مردان دارای مقدار یک برای مرد و مقدار صفر برای زن هستند. رکوردهای افرادی که جنسیتشان معلوم نیست، دارای مقدار صفر برای زن و مرد هستند. در حالت کلی، متغیرهای رسته ای با k مقدار را می‌توان به وسیله ۱- k متغیر شاخص نشان داد، مادامی که تعریف شاخص ها کاملا مشخص و واضح باشد.

در مورد کدگذاری مجدد متغیرهای رستهای مرتب نشده به یک متغیر منفرد در محدوده بین صفر و یک احتیاط کنید. به عنوان مثال، فرض کنید که مجموعه داده ها حاوی اطلاعاتی در مورد خصیصه وضعیت تأهل باشد. فرض کنید که مقادیر خصیصه طلاق گرفته، متأهل، جداشده، مجرد، بیوه و نامشخص را به ترتیب به وسیله 0، 0.2 ،0.4، 0.6، 0.8 و 1 نشان می دهیم. این کدگذاری به صورت تلویحی بیان می‌کند که مثلا طلاق گرفته به متأهل، نسبت به جدا شده و… نزدیک تر است. شبکه عصبی صرفأ از مقادیر عددی فیلد وضعیت تأهل مطلع است، نه از معنای آن‌ها قبل از کدگذاری، در نتیجه از معنای واقعیشان بی اطلاع است. این امر ممکن است به یافته های بی معنایی منجر شود. از نقطه نظر خروجی، خواهیم دید که گره های خروجی شبکه عصبی همیشه یک مقدار پیوسته بین صفر و یک را بر می‌گردانند. اما چگونه می‌توان از چنین خروجی پیوسته ای برای طبقه بندی استفاده کرد؟
بسیاری از مسائل طبقه بندی دارای یک نتیجه دوگانه بوده و فقط دارای دو خروجی هستند. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
به عنوان مثال، آیا این مشتری در حال ترک خدمات شرکت است؟ را در نظر بگیرید. برای طبقه بندی دوگانه، یک گزینه این است که از یک گره خروجی با یک مقدار آستانه ای که طبقات را جدا کند (مانند ترک یا ماندن ) استفاده نمود. به عنوان مثال، اگر آستانه به صورت اگر خروجی بزرگ تر یا مساوی 0.67 باشد، ترک می‌کند، آنگاه یک خروجی با مقدار 0.72 از گره خروجی، رکورد را در طبقه افرادی که احتمالا خدمات شرکت را ترک خواهند کرد، قرار می دهد.
همچنین هنگامی که طبقات به طور واضح مرتب شده باشند، می توان از گره های خروجی منفرد استفاده کرد. فرض کنید می‌خواهیم توانایی مهارت خواندن در مدارس ابتدایی را براساس خصیصه های معینی از دانش آموزان طبقه بندی کنیم. در این صورت می‌توانیم حدود آستانه را به صورت زیر تعریف کنیم:

  • اگر  0.25> خروجی > 0 که باشد، مهارت خواندن در سطح اول قرار دارد.
  • اگر 0/50 > خروجی > 0.25 باشد، مهارت خواندن در سطح دوم قرار دارد.
  • اگر 0.75 > خروجی > 0.5 باشد، مهارت خواندن در سطح سوم قرار دارد.
  • اگر 0.75 < خروجی باشد، مهارت خواندن در سطح چهارم قرار دارد.

ممکن است تنظیم دقیق این آستانه ها نیاز باشد. انجام این کار به کمک تجربه و قضاوت متخصصین آن حوزه می تواند راحت تر شود. اما توجه داشته باشید که تمام مسائل طبقه بندی را نمی‌توان به وسیله یک گره خروجی حل کرد. به عنوان نمونه در مثال فوق، مشابه متغیر وضعیت تأهل، فرض کنید چندین طبقه نامرتب برای متغیر هدف وجود دارد، در این حالت کدگذاری 1 از n خروجی را انتخاب می‌کنیم و برای هریک از طبقات ممکن، متغیر هدف یک گره را در نظر می گیریم. به عنوان مثال، اگر وضعیت تأهل متغیر هدف ما است. شبکه دارای شش گره خروجی در لایه خروجی (یک گره برای هر یک از طبقات طلاق گرفته، متأهل، جداشده، مجرد، بیوه و نامشخص) خواهد بود. بنابراین، گره خروجی که دارای بالاترین مقدار باشد، برای طبقه بندی رکورد مورد نظر انتخاب می شود.
یکی از مزایای استفاده از روش کدگذاری 1 از n این است که یک معیار اطمینان در طبقه بندی به صورت اختلاف بین گره خروجی با بالاترین مقدار و گره خروجی با دومین مقدار بالا را فراهم می کند. می توان طبقه بندی هایی که میزان اطمینان آن‌ها پایین است. اختلاف کم در مقادیر گره خروجی را مورد طبقه بندی های بیشتر قرار داد.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

شبکه های عصبی در داده کاوی