در این بخش، همچنان بررسی روش های طبقه بندی برای داده کاوی را ادامه می‌دهیم. یکی از روش های جالب طبقه بندی، ساختن یک درخت تصمیم است که این درخت شامل مجموعه‌ای از گروهای تصمیم است که به وسیله شاخه ها به هم متصل شده‌اند. درخت تصمیم از گره ریشه گسترش یافته و به گره برگ ها ختم می‌شود. با شروع از گره ریشه که به طور قراردادی در بالای دیاگرام درخت تصمیم قرار می‌گیرد، خصیصه‌ها در گره‌های تصمیم مورد آزمون قرار گرفته و هر نتیجه آن به یک مشاهده منجر می‌شود. سپس هر شاخه به یک گره تصمیم دیگر یا به یک گره برگ خاتمه دهنده متصل می‌گردد.
متغیر هدف برای درخت تصمیم ریسک اعتباری است و مشتریان بالقوه به صورت ریسک بالا یا ریسک پایین طبقه بندی می‌گردند.رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
متغیرهای پیشگوکننده شامل پس انداز (پایین، متوسط و بالا)، دارایی (پایین یا بالا) و درآمد (کمتر یا مساوی یا بیشتر از 500000 دلار) هستند. در این ساختار، گره ریشه بیانگر یک گره تصمیم است که هر رکوردی که دارای سطح پس انداز پایین، متوسط یا بالاست. این مقادیر توسط تحلیلگر یا متخصص این حوزه تعریف شده‌اند را کنترل می‌کند. مجموعه داده ها براساس مقادير این خصیصه تفکیک یا بخش بندی می شوند. رکوردهایی که دارای مقدار پس انداز پایینی هستند، از طریق شاخه سمت چپ (پس انداز پایین به گره تصمیم بعدی فرستاده می شوند. رکوردهایی که دارای پس انداز بالایی هستند، از طریق شاخه سمت راست به یک گره تصمیم دیگر فرستاده می شوند.

درخت تصمیم چیست؟

رکوردهایی که دارای پس انداز متوسط هستند، از طریق شاخه میانی مستقیما به گره برگ فرستاده می‌شوند که نشان می دهد انشعاب این شاخه دیگر به پایان رسیده است. چرا یک گره برگ، نه یک گره تصمیم دیگر؟ زیرا در این مجموعه (نشان داده نشده اند) تمام رکوردهایی که دارای پس انداز متوسط هستند، در طبقه ریسک اعتباری پایین قرار گرفته اند. بنابراین نیازی به گره تصمیم دیگری نیست، زیرا دانستن متوسط بودن سطح پس انداز با دقت 100 درصد، خوب بودن اعتبار را در این مجموعه داده ها پیش بینی می کند. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.
برای مشتریانی که دارای پس انداز پایین هستند، گره تصمیم بعدی پایین بودن سطح دارایی ها را آزمون می‌کند. مشتریانی که دارایی آن ها پایین است، در طبقه ریسک بالا و بقیه در طبقه ریسک پایین قرار می‌گیرند. برای مشتریانی که دارای پس انداز بالایی هستند، گره تصمیم بعدی کنترل می‌کند که آیا درآمد مشتری حداکثر 30000 دلار است یا خیر. مشتریانی که درآمد آن‌ها کمتر یا مساوی 30000 دلار است، در طبقه ریسک بالا و بقیه در طبقه ریسک پایین قرار می‌گیرند.

درخت تصمیم چیست؟

وقتی که نتوان انشعاب های بهتری ایجاد کرد، الگوریتم درخت تصمیم ایجاد گره‌های جدید را متوقف می‌کند. تمام شاخه ها به گره برگ های خالص ختم می شوند، یعنی جاییکه متغیر هدف برای تمام رکوردهای موجود در آن گره دارای یک مقدار است (به عنوان مثال، هر رکورد موجود در گره برگ، دارای ریسک اعتباری پایین است). آنگاه انشعاب های بیشتری نیاز نیست، بنابراین گره های بیشتری ایجاد نمی شود.
مواردی وجود دارد که یک گره خاص حاوی خصیصه های گوناگون است (مقدار متغیر هدف دارای مقادیر مختلف است) ولی الگوریتم درخت تصمیم نمی تواند یک انشعاب را ایجاد کند. فرض کنید رکورد هایی را بررسی می کنیم که دارای پس انداز بالا و درآمد پایین (کمتر یا مساوی 30000 دلار) هستند. همچنین فرض کنید پنج رکورد با این مقادیر وجود دارد و در تمام آن‌ها دارایی پایین است.
نهایتا، فرض کنید که سه رکورد از این پنج رکورد در طبقه ریسک اعتباری بالا و دو رکورد دیگر در طبقه ریسک اعتباری پایین قرار دارند. در دنیای واقعی، اغلب با موقعیت هایی نظیر مقادیر مختلف برای متغیر هدف، یا حتی با مقادیر کاملا مشابه برای متغیرهای پیشگوکننده مواجه می‌شوید. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
در اینجا چون تمام مشتریان دارای مقادیر پیشگوکننده یکسان هستند، هیچ راهی برای منشعب کردن داده ها براساس متغیرهای پیشگوکننده ای که به گره برگ خالص منتهی شود، وجود ندارد. بنابراین، چنین گره هایی به گره برگ های ناخالص تبدیل می‌شود که در آن‌ها مقادیر مختلفی برای متغیر هدف وجود دارد. در این حالت ممکن است درخت تصمیم طبقه بندی را به صورت ریسک بالا با 60 درصد اطمینان ( مشتریان موجود در این گره، در طبقه ریسک بالا قرار دارند) گزارش کند.

یادآوری می شود که برای تمام رکورد ها، تمام خصیصه‌ها مورد آزمون قرار نمی‌گیرند. به عنوان نمونه در این مثال، مشتریانی که دارای پس انداز پایین و دارایی پایین هستند، درآمدشان بررسی نمی شود. قبل از به کار بردن الگوریتم درخت تصمیم، باید نیازمندی های معینی برآورد گردد:

  • الگوریتم های درخت تصمیمی که از نوع یادگیری باناظر هستند، بنابراین نیازمند متغیرهای هدف از پیش طبقه بندی شده هستند. بنابراین مجموعه داده های آموزش باید به گونه ای باشند، که مقادیر متغیر هدف را فراهم نمایند. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
  • این مجموعه داده های آموزش باید غنی و متنوع باشند، به طوری که برای الگوریتم، انواع مختلفی از رکوردها که ممکن است در آینده به طبقه بندی نیاز داشته باشد، را فراهم آورند. درخت تصمیم به وسیله مثال یاد می‌گیرد و اگر مثال هایی برای یک زیر مجموعه قابل تعریف از رکوردها وجود نداشته باشد، آنگاه طبقه بندی و پیش بینی برای این زیر مجموعه غیر ممکن یا مشکل دار خواهد بود.
  • طبقات خصیصه هدف باید گسسته باشند. به عبارت دیگر، نمی‌توان تحلیل درخت تصمیم یک متغیر هدف پیوسته به کار گرفت، بلکه متغیر هدف باید مقادیری را بگیرد که به طور واضح مشخص است که آن مقادیر متعلق به یک طبقه خاص هستند یا خیر. در مثال فوق، چرا درخت تصمیم، خصیصه پس انداز را برای انشعاب گره ریشه انتخاب می کند؟ چرا به جای آن در آمد یا دارایی را انتخاب نکرد؟ در حقیقت، درخت های تصمیم درصد ایجاد مجموعه ای از برگ گره ها هستند، که تا حد امکان خلوص داشته باشند، بدین معنی که رکوردهای یک گره برگ خالص دارای یک طبقه باشند. بدین ترتیب درخت تصمیم می‌تواند طبقه بندی هایی را تخصیص موجود حاصل نماید.

اما چگونه می توان تجانس (همگونی) را اندازه گیری نمود؟ یا بالعکس، چگونه می توان عدم تجانس (ناهمگونی) را اندازه گیری نمود؟ ما از بین تعداد بسیار زیاد روش های موجود برای اندازه گیری خلوص گره ها، دو روش را بررسی می کنیم که به دو الگوریتم عمده زیر برای ایجاد درخت تصمیم منجر می شوند.

  • الگوریتم درخت های طبقه بندی و رگرسیون (CART)
  • الگوریتم C4

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

درخت تصمیم چیست؟