توجه داشته باشید که از به کارگیری متغیرهای همبسته، به عنوان ورودی مدل های آماری و داده کاوی اجتناب کنید. در بهترین حالت، استفاده از متغیرهای همبسته باعث می‌شود که روی یک بخش از داده بیش از اندازه تأكید شود و در بدترین حالت، موجب بی ثباتی در مدل می‌شود و نتایج غیر قابل اعتمادی را حاصل می‌کند.
مجموعه داده ها شامل سه متغير دقایق، تعداد تماس‌ها و هزینه هستند. توضیح متغيرها نشان می‌دهد که ممکن است هزینه تابعی از دقایق و تعداد تماس ها باشد، که به همبستگی متغیرها می‌انجامد. مثلا به نظر می‌رسد که بین متغیرهای کل دقایق روز و تعداد تماس های روز یا بین تعداد تماس های روز و هزینه روز ارتباطی وجود ندارد. این نتیجه کمی عجیب به نظر می‌رسد، زیرا انتظار می‌رود که با افزایش تعداد تماس ها، مدت زمان مکالمات (و به طور مشابه هزینه) هم رو به افزایش باشد و در نتیجه یک ارتباط مثبت بین این فیلدها وجود داشته باشد.
اما نه شواهد گرافیکی و نه میزان همبستگی که برابر با 0.7 = r  (این نتایج بوسیله نرم افزار Minitab به دست آمده‌اند) است، از هیچ کدام از فرضیه ها پشتیبانی نمی‌کنند. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
از طرف دیگر بین متغیرهای دقایق روز و هزینه روز ارتباط خطی کاملی وجود دارد، که نشان می‌دهد هزینه روز تنها یک تابع خطی ساده از دقایق روز است که با استفاده از ابزار رگرسیون نرم افزار Minitab ( می توانیم این تابع را به صورت یک معادله رگرسیونی بیان کنیم: ”هزینه روز برابر است با 0.000613 به اضافه 0.17 برابر دقایق روز بر حسب دقیقه.

متغیرهای همبسته

این یک مدل با نرخ هموار است و هزینه هر دقیقه استفاده در روز، برابر17  سنت است. توجه داشته باشید مقدار آماره R -squared دقیقا برابر با یک است که نشان دهنده یک ارتباط خطی کامل است. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
چون متغیر هزینه روز همبستگی کاملی با متغير دقایق روز دارد، لذا بایستی یکی از آن‌ها را حذف نماییم. ما به طور اختیاری هزینه روز را حذف می‌کنیم و دقایق روز را نگه می‌داریم. با بررسی متغیرهای مربوط به غروب، شب و بین المللی به نتیجه مشابه‌ای می‌رسیم. بنابراین هزینه غروب، هزینه شب و هزینه بین المللی را نیز حذف می‌کنیم. یادآوری می‌کنیم که اگر بدون آشکار کردن این همبستگی ها به مرحله مدل سازی برویم، ممکن است مدل داده کاوی یا آماری (به عنوان مثال در حوزه رگرسیون چندگانه به علت هم خطی بودن چندگانه ) نتایج متناقضی را حاصل کند.
بنابراین، ما تعداد متغیرهای پیشگو را با حذف متغیرهای اضافی از 20 به 16 کاهش می‌دهیم. به علاوه ما با این کار ابعاد مسأله را کاهش داده‌ایم، بنابراین ممکن است بعضی از الگوریتم های خاص داده کاوی به طرز کاراتری جواب بهینه را پیدا کنند.

متغیرهای همبسته

استفاده از EDA جهت آشکارسازی فیلدهای غیرعادی

 گاهی اوقات تحليل اکتشافی داده ها، رکوردها و فیلدهای عجیب و غیر عادی را که در مرحله مرتب سازی داده ها کشف نشده‌اند و از قلم افتاده‌اند، آشکار می‌کند. به عنوان مثال، در مجموعه داده های فعلی، فیلد کد ناحیه را در نظر بگیرید. اگر چه داده های فیلد کد ناحیه از نوع عددی هستند، اما می‌توان از آن‌ها به صورت متغیر رسته ای استفاده نمود، چون این کدها می‌توانند مشتریان را بر اساس محل جغرافیایی گروه بندی نمایند. این حقیقت که فقط سه مقدار (408 . 415. 510) مختلف برای فیلد کد ناحیه وجود دارد، توجه ما را به خود جلب می‌نماید. این سه مقدار مربوط به کالیفرنیا هستند.
این موضوع که تمام مشتریان اهل کالیفرنیا هستند، غیرعادی نیست؟ با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.
این سه کد تقریبا به طور یکنواخت بین تمام ایالت ها و ناحیه کلمبيا توزیع شده‌اند. امکان دارد که متخصصین این حوزه بتوانند در مورد این رفتار توضیح دهند، اما این امکان نیز وجود دارد که این فیلد حاوی داده های ایراددار باشد.
در نتیجه بایستی در مورد فیلد کد ناحیه با احتیاط عمل نماییم و احتمالا نباید در مرحله بعد، از این فیلد به عنوان ورودی مدل های داده کاوی استفاده کنیم. از سوی دیگر نیز ممکن است که فیلد ایالت اشتباه باشد. در هر دو حالت لازم است که قبل از استفاده از این متغیرها به عنوان ورودی مدل های داده کاوی با فردی که یا با تاریخچه داده ها آشنایی دارد یا با متخصص این حوزه گفتگو به عمل آید.

انتخاب زیر مجموعه های مورد علاقه از داده ها، جهت بررسی بیشتر

 به منظور مطالعه و بررسی بیشتر، می‌توانیم از نمودارهای پراکنش (یا هیستوگرام ها) برای شناسایی زیر مجموعه های مورد علاقه استفاده نماییم. مشتریانی که دارای تعداد دقایق روز و دقایق غروب بالایی هستند، با احتمال بیشتری از شرکت رویگردان می‌شوند. اما چگونه می‌توان این واقعیت را کمی کنیم؟ نرم افزار کلمنتاین این امکان را به کاربر می‌دهد که با رسم یک کادر انتخاب به دور نقاط مورد علاقه، بتوان آن‌ها را مورد بررسی بیشتر قرار داد. در این قسمت، ما رکوردهای موجود در داخل کادر مستطیلی در گوشه سمت راست بالا را انتخاب می‌کنیم (استفاده از چند وجهی جهت انتخاب، بهتر از مستطیل است.)
واضح است که بیش از 43 درصد از مشتریانی که دارای تعداد دقایق روز و تعداد دقایق غروب بالا بوده اند، از شرکت رویگردان شدند. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
این مقدار، تقریبا سه برابر نرخ رویگردانی تمام مشتریان موجود در مجموعه داده هاست. بنابراین توصیه می‌شود که استراتژی جهت جلب رضایت و جلوگیری از رویگردانی مشتریانی که میزان استفاده آن‌ها از خدمات شرکت زیاد است، توسعه یابد. به عنوان مثال، می‌توان به راهبرد تخفیف برای تعداد دقایق بالا اشاره نمود.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.