بیایید به بررسی مثالی از برچسب های طبقه بندی روی متغیرهای طبقه ای، که جهت اطمینان از معتبر بودن و سازگاری طبقه بندی انجام شده است، نگاهی بیاندازیم. یکی از کاربردهای گره مقادیر گمشده در نرم افزار Insightful Miner نمایش توزیع فراوانی متغیرهای طبقه ای در دسترس است. به عنوان مثال، توزیع فراوانی متغیر رسته‌ای مبدأ که توسط گره مقادیر گمشده نرم افزار Insightful Miner به دست آمده است را برای مجموعه داده خودروها به کار می‌گیریم. توزیع فراوانی، مقادیر پنج طبقه ایالات متحده آمریکا، فرانسه، ایالات متحده، اروپا و ژاپن را نشان می‌دهد. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
اما دو طبقه آمریکا و فرانسه فقط دارای یک خودرو هستند. در حقیقت دو رکورد با توجه به مبدأ ایجاد، به صورت ناسازگار طبقه بندی شده‌اند. جهت حفظ سازگاری با دیگر مجموعه داده های باقی مانده، بایستی برای مقدار متغیر مبدأ در این رکوردها به جای ایالات متحده آمریکا و فرانسه، به ترتیب مبدأ ایالات متحده و اروپا قرار بگیرند.

روش های گرافیکی شناسایی داده های پرت

 داده های پرت، مقادیری هستند که در محدوده  داده ها (نزدیکی کران ها) قرار دارند و رفتار آن‌ها برخلاف رفتار دیگر داده ها است. شناسایی مقادیر پرت مهم است، زیرا ممکن است نمایانگر خطا در ورود داده ها باشد. همچنین، حتی اگر این مقادیر پرت معتبر باشند و حاصل از اشتباه نباشند، برخی روش های آماری نسبت به حضور این گونه مقادیر حساس هستند و ممکن است نتایج بی ثباتی را حاصل کنند. شبکه عصبی و الگوریتم هایی که از معیارهای فاصله ای استفاده می‌کنند (مانند الگوریتم k ) نزدیک ترین همسایه از نرمال سازی بهره می‌گیرند.
روش گرافیکی جهت شناسایی مقادیر پرت برای متغیرهای عددی، بررسی هیستوگرام متغیر است. هیستوگرام وزن خودروهایی که از مجموعه داده خودروها استخراج شده‌اند، نشان می دهد.

شناسایی طبقه بندی های غلط در داده کاوی

در این هسیتوگرام دیده می‌شود که یک خودروی متروک در بی نهایت کران چپ توزیع قرار گرفته و دارای وزن 100 پوند به جای وزن 1000 پوند است. با بررسی آمار به دست آمده از Insightful Miner می‌توان فهمید که حداقل وزن برای یک خودرو برابر با 192.5 پوند است، که بدون شک این مقدار یک مقدار پرت کوچک در کران چپ است. از آنجا که 192.5 پوند به عنوان وزن یک خودرو عدد کوچکی است، لذا باید در اعتبار این اطلاعات شک کرد. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
مطالعه فیلد وزن با مقیاس پوند (weightlbs)  نشان می‌دهد که برخلاف این مقدار پرت، وزن دیگر خودروها به صورت اعداد صحیح (نه اعشاری) آمده است. بنابراین، می‌توان حدس زد که احتمالا وزن اصلی خودرو برابر با 1925 پوند بوده و به اشتباه اعشار قبل از عدد 5 درج شده است. به هر حال نمی‌توان مطمئن بود و بررسی های بیشتری از منابع اطلاعاتی نیاز است. گاهی اوقات استفاده از نمودارهای پراکنش دو بعدی جهت آشکارسازی مقادیر پرت، بیشتر از یک متغیر می‌تواند مفید باشد. ما بایستی روش های عددی شناسایی داده های پرت را بررسی کنیم، اما قبل از آن باید چند ابزار را انتخاب کنیم.

شناسایی طبقه بندی های غلط در داده کاوی

تبدیل داده ها
دامنه تغییرات متغیرها با یکدیگر متفاوت است. به عنوان مثال، میانگین تعداد ضرباتی که بازیکنان در لیگ بیسبال به توپ می‌زند، بین 0 تا 0.4 است. در صورتی که دامنه تغییرات تعداد ضربات موفق در یک فصل، از 0 تا 70 ضربه متغیر است. در بعضی از الگوریتم های داده کاوی این گونه اختلافات در دامنه تغییرات، به تأثیرگذاری غیر معقول متغیر با دامنه تغییرات بزرگتر روی نتایج منتهی می‌شود.
لذا به منظور استاندارد کردن میزان تأثیر هر یک از متغیرها روی نتایج متخصصین داده کاوی، باید متغیرهای عددی را نرمال سازی کرد. روش های بسیاری برای نرمال سازی وجود دارد که ما در مورد از آن‌ها را که معمول ترند، مورد بررسی خواهیم کرد. فرض کنید مقادیر اولیه فیلدها را با X و مقادیر استاندارد شده را با “X نشان دهیم.

روش نرمال سازی Min Max
تمرکز خود را روی اختلاف مقدار فیلد از مقدار مینیمم فيلد ( min ( X قرار می‌دهد و سپس این اختلاف را بر دامنه تغییرات تقسیم می‌کند. محدوده مقادیر نرمال سازی min max بین صفر و یک است، مگر اینکه با داده های جدیدی مواجه شویم که خارج از محدوده اصلی قرار گیرند. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق ببخشید.

استاندارد سازی Z – Score
یک روش پرکاربرد در دنیای تحلیل آماری است و برای استاندارد سازی، اختلاف بین مقدار فیلد و مقدار میانگین فیلد را بر مقدار انحراف معیار فيلد تقسیم می‌کند. مقادیر استانداردسازی Z – Score بین 4 و 4 – می‌باشد و میانگین این مقادیر استاندارد شده برابر صفر است. هیستوگرام متغير 60-time- to که به وسیله نرم افزار Insightful Miner ایجاد شده است و میانگین این مقادیر تقريبا صفر است و مینیمم و ماکزیمم آن با یافته های قبلی مطابقت دارد.

روش های عددی شناسایی داده های پرت

یکی از روش های آماری شناسایی داده های پرت، استفاده از روش استانداردسازی Z – Score است. اغلب یک داده پرت قابل شناسایی است، زیرا فاصله این مقادیر از میانگین از سه برابر انحراف معیار بیشتر است، پس بنابراین مقدار استانداردسازی Z- Score داده های پرت کمتر از 3- یا بیشتر از 3 خواهد بود. به منظور عدم بروز اشتباه در ورود داده ها و موارد دیگر، بایستی داده هایی که خارج از این محدوده قرار می‌گیرند را مورد بررسی قرار داد.
به عنوان مثال، مقدار Z – Score خودرویی که در مدت 25 ثانیه به سرعت 60 مایل بر ساعت می‌رسد، برابر با 3.247 است. این مقدار بزرگ تر از 3 (اگر چه خیلی هم بزرگ نیست) است و به وسیله این روش، به عنوان یک داده پرت شناسایی می‌شود. تحلیلگر داده ممکن است، اعتبار این داده را مورد بررسی قرار دهد، یا حداقل تنظیم موتور این خودرو را پیشنهاد کند.  اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
متأسفانه هر دو قسمت فرمول استانداردسازی Z- Score، یعنی میانگین و انحراف معیار نسبت به حضور داده های پرت خیلی حساس هستند. به عبارت دیگر، اگر یک داده پرت به مجموعه داده ها اضافه شود، مقادیر میانگین و انحراف معیار به شکل نامعقولی تحت تأثیر این مقدار جدید قرار می‌گیرند. بنابراین جهت ارزیابی داده های پرت، انتخاب روشی که نسبت به حضور داده های پرت حساس باشد، تصمیم مناسبی به نظر نمی‌رسد.

بنابراین تحلیلگران داده ها برای آشکارسازی داده های پرت، روش های آماری با ثبات‌تری را توسعه داده‌اند، که نسبت به حضور داده های پرت حساسیت کمتری دارند. دامنه میان چارکی یکی از روش های ابتدایی و با ثبات است. چارک ها مجموعه داده ها را به چهار بخش مساوی که هر بخش شامل 25 درصد از داده ها است را تقسیم می‌کنند.

  • اولین چارک (Q1) صدک بیست و پنجم است.
  • دومین چارک (Q2) صدک پنجاهم می‌باشد و این نقطه میانه را مشخص می‌کند.
  • سومین چارک (Q3) صدک هفتاد و پنجم است.

دامنه میان چارکی (IQR ) یک معیار تغییرپذیر است، که خیلی با ثبات تر از انحراف معیار است. مقدار  IQR با استفاده از رابطه IQR= Q3 – Q1 محاسبه می‌شود و این مقدار نمایانگر پراکندگی 50 درصد میانی داده هاست.
بدین ترتیب، یک معیار با ثبات، برای شناسایی داده های پرت به صورت زیر تعریف می‌شود. مقدار یک داده پرت است، اگر:

  • به اندازه IQR × 1.5 یا بیشتر از آن زیر Q1 قرار گیرد.
  • به اندازه IQR × 1.5  یا بیشتر از آن بالای Q3 قرار گیرد.

به عنوان مثال، فرض کنید که برای یک مجموعه از نمرات امتحانی، صدک بیست و پنجم برابر با 70 = Q و صدک هفتاد و پنجم برابر با 80 = Q است، بنابراین نیمی از داده ها، در محدوده 70 تا 80 قرار می‌گیرند. در نتیجه دامنه میان چار کی برابر با IQR= 80 – 70 = 10 است.

 مقدار یک داده پرت است، اگر:

  • از Q1 = -1.5  (IQR)= 70 -1.5 (10)= 55  کوچک تر باشد، یا
  • از Q3 = -1.5 (IQR)=80+1.5 (10)= 95 بزرگتر باشد.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

شناسایی طبقه بندی های غلط در داده کاوی