جن کویی لویی مدیر شرکت سیستم های نوتيلس در نشستی که با کمیته فرعی نمایندگان مجلس ایالات متحده آمریکا در حیطه فناوری، خط مشی اطلاعات، روابط بين الدول و سرشماری داشت، چهار برداشت غلط از داده کاوی را تشریح نمود. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.

  • برداشت غلط 1: ابزاری جهت داده کاوی وجود دارد که می‌توانیم با به کارگیری آن‌ها روی داده ها جواب مسائل را پیدا کنیم.
    واقعیت: هیچ ابزار خودکار داده کاوی جهت حل مسائل بدون دخالت انسان وجود ندارد، بلکه همان گونه که در بالا دیدیم داده کاوی یک فرایند است. استاندارد CRISP – DM روشی است جهت تحت پوشش قرار دادن کل تجارت با اجرای طرح تحقیقاتی به وسیله فرایند داده کاوی.
  • برداشت غلط 2: داده کاوی یک فرایند مستقل است و انسان نقش کمرنگی در این فرآیند دارد.
    واقعیت: همان گونه که در فوق دیدیم، تمام مراحل فرآیند داده کاوی نیاز به دخالت انسان دارند. حتی پس از پیاده سازی مدل، اغلب بهنگام سازی مدل جهت به کارگیری داده های جدید ضروری است، همچنین سنجش معیارهای ارزیابی و بازبینی پیوسته باید توسط تحلیلگر انجام شود.
برداشت های غلط از داده کاوی
  • برداشت غلط 3: نرخ بازگشت هزینه های سرمایه گذاری شده در یک پروژه داده کاوی بالاست.
    واقعیت: نرخ بازگشت متغیر است و به هزینه های راه اندازی پروژه، هزینه پرسنل تحلیلگر، هزينه آماده سازی مخازن داده و … بستگی دارد.
  • برداشت غلط 4: نرم افزارهای داده کاوی شهودی هستند و استفاده از آن‌ها ساده است.
    واقعیت: در این مورد نیز سادگی بکارگیری، متغیر است. به هر حال، تحلیلگر داده ها بایستی دانش نهفته در نرم افزار را با یک ذهن تحلیلگر و شناخت از کل تجارت یا تحقیقات ترکیب نماید. ما دو برداشت غلط دیگر که معمول هستند را به موارد بالا می‌افزاییم .
  • برداشت غلط 5 : داده کاوی علل مشکلات تجارت یا تحقیقات را شناسایی می‌نماید.
    واقعیت: فرآیند کشف دانش در کشف الگوهای رفتاری به شما کمک می‌کند. باز هم شناسایی علل بر عهده انسان است. برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
  • برداشت غلط 6 : داده کاوی یک پایگاه داده آشفته و نامرتب را به صورت اتوماتیک بازسازی و مرتب می‌نماید.
    واقعیت: خیر، داده کاوی خودکار داده ها را به صورت مرتب سازی نمی‌کند. در مرحله آماده سازی داده ها که یکی از مراحل اولیه فرایند داده کاوی می‌باشد، با داده هایی که برای سال‌ها مورد استفاده با بررسی قرار نگرفته‌اند، سرو کار داریم. بنابراین سازمانی که یک عملیات جدید داده کاوی را آغاز می‌نماید، اغلب با مشکلات مربوط به داده هایی که سا‌ل‌ها به صورت نامرتب در داخل سازمان رها شده‌اند و قدیمی و نیازمند بهنگام سازی هستند، روبه رو می‌شود.  می‌توان از موارد بالا تحت عنوان کارهایی که داده کاوی نمی‌تواند یا نباید انجام دهد، یاد کرد.
برداشت های غلط از داده کاوی

استخراج قوانین انجمنی از پایگاه های داده قانونی

  • مرحله درک تجاری / تحقیقات
    ساشا ایوکویک و جان يروود از دانشگاه بلارات و اندریو استرنیری از دانشگاه لاتروب استراليا محققینی هستند که علاقه مندند بدانند آیا می‌توان قوانین انجمنی جذاب و کاربردی را از یک مجموعه داده بزرگ که حاوی اطلاعات متقاضیان کمک‌های قانونی دولتی در استرالیا هستند، استخراج کرد. از آن‌جایی که بیشتر داده های قانونی به شیوه‌ای مناسب برای اکثر تکنیک های داده کاوی، ساختاردهی نشده‌اند، کاربرد روش‌های کشف دانش برای داده های قانونی دارای سرعتی مشابه با سایر حوزه ها نیست. هدف محققین، بهبود ارائه خدمات قانونی و نتایج منصفانه در قانون است. با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق بخشید.
  • مرحله درک داده ها
    داده ها توسط ویکتوریا لیگال اید (VLA) که یک مؤسسه نیمه دولتی جهت ارائه اثر بخش‌تر کمک‌های قانونی به مردم محروم استرالیاست، فراهم شدند. در بازه زمانی بین سال‌های1999 تا 1997، بیش از 380000 تقاضای کمک قانونی توسط یازده دفتر محلی VLA گردآوری شدند. به منظور کاهش تعداد متغیرها، محققین از متخصصین حوزه مورد نظر یاری جستند. این متخصصین هفت متغیر خیلی مهم بودند، انتخاب کردند که عبارت اند از: جنسیت، سن، شغل، دلیل رد تقاضای کمک، نوع قانون (مثلا قوانین شهری)، تصمیم (اعطا یا عدم اعطای کمک) و نوع اقدام (مثل حضور در دادگاه).
  • مرحله آماده سازی داده ها
    مجموعه داده های VLA نسبتا مرتب بودند، زیرا حاوی تعداد اندکی رکورد با مقادیر گمشده یا با مشخصات اشتباه کدگذاری شده بودند. این موضوع از شکل گیری سیستم مدیریت پایگاه داده توسط VLA، که کیفیت داده های ورودی را کنترل می کرد. متغیر سن به بازه های گسسته از قبیل زیر 18 و بالای 50 و غیره تقسیم بندی شد.
  • مرحله مدل سازی
    با اعمال این محدودیت بر قوانین که تنها دارای یک فرض و یک نتیجه باشند، تعداد زیادی قوانین انجمنی جالب به همراه تعداد زیادی قوانین انجمنی غیر جالب ظاهر شد. اینکار یک پدیده معمول در کشف قوانین انجمنی است. یکی از این قوانین انجمنی جالب به این صورت بود که:
    اگر محل تولد ویتنام است، آنگاه نوع قانون جنایی است. ضریب اطمینان این قانون برابر با 90 درصد است. محققین مبنای درستی، جالب بودن قوانین انجمنی در نظر گرفتند. اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.
    البته اگر فرضیه های جالبی حاصل کنند. یک بحث میان محققین و متخصصین در مورد دلایل قانون انجمنی فوق، فرضیه‌های زیر را مورد بررسی قرار می‌داد:

فرضيه الف: متقاضیان ویتنامی فقط متقاضی دریافت کمک در مورد مسائل جنایی هستند، نه دیگر قوانین همچون: خانواده و شهری. فرضیه ب: ویتنامی ها بیشتر از دیگر گروه‌ها مرتکب جرم می‌شوند.
فرضیه پ: یک متغیر harking وجود دارد. احتمالا مردان ویتنامی بیشتر از زنان ویتنامی درخواست کمک می‌کنند و مردان با قوانین جنایی بیشتر ارتباط دارند.
فرضیه ت: ویتنامی ها دسترسی سریع به تسهیلات VLA ندارند.
محققین و متخصصین به صورت غیررسمی به این نتیجه رسیدند که فرضيه الف، محتمل ترین فرضیه است. البته بررسی های بیشتر لازم است و نمی‌توان هیچ ارتباط علمی را فرض کرد. توجه داشته باشید که انسان در تمام مراحل داده کاوی مشارکت فعال دارد. در این مورد بدون دانش و تجربه متخصصین این حوزه، نتایج داده کاوی مثمرثمر نیست.

  • مرحله ارزیابی
    محققین یک متدولوژی ارزیابی منحصربفرد را برای پروژه‌های خود اتخاذ کرده و از متخصصین سه حوزه استفاده کردند تا توسط آن‌ها به برآوردهایی از سطوح اطمینان برای هریک از 144 قانون انجمنی دست یابند. سپس این سطوح اطمینان برآورد شده با سطوح اطمینان واقعی که به وسیله قوانین انجمنی در مجموعه داده ایجاد شدند، مقایسه گردیدند.
  • مرحله پیاده سازی
    یک برنامه مفید تحت وب به نام WebAssociator ایجاد شد، تا افراد غیر خبره نیز بتوانند از مزایای موتور ساخت قانون بهره‌مند شوند. کاربران با استفاده از یک فرم تحت وب، یک فرض ویک نتیجه را انتخاب می‌‌کنند. محققین پیشنهاد کردند که WebAssociator می‌تواند به عنوان بخشی از یک سیستم پشتیبان قضایی مخصوصا برای شناسایی فرآیندهای ناعادلانه استفاده شود.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

برداشت های غلط از داده کاوی