براساس تعریف گروه گارتنر: ”فرآیند کشف ارتباطات معنی‌دار، الگوها و روندهای جدید از طريق غربال کردن مقدار زیادی از داده های ذخیره شده در مخازن داده، با استفاده از فناوری های شناسایی الگو، به همراه روش‌های آماری و ریاضی را داده کاوی گویند. تعاریف دیگری نیز وجود دارد:

  • تحليل (حجم بزرگی از داده ها) به منظور پیدا کردن ارتباطات دور از ذهن و خلاصه کردن داده ها از طرق جدیدی که برای مالک داده ها مفید و قابل فهم باشد را داده کاوی می‌گویند.
  • داده کاوی زمینه‌ایی بین رشته‌ای است که با کنارهم قرار دادن تکنیک های یادگیری ماشین، شناسایی الگو ها، آمار، پایگاه داده و تجسم، به امر استخراج اطلاعات از درون پایگاه های داده بزرگ می پردازد.

براساس مطالب مجله زدنت نیوز پیش بینی می‌شود که داده کاوی یکی از زمینه‌هایی است که در دهه آینده، بیشترین توسعه را خواهد یافت. در واقع ام آی تی تکنولوژی ریوبو داده کاوی را به عنوان یکی از 10 فناوری نوظهوری که جهان را تغییر خواهد داد، انتخاب کرده است. براساس مطالب Information Week National Salary Survey از بین متخصصین فناوری اطلاعات کارشناس داده کاوی بیشتر از همه مورد نیاز خواهد بود.
گزارش بررسی مذکور بدین شرح است: امسال تقاضا برای مهارت داده کاوی بالاست، آنچنان که سازمان ها به طور روز افزون از مخازن داده های آنلاین استفاده می‌کنند. تحلیل مؤثر اطلاعات مشتریان، شرکا و تأمین کنندگان برای تعداد بیشتری از شرکت ها اهمیت پیدا کرده است. رابین هوش اولین شرکت دیجیتال مارکتینگ برمبنای هوش مصنوعی برای اطلاعات بیشتر کلیک کنید.
دادلی براون می‌گوید: بسیاری از شرکت‌ هایی که استراتژی ذخیره سازی داده ها را اجرا کردند، اکنون نگاه خود را به این سمت معطوف کرده‌اند که با این داده ها چه می‌توان کرد و چگونه می‌توان همکاری خود را با شرکت BridgeGate LLC ، که یک شرکت استخدامی (جذب نیرو در ایروین کالیفرنیاست)، ادامه داد.

داده کاوی چیست؟

چرا داده کاوی؟
آیا تا به حال در حالی که در صف انتظار یک سوپر مارکت بزرگ ایستاده‌اید، چشمان خود را بسته و به صداها گوش کرده‌اید؟ غیر از التماس کردن کودکان برای شیرینی چه چیزی می‌شنوید؟ شما ممکن است که صدای بیب بیب اسکنرهای سوپر مارکت را که در حال خواندن بارکدهای روی اقلام خواروبار، ثبت قیمت اقلام در صندوق و ذخیره سازی داده ها در سرورهایی که در بخش مرکزی سوپر مارکت قرار دارند را بشنوید. هر بيب نشان دهنده یک ردیف جدید در پایگاه داده است. هر مشاهده جدید، اطلاعاتی را در مورد عادات خرید خانواده شما و سایر خانواده‌هایی که در حال بررسی آن هستند گردآوری می‌کند.
واضح است که داده های زیادی جمع آوری شده است. اما از این همه داده چه چیزی می‌توان فرا گرفت؟ چه دانشی می‌توان از این داده ها به دست آورد؟ احتمالا بسته به نوع سوپر مارکت نمی‌توان دانش زیادی را به دست آورد.برای اطلاع از قیمت دیجیتال مارکتینگ بر مبنای هوش مصنوعی کلیک کنید.
در سال 1984 جان نایسبیت در کتاب خود این گونه بیان می‌کند: ما در حال غرق شدن در اطلاعات هستیم ولی تشنه دانشیم. امروزه مشکل، جمع آوری اطلاعات و داده های کافی نیست. در حقیقت ما در اکثر رشته ها و زمینه ها داده های زیادی در دست داریم، اما مسأله امروز این است که به اندازه کافی افراد تحلیلگر آموزش دیده وجود ندارد که مهارت تبدیل این داده ها را به دانش و سپس هدایت آن‌ها بسوی درخت تاکسونومی، جهت ایجاد دانش داشته باشند.

داده کاوی چیست؟

تلاقی مناسبی از عوامل گوناگون، به عنوان یک نیروی محرکه، باعث پیشرفت روزافزون و قابل توجه ای در زمینه داده کاوی و کشف دانش شده است:

  • رشد فزاینده در جمع آوری داده ها، همان گونه که در مثال اسکنرهای فروشگاه نشان داده شد.
  • ذخیره سازی داده ها در مخازن داده، در نتیجه کل بنگاه های اقتصادی به یک پایگاه داده جاری قابل اعتمادی دسترسی دارند.
  • وجود دسترسی فزاینده به داده ها از طریق جستجو در وب و شبکه های داخلی
  • فشار رقابتی برای افزایش سهم بازار در اقتصاد جهانی
  • با استفاده از خدمات دیجیتال مارکتینگ برمبنای هوش مصنوعی شرکت رابین هوش می‌توانید به کسب و کار خود رونق بخشید.
  • توسعه نرم افزارهای تجاری داده کاوی که به صورت انبوه تولید می‌شوند.
  • رشد چشمگیر قدرت محاسباتی و ظرفیت ذخیره سازی

نیاز داده کاوی به هدایت توسط انسان

بسیاری از فروشندگان نرم افزار، نرم افزارهای تحلیل گر خود را تحت عنوان برنامه های کاربردی که بدون نیاز به نظارت و تعامل انسان راه‌حل‌هایی را برای مسائل پیچیده ارائه می‌کنند، به فروش می‌رسانند. بعضی از تعاریف اولیه داده کاوی تمرکز خود را بر اتوماسیون قرار داده‌اند. به عنوان مثال، بری و لیناف در کتاب روش های داده کاوی برای بازاریابی فروش و پشتیبانی مشتری این تعریف را برای داده کاوی ارائه کرده اند:  فرآیند کاوش و تحلیل حجم بزرگی از داده ها به منظور کشف قوانین و الگوهای با معنی، توسط ابزارهای اتوماتیک یا نیمه اتوماتیک را داده کاوی گویند.

در این تعریف بر اصطلاح اتوماتیک تأکید شده است. سه سال بعد در کتاب “چیره دستی در داده کاوی  “ نویسندگان تعاریف خود را مورد بازنگری قرار دادند و بیان کردند: “اگر موردی برای انتقاد وجود داشته باشد استفاده از عبارت، توسط ابزارهای اتوماتیک یا نیمه اتوماتیک است، چون احساس می‌کنیم که بیش از اندازه روی روش های اتوماتیک متمرکز شده‌ایم و به اندازه کافی به کاوش و تحلیل توجه نکرده‌ایم. این امر افراد زیادی را گمراه کرده و این باور را در آن‌ها به وجود آورده است که داده کاوی محصولی است که می‌توان آن را خریداری کرد، در حالی که دانشی است که باید آن را فرا گرفت. “
این موضوع که اتوماسیون جایگزین مناسبی برای انسان نیست، بسیار خوب بیان شده است. همچنین به زودی خواهیم آموخت که مشارکت فعال انسان در تمام مراحل فرایند داده کاوی مورد نیاز است.
اگر می‌خواهید برای تبلیغ کسب وکارتان در شبکه های اجتماعی از رقبایتان پیشی بگیرید روی ارتباط سریع با سلبریتی ها کلیک کنید.گورگ گرینستین از دانشگاه ماساچوست عدم مشارکت انسان در داده کاوی را به صورت زیر بیان کرده است:

تصور کنید که جعبه سیاهی وجود دارد که قادر است به تمامی سوالاتی که از آن پرسیده می‌شود، پاسخ دهد. آیا این موضوع ما را از مشارکت انسان بی‌نیاز می‌کند، همانطور که افراد بسیاری به آن اشاره می‌کنند؟ کاملا برعکس. مشکل اساسی، مسأله دخالت انسانی است. چگونه سؤال را به درستی جمله بندی کنیم؟ چگونه پارامترها را مقداردهی کنیم تا جوابی که به دست می‌آید برای نمونه خاصی که مورد توجه ماست، قابل استفاده باشد؟ چگونه نتایج را در زمان قابل قبول و به شکلی که برایمان قابل فهم است، به دست آوریم؟ توجه کنید که تمامی این سؤال‌ها ما را به فرآیند کشف توانایی های انسانی خود و استفاده از آن‌ها مرتبط می کند. به جای اینکه بپرسیم که انسان‌ها کجای داده کاوی می‌گنجند، باید بپرسیم چگونه می‌توان داده کاوی را به صورت یک فرآیند انسانی حل مسأله تبدیل کرد.
علاوه بر این قدرت زیاد الگوریتم های وحشتناک داده کاوی که در حال حاضر در دل نرم افزار جعبه سیاه موجود قرار دارد، استفاده نادرست از آن‌ها را نسبتا خطرناک می‌سازد. همزمان با هر فناوری جدید اطلاعات، بد انجام دادن داده کاوی بسیار ساده است. امکان دارد که محققین تحلیل نادرستی را برای مجموعه داده ها به کار ببرند که نیازمند یک رویکرد کاملا متفاوت باشد، یا ممکن است مدل‌هایی استخراج شود که براساس فرض‌های سطحی بنا شده‌اند. بنابراین، درک ساختارهای مدل آماری و ریاضی به کار گرفته شده در نرم افزار، ضروری است.

برای مطالعه مقاله های دیگر در زمینه‌ی تحلیل داده کلیک کنید.

داده کاوی چیست؟