پروژه تحلیل داده و هوش مصنوعی

مقدمه

پروژه تحلیل داده و هوش مصنوعی

در پروژه تحلیل داده و هوش مصنوعی وقتی اطلاعات را مشاهده می کنیم اولین چیزی که به ذهن می آید چیست؟ اولین غریزه یافتن الگوهای، ارتباطات و روابط است. ما به داده ها نگاه می کنیم تا معنای آن را پیدا کنیم.
به طور مشابه، در تحقیقات، هنگامی که داده ها جمع آوری می شوند، گام بعدی این است که از بینش ها مطلع شوند. به عنوان مثال، اگر یک نام تجاری لباس در حال تلاش برای شناسایی آخرین روند در میان زنان جوان باشد، این نام تجاری ابتدا به زنان جوان می آید و از آنها سؤالات مربوط به هدف تحقیق را می پرسد. پس از جمع آوری این اطلاعات، برند این داده ها را برای شناسایی الگوها تجزیه و تحلیل می کند – به عنوان مثال، ممکن است کشف شود که اکثر زنان جوان دوست دارند تنوع بیشتر شلوار جین را ببینند.
تجزیه و تحلیل داده ها این است که چگونه محققان از یک توده داده به بینش های معنی می گیرند. روش های مختلف تجزیه و تحلیل داده ها بسته به نوع تحقیق وجود دارد. در اینجا چند روش برای تحلیل داده های کمی و کیفی استفاده می شود. تجزیه و تحلیل داده بد دشوار است. اطمینان حاصل کنید که شما با جمع آوری داده های با کیفیت بالا با وبلاگ ما “4 روش جمع آوری داده ها: کدام یک برای شما مناسب است؟”

تجزیه و تحلیل داده های کمی

تهیه داده ها

در پروژه تحلیل داده و هوش مصنوعی مرحله اول تجزیه و تحلیل داده ها تهیه داده ها است، جایی که هدف آن تبدیل داده های خام به چیزی معنی دار و قابل خواندن است. این شامل چهار مرحله است :

مرحله 1: اعتبار سنجی داده ها

هدف از اعتبارسنجی داده ها، شناسایی تا آنجا که ممکن است، این بود که آیا داده ها بر طبق استانداردهای پیشنهادی و بدون هیچ گونه تعصب انجام شده است. این یک فرایند چهار مرحله ای است که شامل …

تقلب : برای تعیین اینکه آیا هر پاسخ دهنده واقعا مصاحبه شد یا نه.
غربالگری : برای اطمینان از اینکه پاسخ دهندگان به عنوان معیارهای تحقیق انتخاب شدند .
روش رویه ای : برای بررسی اینکه آیا روش جمع آوری اطلاعات به درستی دنبال شد .
تکمیل : اطمینان حاصل شود که مصاحبه کننده از پاسخ دهنده تمام سوالات را پرسید، و نه فقط چند مورد مورد نیاز .

انجام این کار، محققان باید یک نمونه تصادفی از نظرسنجی های کامل را انتخاب کرده و داده های جمع آوری شده را تأیید کند. (توجه داشته باشید که این می تواند برای نظرسنجی ها با پاسخ های زیاد وقت گیر باشد.) به عنوان مثال، تصور کنید که یک نظرسنجی با 200 پاسخ دهندگان به 2 شهر تقسیم شده است. محقق می تواند یک نمونه از 20 متقاضی تصادفی از هر شهر را انتخاب کند. پس از آن، محقق می تواند از طریق ایمیل یا تلفن به آنها دسترسی پیدا کند و پاسخ های آنها را به مجموعه ای از سوالات پاسخ دهد.

پروژه تحلیل داده و هوش مصنوعی
پروژه تحلیل داده و هوش مصنوعی

به طور معمول، در پروژه تحلیل داده و هوش مصنوعی مجموعه داده های بزرگ شامل اشتباهات است. به عنوان مثال، پاسخ دهندگان ممکن است فیلدها را به اشتباه پر کنند یا تصادفا را رد کنند. برای اطمینان از اینکه چنین اشتباهاتی وجود ندارد، محقق باید چک های داده های اولیه را چک کند، برای پیشگیران بررسی کند، و دادههای تحقیق خام را برای شناسایی و پاک کردن هر نقطهای داده ای که ممکن است دشواری نتایج را مختل کند، ویرایش کند.
به عنوان مثال، یک خطا می تواند زمینه هایی باشد که توسط پاسخ دهندگان خالی می شود. هنگام ویرایش داده ها مهم است که مطمئن شوید تمام فیلدهای خالی را حذف یا پر کنید. (4 روش برای مقابله با داده های گم شده در اینجا وجود دارد.)

 حذف لیستی
روش حذف لیستی، تمام سطرهایی که یک یا چند مقدار ستون را از دست داده اند حذف می شوند
ارزش های گمشده در متغیرهای وابسته اغلب به شما نیاز دارند تمام رکورد را حذف کنید، زیرا نمی تواند به تحقیق کمک کند. به طور متناوب، برای یک متغیر وابسته خاص، بسیاری از متغیرهای مستقل از دست رفته همچنین می توانند بینش معناداری ایجاد کنند که همچنین باعث می شود که کل رکورد را حذف کنید.

میانگین / متوسط / حالت محاسبه

در روش متوسط / حالت / حالت imputation، تمام مقادیر گم شده در یک ستون خاص با میانگین / متوسط / حالت جایگزین می شود که با استفاده از تمام مقادیر موجود در آن محاسبه می شود. شما می توانید توابع مناسب در اکسل را برای محاسبه میانگین / مدیا / حالت با صرفه جویی در دامنه ستون به ورودی تابع استفاده کنید.
میانگین: میانگین (معمولا به عنوان میانگین معروف) برابر با مجموع تمام مقادیر در ستون تقسیم بر تعداد مقادیر موجود در ستون است. در اکسل، می توانید از تابع AVERAGE () برای محاسبه میانگین استفاده کنید.
میانه Median: میانه ارزش در میان محدوده ارزش است. برای محاسبه محدوده طیفی که حاوی ‘n’ تعداد مقادیر است، شما باید این مقادیر ‘n’ را به ترتیب صعودی مرتب کنید.
برای تعداد مشاهدات عجیب، متوسط ((n + 1) / 2) th مقدار است. برای مثال، میانگین برای یک لیست مرتب شده از 13 مشاهدات، ارزش 7 است.
برای تعداد حقیقی مشاهدات، میانگین به طور متوسط مقادیر (n / 2) th و ((n + 2) / 2) th است. به عنوان مثال، میانگین برای فهرست مرتب شده از 12 مشاهدات، میانگین مقادیر 6 و 7 است.
در اکسل می توانید از MEDIAN () برای محاسبه میانگین استفاده کنید.
حالت: حالت ارزش است که اغلب در محدوده مقادیر رخ می دهد. در اکسل، می توانید از MODE () برای محاسبه حالت استفاده کنید.

آخرین نظارت انجام شده به جلو (LOCF)

پروژه تحلیل داده و هوش مصنوعی

احیاء:

صرفه جویی در یک نقطه داده – به عنوان مثال ارسال surveyor به یک پاسخ دهنده برای دوباره جمع آوری یک نقطه داده – روش احمقانه تر برای رسیدگی به داده های از دست رفته است. بر خلاف روش های بالا، تضمین می کند که یک نقطه داده های از دست رفته با ارزش دقیق، نه تقریبی، پر شده است.
Resurveying می تواند وقت گیر باشد. با این حال، برنامه های جمع آوری داده های مبتنی بر تلفن همراه مانند جمع آوری، که اجازه می دهد تا مدیران برای پر کردن نقاط داده مشکوک و فرستادن نقشه برداران برای جمع آوری این نقاط داده در بررسی اصلی، ساده تر می شود.

مرحله 3: کدگذاری داده
این یکی از مهمترین مراحل آماده سازی داده هاست. این به گروه بندی و اختصاص ارزش به پاسخ از نظر سنجی اشاره دارد.
برای مثال، اگر یک محقق با 1000 نفر مصاحبه کند و اکنون می خواهد سن متوسط پاسخ دهندگان را پیدا کند، محقق سطل سن را ایجاد می کند و سن هر یک از پاسخ دهندگان را طبق این کد ها طبقه بندی می کند. (به عنوان مثال، پاسخ دهندگان بین 13-15 سال سن خود را به عنوان 0، 16-18 به عنوان 1، 18-20 به عنوان 2، و غیره)
سپس در طی تجزیه و تحلیل، محقق می تواند با سویه های ساده تر، به جای دامنه وسیعی از سنین فردی، مقابله کند.

روش تجزیه و تحلیل داده های کمی
پس از این مراحل، داده ها برای تجزیه و تحلیل آماده می شوند. دو روش معمول برای تجزیه و تحلیل داده های کمی، آمار توصیفی و آمار استنباطی است.

آمار توصیفی

به طور معمول آمار توصیفی (همچنین به عنوان تحلیل توصیفی شناخته می شود) اولین سطح تحلیل است.در پروژه تحلیل داده و هوش مصنوعی این محقق به محققان داده ها را خلاصه کرده و الگوها را پیدا می کند. چند آمار توصیفی معمولا استفاده می شود:

میانگین: میانگین عددی مجموعه ای از مقادیر.
متوسط: نقطه مرکزی مجموعه ای از مقادیر عددی.
حالت: شایع ترین ارزش در میان مجموعه ای از ارزش ها.
درصد: برای بیان اینکه چگونه ارزش یا گروهی از پاسخ دهندگان درون داده ها به یک گروه بزرگ از پاسخ دهندگان مربوط می شود، استفاده می شود.
فرکانس: تعداد دفعاتی که یک مقدار یافت می شود.
محدوده: بالاترین و کمترین مقدار در مجموعه ای از مقادیر.

آمار توصیفی تعداد مطلق را فراهم می کند. با این حال، آنها منطق و استدلال پشت این اعداد را توضیح نمی دهند. قبل از استفاده از آمار توصیفی، مهم است که در مورد کدامیک از بهترین ها برای سوال تحقیق و آنچه که می خواهید نشان دهید مناسب باشد. به عنوان مثال، درصد یک راه خوب برای نشان دادن توزیع جنسیتی پاسخ دهندگان است.

آمار توصیفی زمانی مفید است که تحقیق به نمونه محدود شود و نیازی به تعمیم دادن به جمعیت بزرگتر نباشد. برای مثال، اگر شما درصد کودکان واکسینه شده در دو روستا متفاوت را مقایسه کنید، آمار توصیفی کافی است.

از آنجاییکه تجزیه و تحلیل توصیفی بیشتر برای تجزیه و تحلیل متغیر واحد استفاده می شود، آن را اغلب به نام یک تجزیه و تحلیل یکنواخت.

پروژه تحلیل داده و هوش مصنوعی

آمار استنباطی

اغلب، محققان جمع آوری داده ها بر روی نمونه ای از جمعیت آنها، سپس نتایج را به کل جمعیت یا گروه هدف متمرکز می کنند. آمار استنباطی به منظور تعمیم نتایج و پیش بینی در مورد جمعیت بزرگتر استفاده می شود.
اینها تجزیه و تحلیل پیچیده ای هستند که رابطه بین چند متغیر مختلف را نشان می دهند، نه توصیف یک متغیر واحد. آنها زمانی استفاده می شود که محقق نیاز به فراتر از ارزش مطلق داشته باشد و روابط بین متغیرها را درک کند.

چند نوع تحليل استنباطي عبارتند از:

همبستگی: این رابطه بین دو متغیر را توصیف می کند. اگر یک همبستگی پیدا شود، به این معنی است که بین متغیرها رابطه وجود دارد. برای مثال، افراد بلندتر تمایل دارند وزن بیشتری داشته باشند. از این رو، قد و وزن با یکدیگر همبستگی دارند. با این وجود، این لزوما به این معنی نیست که یک متغیر باعث می شود که دیگران (مثلا افزایش وزن باعث رشد مردم نشود).
رگرسیون: این رابطه بین دو متغیر را نشان می دهد. به عنوان مثال، رگرسیون می تواند به ما کمک کند حدس بزنیم که وزن افراد براساس قدشان چه اندازه است.
تجزیه و تحلیل واریانس: این یک روش آماری است که برای آزمون میزان دو یا چند گروه در یک آزمایش متفاوت است. در بیشتر آزمایشات، مقدار زیادی واریانس نشان می دهد که یافته های قابل توجهی از تحقیق وجود دارد. برای مثال، برای درک رابطه بین تعداد فرزندان در یک خانواده و وضعیت اجتماعی و اقتصادی، یک محقق ممکن است نمونه ای از خانواده ها را از هر وضعیت اجتماعی و اقتصادی استخدام کند و از آنها در مورد تعداد ایده آل فرزندان آنها سوال کند. تجزیه و تحلیل واریانس برای بررسی اینکه آیا تفاوت بین پاسخ های گروه از نظر آماری قابل توجه است یا به علت احتمال تصادفی استفاده می شود، استفاده می شود.
انتخاب آمار استنباط به طور کامل به هدف تحقیق بستگی دارد. همانطور که در مورد آمار توصیفی، بهتر است آمار آماری مناسب استنباطی برای سوالات تحقیقاتی خود را تعیین کنید.
از آنجایی که از آمار استنباطی برای تعیین رابطه بین دو یا چند متغیر استفاده می شود، آن ها دو متغیر (زمانی که به دو متغیر محدود می شوند) و یا تجزیه و تحلیل چند متغیره (زمانی که بیش از دو متغیر وجود دارد) نامیده می شود.
روش های فوق الذکر رایج ترین روش ها برای تجزیه و تحلیل داده ها هستند. با این حال، دیگر روش های تجزیه و تحلیل داده ها و معیارهای، مانند انحراف استاندارد و واریانس نیز موجود است.

تجزیه و تحلیل داده های کیفی

تجزیه و تحلیل داده های کیفی کمی متفاوت از داده های کمی کار می کند، در درجه اول به این دلیل که داده های کیفی از کلمات، مشاهدات، تصاویر و حتی نمادها تشکیل شده است. بدست آوردن معنای مطلق از چنین اطلاعات تقریبا غیرممکن است؛ از این رو، بیشتر آن برای تحقیق اکتشافی استفاده می شود. در حالیکه در تحقیقات کمیسیونی بین آماده سازی داده ها و مرحله تجزیه و تحلیل داده ها وجود دارد، تجزیه و تحلیل برای تحقیقات کیفی اغلب به محض این که داده ها در دسترس است، شروع می شود.

پروژه تحلیل داده و هوش مصنوعی

تهیه داده ها و تجزیه و تحلیل داده های اساسی

تجزیه و تحلیل و تهیه به صورت موازی صورت می گیرد و شامل مراحل زیر می شود:
آشنایی با داده ها: از آنجاییکه اکثر داده های کیفی فقط کلمات هستند، محقق باید با خواندن داده ها چندین بار با آن آشنا شود و به دنبال مشاهدات یا الگوهای اصلی بگردد. این همچنین شامل نوشتن اطلاعات است.
بازبینی اهداف تحقیق: در اینجا، محقق به بررسی هدف تحقیق و شناسایی سوالاتی می پردازد که می توانند از طریق داده های جمع آوری شده پاسخ داده شوند.
در حال توسعه یک چارچوب: همچنین به عنوان برنامه نویسی یا نمایه سازی شناخته می شود، در اینجا محقق شناسایی ایده ها، مفاهیم، ​​رفتارها یا عبارات گسترده و اختصاص دادن کد به آنها است. به عنوان مثال، سنسور، جنسیت، وضعیت اجتماعی-اقتصادی و حتی مفاهیم نظیر پاسخ مثبت یا منفی به یک سوال را کدگذاری می کند. کدینگ در ساختار و برچسب گذاری داده ها مفید است.
شناسایی الگوهای و ارتباطات: هنگامی که داده ها رمزگذاری می شوند، تحقیق می تواند شروع به شناسایی تم ها، جستجو برای رایج ترین پاسخ ها به سوالات، شناسایی داده ها یا الگوهایی باشد که می تواند به سوالات تحقیق پاسخ دهد و زمینه های بیشتری را پیدا کند.

انجام پروژه تحلیل داده  به شرح زیر:

نیازمندی ها:

  • دیتاست مشتریان شرکت کارفرما
  • دیتاست های مورد نیاز شرکت کارفرما برای رسیدن به هدف پروژه
  • مشاوره موثر از طرف نماینده مشرف بر نقشه راه آینده شرکت کارفرما

نقشه راه :

  • داده کاوی
  • یادگیری ژرف
  • زبان برنامه نویس R
  • زبان برنامه نویسی پایتون
  • برای رسیدن به تشخیص الگوی درآمدزایی از روی داده های شرکت
  • ارائه یک مدل موفق بر اساس تحلیل های انجام شده از روی داده های شرکت

7-رسیدن به یک مدل پیش بینی از روی تحلیل های انجام شده برای توصیف آینده شرکت

تبصره 1 :

در پروژه تحلیل داده و هوش مصنوعی عملکرد درست تحلیل داده منوط بر مشاوره دقیق و صحیح از طرف شرکت کارفرما می باشد .

تبصره 2 :

عملکرد درست تحلیل داده منوط بر تامین داده های صحیح در سطوح مورد نیاز برای تحلیل لایه های مختلف شرکت کارفرما می باشد .

پروژه تحلیل داده و هوش مصنوعی