داده کاوی فرآیند درک داده ها از طریق پاکسازی داده های خام، یافتن الگوها، ایجاد مدل ها و آزمایش آن مدل ها است. این شامل آمار، یادگیری ماشین و سیستم های پایگاه داده است.
داده کاوی اغلب شامل چندین پروژه داده است، بنابراین به راحتی می توان آن را با تجزیه و تحلیل، حاکمیت داده و سایر فرآیندهای داده اشتباه گرفت. این راهنما داده کاوی را تعریف می کند، مزایا و چالش های آن را به اشتراک می گذارد و نحوه عملکرد داده کاوی را بررسی می کند.
داده کاوی سابقه ای طولانی دارد. با محاسبات در دهه 1960 تا 1980 ظهور کرد. از لحاظ تاریخی، داده کاوی یک فرآیند فشرده کدنویسی دستی بود .
هنوز هم شامل توانایی کدنویسی و متخصصان آگاه برای تمیز کردن، پردازش و تفسیر نتایج داده کاوی امروزه است. متخصصان داده برای تکمیل دقیق تکنیک های داده کاوی به دانش آماری و مقداری دانش زبان برنامه نویسی نیاز دارند.
به عنوان مثال، در اینجا چند نمونه از نحوه استفاده شرکت ها از R برای پاسخ به سوالات داده های خود آورده شده است.
با این حال، برخی از فرآیندهای دستی اکنون میتوانند با جریانهای تکرارپذیر، یادگیری ماشین (ML) و سیستمهای هوش مصنوعی (AI) خودکار شوند.
داده کاوی دقیقاً تجزیه و تحلیل داده نیست. همانطور که بحث شد، داده کاوی ممکن است با سایر پروژه های داده اشتباه گرفته شود.
فرآیند داده کاوی شامل پروژه هایی مانند پاکسازی داده ها و تجزیه و تحلیل اکتشافی است، اما این فقط این شیوه ها نیست. متخصصان دادهکاوی دادهها را تمیز و آماده میکنند، مدلهایی ایجاد میکنند، آن مدلها را در برابر فرضیهها آزمایش میکنند و آن مدلها را برای پروژههای تحلیلی یا هوش تجاری منتشر میکنند.
به عبارت دیگر، تجزیه و تحلیل و پاکسازی داده ها بخشی از داده کاوی هستند، اما آنها تنها بخشی از کل هستند.
مزایای داده کاوی
داده کاوی زمانی مؤثرتر است که به صورت استراتژیک برای خدمت به یک هدف تجاری، پاسخگویی به سؤالات تجاری یا تحقیقاتی یا بخشی از راه حل یک مشکل به کار گرفته شود.
دادهکاوی به پیشبینیهای دقیق، تشخیص الگوها و موارد پرت کمک میکند و اغلب به پیشبینی کمک میکند.
علاوه بر این، دادهکاوی به سازمانها کمک میکند تا شکافها و خطاهای موجود در فرآیندها، مانند تنگناها در زنجیرههای تامین یا ورود نامناسب دادهها را شناسایی کنند.
داده کاوی چگونه کار می کند
اولین قدم در داده کاوی تقریباً همیشه جمع آوری داده است. سازمانهای امروزی میتوانند هر روز سوابق، گزارشها، دادههای بازدیدکنندگان وبسایت، دادههای برنامه، دادههای فروش و موارد دیگر را جمعآوری کنند.
جمعآوری و نگاشت دادهها اولین قدم خوب برای درک محدودیتهای کاری است که میتوان با دادههای مورد نظر انجام داد و از آنها پرسید.
فرآیند استاندارد بین صنعتی برای داده کاوی (CRISP-DM) یک دستورالعمل عالی برای شروع فرآیند داده کاوی است. این استاندارد چندین دهه پیش ایجاد شد و هنوز یک الگوی محبوب برای سازمان هایی است که تازه شروع به کار کرده اند.
6 فاز CRISP-DM
CRISP-DM شامل یک گردش کار شش فازی است.
به گونه ای طراحی شده بود که انعطاف پذیر باشد. تیم های داده مجاز و تشویق می شوند تا در صورت نیاز به مرحله قبلی برگردند. این مدل همچنین فرصت هایی را برای پلتفرم های نرم افزاری فراهم می کند که به انجام یا افزایش برخی از این وظایف کمک می کند.
-
درک کسب و کار (Business understanding)
پروژه های جامع داده کاوی ابتدا با شناسایی اهداف و محدوده پروژه شروع می شوند. ذینفعان کسب و کار سوالی می پرسند یا مشکلی را بیان می کنند که داده کاوی می تواند به آن پاسخ دهد یا حل کند.
-
درک داده ها (Data understanding)
هنگامی که مشکل کسب و کار درک شد، زمان جمع آوری داده های مربوط به سوال و درک مجموعه داده ها فرا می رسد. این داده ها اغلب از منابع متعدد، از جمله داده های ساخت یافته و داده های بدون ساختار می آیند. این مرحله ممکن است شامل برخی تحلیلهای اکتشافی برای کشف برخی الگوهای اولیه باشد.
در پایان این مرحله، تیم داده کاوی زیرمجموعه داده ها را برای تحلیل و مدل سازی انتخاب کرده است.
-
آماده سازی داده ها (Data preparation)
این مرحله با کار فشرده تر شروع می شود. آماده سازی داده ها شامل تهیه مجموعه داده های نهایی است که شامل تمام داده های مربوطه مورد نیاز برای پاسخ به سؤال تجاری است.
ذینفعان ابعاد و متغیرها را برای کشف و آماده سازی مجموعه داده های نهایی برای ایجاد مدل شناسایی خواهند کرد.
-
مدل سازی (Modeling)
در این مرحله، تکنیک های مدل سازی مناسب برای داده های داده شده را انتخاب می کنید. این تکنیکها میتوانند شامل خوشهبندی، مدلهای پیشبینی، طبقهبندی، تخمین یا ترکیبی باشند. Front Health از مدلسازی آماری و تجزیه و تحلیل پیشبینیکننده برای تصمیمگیری در مورد گسترش برنامههای مراقبتهای بهداشتی به سایر جمعیتها استفاده کرد.
اگر تکنیک مدلسازی را انتخاب کنید که به انتخاب متغیرهای دیگر یا تهیه منابع مختلف نیاز دارد، ممکن است مجبور شوید به مرحله آماده سازی داده بازگردید.
-
ارزشیابی (Evaluation)
پس از ایجاد مدلها، باید آنها را آزمایش کنید و میزان موفقیت آنها را در پاسخ به سؤالی که در مرحله اول مشخص شده بود، بسنجید. مدل ممکن است به جنبه هایی از مواردی که در نظر گرفته نشده پاسخ دهد، و ممکن است لازم باشد مدل را ویرایش کنید یا سؤال را ویرایش کنید.
این مرحله به گونهای طراحی شده است که به شما امکان میدهد تا به پیشرفتهای موجود نگاه کنید و مطمئن شوید که در مسیر درست برای دستیابی به اهداف تجاری قرار دارد. اگر اینطور نیست، ممکن است نیاز به حرکت به عقب به مراحل قبلی قبل از آماده شدن پروژه برای مرحله استقرار وجود داشته باشد.
-
استقرار (Deployment)
در نهایت، زمانی که مدل دقیق و قابل اعتماد شد، زمان به کارگیری آن در دنیای واقعی فرا می رسد. استقرار می تواند در داخل سازمان انجام شود، با مشتریان به اشتراک گذاشته شود،.
یا از آن برای تهیه گزارشی برای ذینفعان برای اثبات قابلیت اطمینان آن استفاده شود. کار با تکمیل آخرین خط کد به پایان نمی رسد. استقرار مستلزم تفکر دقیق، یک طرح توسعه و راهی برای اطمینان از اینکه افراد مناسب به درستی مطلع شده اند. تیم داده کاوی مسئول درک مخاطب از پروژه است.
انواع تکنیک های داده کاوی
داده کاوی شامل تکنیک های متعددی برای پاسخ به سوال تجاری یا کمک به حل یک مشکل است. این بخش فقط مقدمه ای بر دو تکنیک داده کاوی است و در حال حاضر جامع نیست.
طبقه بندی (Classification)
رایج ترین تکنیک طبقه بندی است. برای انجام این کار، یک متغیر هدف را شناسایی کنید و سپس آن متغیر را به سطح مناسبی از دستههای جزئیات تقسیم کنید.
به عنوان مثال، متغیر “سطح شغل” ممکن است به “سطح ورودی”، “همکار” و ” ارشد” تقسیم شود. با سایر زمینهها مانند سن و سطح تحصیلات، میتوانید مدل دادههای خود را برای پیشبینی سطح شغلی بیشتر آموزش دهید. می توانید برای یک فارغ التحصیل 22 ساله اخیر یک ورودی اضافه کنید، و مدل داده می تواند به طور خودکار آن فرد را در موقعیت «سطح ورودی» طبقه بندی کند.
بیمه یا مؤسسات مالی مانند بیمه PEMCO از طبقه بندی برای آموزش الگوریتم های خود برای شناسایی تقلب و نظارت بر ادعاها استفاده کردند.
خوشه بندی (Clustering)
خوشه بندی یکی دیگر از تکنیک های رایج است که سوابق، مشاهدات یا موارد را بر اساس شباهت گروه بندی می کند. متغیر هدف مانند طبقه بندی وجود نخواهد داشت.
در عوض، خوشه بندی فقط به معنای جداسازی مجموعه داده ها به زیر گروه ها است. این روش می تواند شامل گروه بندی سوابق کاربران بر اساس منطقه جغرافیایی یا گروه سنی باشد.
به طور معمول، خوشهبندی دادهها در زیر گروهها آمادهسازی برای تجزیه و تحلیل است. زیرگروه ها به ورودی های یک تکنیک متفاوت تبدیل می شوند.
امیدواریم این اطلاعات بیشتر به شما کمک کند تا انتخابی مناسب برای کسب و کار و سازمانتان داشته باشید. اگر هنوز مطمئن نیستید، نگران نباشید،تیم پشتیبانی داده کاوی ویستا ا اینجاست تا به شما کمک کند!
همین امروز با ما تماس بگیرید، و ما می توانیم با هم همکاری کنیم تا در فرآیند تصمیم گیری به شما کمک کنیم و ترکیب بهینه محصولات را برای شما پیدا کنیم.
دوره آموزشی هوش تجاری با Tableau «کلیک کنید» و هوش تجاری با Power BI «کلیک کنید» یک برنامه جامع است که بر توسعه مهارت در تجزیه و تحلیل دادهها، تجسم و گزارش سازی و گزارش دهی و دشبوردسازی با استفاده از این ابزارها تمرکز دارد.
سپاسگذاریم از وقتی که برای خواندن این مقاله گذاشتید
.
برای خرید لایسنس نرم افزار Tableau کلیک کنید
برای مشاهده ویدیوهای آموزشی داده کاوی و هوش تجاری ما را در شبکه های اجتماعی دنبال کنید
Youtube Chanel :VISTA Data Mining
Aparat Chanel: VISTA Data Mining
Instagram Chanel: VISTA Data Mining
Telegram Chanel: VISTA Data Mining
Linkedin Chanel: VISTA Company