دانش داده در طی دهه گذشته منفجر شده است ، و تغییر در نحوه تجارت ما و آماده سازی نسل بعدی جوانان برای مشاغل آینده تغییر کرده است. اما این رشد سریع با درک در حال تکامل کار علم داده همراه بود ، که به ابهام زیادی در مورد چگونگی استفاده از علم داده برای بدست آوردن بینش عملی از انبوه داده ها منجر شده است.
در این مقاله ، چندین مورد مهم در این مقاله تحقیقاتی خلاصه شده و نظرات در مورد اینکه چگونه یافته های آنها می تواند به ما در ایجاد نسل بعدی ابزار تجسم داده برای علم داده کمک کند ، به اشتراک گذاشته میشود.
علم داده (Data science) چیست؟
به نظر می رسد علم داده برای افراد مختلف چیزهای مختلفی است. از نظر برخی افراد ، علم داده چیز جدیدی نیست و فقط کاربرد عملی تکنیک های آماری است که از مدت ها قبل وجود داشته است.
از نظر دیگران ، این دیدگاه بسیار محدود است زیرا دانش داده نه تنها به دانش روش های آماری بلکه به تکنیک های محاسبات نیز نیاز دارد تا کاربرد این روش ها عملی شود.
به عنوان مثال ، کافی نیست که یک دانشمند داده رگرسیون خطی را بفهمد ، آنها همچنین باید بدانند که چگونه آن را در مقیاس گسترده ای برای داده ها اعمال کنند – چیزی که بخشی از آموزش آماری سنتی نیست. هنوز هم ، حتی کسانی که استدلال می کنند علم داده بیش از آمار کاربردی است ، ممکن است هنوز دریغ نکنند که این چیز جدیدی است.
مدت زمان طولانی است که روش جمع آوری و تجزیه و تحلیل داده ها ، حتی مقادیر زیادی از داده ها ، بخشی از تحقیقات علمی است ، به عنوان مثال در زیست شناسی یا فیزیک. بسیاری احساس می کنند که علم داده فقط امتداد آنچه قبلاً در علم تجربی اتفاق افتاده است.
سه دیدگاه اصلی در مورد اینکه علم داده چیست
اما در اینجا یک دیدگاه چهارم نیز وجود دارد ، این است که علم داده واقعاً چیز جدیدی است و متفاوت از آمار و همچنین رویکردهایی که دانشمندان هنگام مطالعه اتم ها و ژن ها استفاده می کردند.
گردآوری آمار و علوم کامپیوتر با تخصص لازم در زمینه موضوعات ، چالش های جدیدی را به وجود آورده است که علم داده به طور منحصر به فرد آنها را برطرف می کند و دانشمندان داده آنها را برطرف می کنند.
علاوه بر این ، کاری که دانشمندان داده انجام می دهند از انواع دیگر تجزیه و تحلیل داده ها متمایز است ، زیرا به مهارت های چند رشته ای گسترده تری نیاز دارد.
تحقیقات ، این دیدگاه را می گیرد که علم داده واقعاً چیز جدید و متفاوتی است و از این رو یک تعریف عملی ایجاد شده که به عنوان پایه و اساس کار عمل می کند:
“علم داده یک رشته چند رشته ای است که هدف آن یادگیری بینش های جدید از داده های دنیای واقعی از طریق استفاده ساختاری از تکنیک های آماری و محاسباتی است.”
این تعریف مهم است زیرا به ما کمک می کند تا چالش ها و نیازهای برآورده نشده کارگران علوم داده را درک کنیم ، که در درجه اول از چالش های کار با واقعی است ، در مقابل داده های شبیه سازی شده و چالش های همراه با استفاده از روش های آماری و محاسباتی برای این داده ها در مقیاس.
کار علم داده چیست؟
از همه مهمتر ، یک تعریف مفید از علم داده ، دامنه تحقیق را محدود می کند. به جای در نظر گرفتن انواع تجزیه و تحلیل داده های احتمالی که ممکن است شخص بخواهد که انجام دهد .
این تمایز از آن جهت مهم است که مراحل خاصی که مثلاً یک فیزیکدان تجربی برای تجزیه و تحلیل داده ها برمی دارد ، حتی اگر مشترک باشند ، متفاوت از مراحل تحلیلی است که دانشمند داده می تواند انجام دهد که منجر به پیگیری مهمی می شود:
علم داده دقیقاً چه کار می کند؟
چندین استاندارد صنعتی برای شکستن کار علم داده وجود دارد. اولین روش KDD (یا دانش در کشف داده) بود که با گذشت زمان توسط دیگران اصلاح و گسترش یافت.
از این مشتقات و همچنین مطالعاتی که با دانشمندان داده مصاحبه می شود ، چارچوبی ایجاد شده که دارای چهار فرایند مرتبه بالاتر (آماده سازی ، تجزیه و تحلیل ، استقرار و ارتباطات) و 14 فرایند مرتبه پایین است. فرایندهایی که با رنگ قرمز مشخص شده اند ، فرآیندهایی است که عمدتا از تجسم داده ها استفاده می شود ، اما این مانع استفاده از آن در سایر جنبه های کار علم داده نیست.
چه کسانی با علوم داده کار میکنند؟
همانطور که در مطالعات موجود در مورد دانشمندان داده تحقیق شده است به عنوان یک سازگار و مهم ظاهر شد ، این بود که “دانشمندان داده” متنوع بودند و چگونه نقش آنها در رابطه با فرآیندهای خاص علم داده تغییر می کند.
به عنوان مثال ، شما می توانستید ظهور مهندس داده را به عنوان یک نقش علمی متمایز اما همچنان مجاور مشاهده کرده باشید. با رشد پیچیدگی کار علوم داده ، دانشمندان داده کمتر تعمیم یافته و از تخصص بیشتری برخوردار می شوند و غالباً در جنبه های خاصی از کار علوم داده مشغول می شوند.
مصاحبه های انجام شده توسط هریس و همکاران در اوایل سال 2012 این روند را شناسایی کرده است که فقط با گذشت زمان تسریع شده است. متأسفانه ، آنها مشاهده کردند که این تنوع در نقش علم داده منجر به “ارتباط نادرست بین دانشمندان داده و کسانی که می خواهند از آنها کمک کنند”.
برای خرید لایسنس نرم افزار Power BI کلیک کنید
Data science
با بررسی دوازده مطالعه در مجموع هزاران نفر که به عنوان دانشمند داده شناخته شده اند ، بر اساس نتایج کار هریس از طریق متا آنالیز این مطالعات ، ما توانستیم 9 نقش داده مجزا را شناسایی کنیم.
این افراد مجموعه مهارت ها و زمینه های متفاوتی داشتند که ما آنها را در محورهای آماری ، علوم رایانه و تخصص دامنه نشان دادیم. ما همچنین در توصیف مهارتهای علوم داده ، طراحی انسان محور را در نظر گرفتیم ، زیرا توجه به تأثیر محصولات داده ، مانند یک برنامه شناسایی چهره ، از اهمیت فزاینده ای برخوردار است.
تأکید میکنیم که این نقش ها مقوله های مطلق نیستند ، در مرزهای آنها و همچنین با قدرت مهارت فنی این افراد سیالیت وجود دارد که این نقش ها را اشغال می کنند. در عوض ، این دسته از نقش ها برای کمک به محققان و سایر افراد ، برای درک دقیق دیگران از اینکه با چه کسی صحبت می کنند و زمینه آنها ممکن است ، به عنوان یک راهنما استفاده شوند.
علوم داده چگونه روش ساخت ابزارهای تجسم و تجزیه و تحلیل داده ها را تغییر می دهد؟
البته مهمترین ملاحظه این است که چگونه تعریف ما از علم داده و چارچوب علم داده کار می کند و کارگران می توانند به ما در ساختن ابزارهای بهتر تجسم داده کمک کنند.
اول و مهمترین ، این کار با صریح و متناسب بودن شواهد از متنوع علم داده و کارگران کمک می کند. در حال حاضر ما از این چارچوب برای ایجاد معیارهای واضح تر برای شکستن تجربیات مشتری Tableau در علم داده استفاده کرده ایم.
ما می توانیم دقیقاً آنچه را که آنها می خواهند انجام دهند مشخص کنیم و می توانیم سوالات بیشتری را در مورد این فرآیندها بپرسیم. با دانستن اینکه نقش “دانشمند داده” خود دارای تنوع زیادی است ، با طبقه بندی افرادی که با آنها صحبت می کنیم در نه نقش علم داده ما ، بهتر می توانیم تشخیص دهیم چه کسی کار را انجام می دهد.
چنین طبقه بندی درک وظایف سیستم های تجسم ما را برای پشتیبانی و در چه سطحی آسان می کند. به عنوان مثال ، یک تحلیلگر فنی و مهندس ML / AI ، که دو نقش علوم داده هستند که ما آنها را توصیف می کنیم ، هر دو می توانند در یک کار مشترک مدل سازی شرکت کنند ، اما نیازهای کاملاً متفاوتی دارند. اگر این تفاوت ها را نادیده بگیریم ، خطر ایجاد ابزار اشتباه برای هر دو نقش را داریم.
اما شاید از همه مهمتر ، این چارچوب همچنین به ما کمک کند تا به آنچه در اکوسیستم فعلی ابزار تجزیه و تحلیل بصری از دست رفته است فکر کنیم.
ابزارهای تجسم و تجزیه و تحلیل داده ها
نتیجه گیری قابل توجهی که به دست آوردیم تمرکز محدود ابزارهای موجود به سمت تجسم مدل های یادگیری ماشین و کمبود ابزاری است که از دیگر جنبه های مهم کار علم داده مانند آماده سازی داده ها ، استقرار یا برقراری ارتباط پشتیبانی می کند.
این کمبود ابزار علاوه بر اینکه به کار علم داده می افزاید ، تأثیرگذاری کار بر تصمیم گیری و رویه های سازمانی را برای دانشمندان داده ، در هر نقشی که دارند ، دشوارتر می کند.
این تحقیق در مورد کار علم داده و کارگران به من کمک کرده است تا این چالش ها را برطرف کنم و فرصت هایی را برای ساخت ابزارهای بهتر که به مردم کمک می کند داده های خود را ببینند و درک کنند ، تعریف کنم.
تحقیق گران : Anamaria Crisan ، Brittany Fiore-Gartland و Melanie Tory (2020) ، Passing the Data Baton: یک تحلیل گذشته نگر در مورد کار علوم داده و کارگران
دوره آموزشی هوش تجاری با Tableau »کلیک کنید« و هوش تجاری با Power BI »کلیک کنید« یک برنامه جامع است که بر توسعه مهارت در تجزیه و تحلیل دادهها، تجسم و گزارش سازی و گزارش دهی و دشبوردسازی با استفاده از این ابزارها تمرکز دارد.
سپاسگذاریم از وقتی که برای خواندن این مقاله گذاشتید
.
برای خرید لایسنس نرم افزار Tableau کلیک کنید
.
برای مشاهده ویدیوهای آموزشی داده کاوی و هوش تجاری ما را در شبکه های اجتماعی دنبال کنید
Youtube Chanel :VISTA Data Mining
Aparat Chanel: VISTA Data Mining
Instagram Chanel: VISTA Data Mining
Telegram Chanel: VISTA Data Mining