علم داده (Data science) و آینده ابزارهای تجسم
علم داده و آینده ابزارهای تجسم
دانش داده در طی دهه گذشته منفجر شده است ، نحوه تجارت ما و آماده سازی نسل بعدی جوانان برای مشاغل آینده تغییر کرده است. اما این رشد سریع با درک در حال تکامل کار علم داده همراه بود ، که به ابهام زیادی در مورد چگونگی استفاده از علم داده برای بدست آوردن بینش عملی از انبوه داده ها منجر شده است.
در این مقاله ، چندین مورد مهم تحقیقاتی خلاصه شده و نظرات در مورد اینکه چگونه یافته های آنها می تواند به ما در ایجاد نسل بعدی ابزار تجسم داده برای علم داده کمک کند ، به اشتراک گذاشته میشود.
علم داده چیست؟
به نظر می رسد علم داده برای افراد مختلف چیزهای مختلفی است. از نظر برخی افراد ، علم داده چیز جدیدی نیست و فقط کاربرد عملی تکنیک های آماری است که از مدت ها قبل وجود داشته است.
از نظر دیگران ، این دیدگاه بسیار محدود است زیرا دانش داده نه تنها به دانش روش های آماری بلکه به تکنیک های محاسبات نیز نیاز دارد تا کاربرد این روش ها عملی شود.
به عنوان مثال ، کافی نیست که یک دانشمند داده رگرسیون خطی را بفهمد ، آنها همچنین باید بدانند که چگونه آن را در مقیاس گسترده ای برای داده ها اعمال کنند – چیزی که بخشی از آموزش آماری سنتی نیست.
هنوز هم ، حتی کسانی که استدلال می کنند علم داده بیش از آمار کاربردی است ، ممکن است هنوز دریغ نکنند که این چیز جدیدی است.
مدت زمان طولانی است که روش جمع آوری و تجزیه و تحلیل داده ها ، حتی مقادیر زیادی از داده ها ، بخشی از تحقیقات علمی است ، به عنوان مثال در زیست شناسی یا فیزیک. بسیاری احساس می کنند که علم داده فقط امتداد آنچه قبلاً در علم تجربی اتفاق افتاده است.
سه دیدگاه اصلی در مورد اینکه علم داده چیست
در اینجا یک دیدگاه چارم نیز وجود دارد ، این است که علم داده واقعاً چیز جدیدی است و متفاوت از آمار و همچنین رویکردهایی که دانشمندان هنگام مطالعه اتم ها و ژن ها استفاده می کردند.
گردآوری آمار و علوم کامپیوتر با تخصص لازم در زمینه موضوعات ، چالش های جدیدی را به وجود آورده است که علم داده به طور منحصر به فرد آنها را برطرف می کند و دانشمندان داده آنها را برطرف می کنند.
علاوه بر این ، کاری که دانشمندان داده انجام می دهند از انواع دیگر تجزیه و تحلیل داده ها متمایز است ، زیرا به مهارت های چند رشته ای گسترده تری نیاز دارد.
تحقیقات ، این دیدگاه را می گیرد که علم داده واقعاً چیز جدید و متفاوتی است و از این رو یک تعریف عملی ایجاد شده که به عنوان پایه و اساس کار عمل می کند:
“علم داده یک رشته چند رشته ای است که هدف آن یادگیری بینش های جدید از داده های دنیای واقعی از طریق استفاده ساختاری از تکنیک های آماری و محاسباتی است.”
این تعریف مهم است زیرا به ما کمک می کند تا چالش ها و نیازهای برآورده نشده کارگران علوم داده را درک کنیم ، که در درجه اول از چالش های کار با واقعی است ، در مقابل داده های شبیه سازی شده و چالش های همراه با استفاده از روش های آماری و محاسباتی برای این داده ها در مقیاس.
برای دانلود آموزش نرم افزارهای داده کاوی کلیک کنید.
کار علم داده چیست؟
از همه مهمتر ، یک تعریف مفید از علم داده ، دامنه تحقیق را محدود می کند. به جای در نظر گرفتن انواع تجزیه و تحلیل داده های احتمالی که ممکن است شخص بخواهد که انجام دهد .
این تمایز از آن جهت مهم است که مراحل خاصی که مثلاً یک فیزیکدان تجربی برای تجزیه و تحلیل داده ها برمی دارد ، حتی اگر مشترک باشند ، متفاوت از مراحل تحلیلی است که دانشمند داده می تواند انجام دهد که منجر به پیگیری مهمی می شود:
علم داده دقیقاً چه کار می کند؟
چندین استاندارد صنعتی برای شکستن کار علم داده وجود دارد. اولین روش KDD (یا دانش در کشف داده) بود که با گذشت زمان توسط دیگران اصلاح و گسترش یافت.
از این مشتقات و همچنین مطالعاتی که با دانشمندان داده مصاحبه می شود ، چارچوبی ایجاد شده که دارای چهار فرایند مرتبه بالاتر (آماده سازی ، تجزیه و تحلیل ، استقرار و ارتباطات) و 14 فرایند مرتبه پایین است. فرایندهایی که با رنگ قرمز مشخص شده اند ، فرآیندهایی است که عمدتا از تجسم داده ها استفاده می شود ، اما این مانع استفاده از آن در سایر جنبه های کار علم داده نیست.
چه کسانی با علوم داده کار میکنند؟
نه نقش علوم داده که در طول دوازده مطالعه عمیق با Data Scientists
با این وجود ، همانطور که ما در مطالعات موجود در مورد دانشمندان داده تحقیق شده است به عنوان یک سازگار و مهم ظاهر شد ، این بود که “دانشمندان داده” متنوع بودند و چگونه نقش آنها در رابطه با فرآیندهای خاص علم داده تغییر می کند.
به عنوان مثال ، شما می توانستید ظهور مهندس داده را به عنوان یک نقش علمی متمایز اما همچنان مجاور مشاهده کرده باشید. با رشد پیچیدگی کار علوم داده ، دانشمندان داده کمتر تعمیم یافته و از تخصص بیشتری برخوردار می شوند و غالباً در جنبه های خاصی از کار علوم داده مشغول می شوند.
مصاحبه های انجام شده توسط هریس و همکاران در اوایل سال 2012 این روند را شناسایی کرده است که فقط با گذشت زمان تسریع شده است. متأسفانه ، آنها مشاهده کردند که این تنوع در نقش علم داده منجر به “ارتباط نادرست بین دانشمندان داده و کسانی که می خواهند از آنها کمک کنند”.
برای دانلود دوره آموزشی تبلو کلیک کنید.
با بررسی دوازده مطالعه در مجموع هزاران نفر که به عنوان دانشمند داده شناخته شده اند ، بر اساس نتایج کار هریس از طریق متا آنالیز این مطالعات ، آنها توانستند 9 نقش داده مجزا را شناسایی کنند.
این افراد مجموعه مهارت ها و زمینه های متفاوتی داشتند که آنها را در محورهای آماری ، علوم رایانه و تخصص دامنه دسته بندی کردند. همچنین در توصیف مهارتهای علوم داده ، طراحی انسان محور را در نظر گرفتند ، زیرا توجه به تأثیر محصولات داده ، مانند یک برنامه شناسایی چهره ، از اهمیت فزاینده ای برخوردار است.
آنها تأکیید داشتند که این نقش ها مقوله های مطلق نیستند ، در مرزهای آنها و همچنین با قدرت مهارت فنی این افراد سیالیت وجود دارد که این نقش ها را اشغال می کنند. در عوض ، این دسته از نقش ها برای کمک به محققان و سایر افراد ، برای درک دقیق دیگران از اینکه با چه کسی صحبت می کنند و زمینه آنها ممکن است ، به عنوان یک راهنما استفاده شوند.
چگونه روش ساخت ، ابزارهای تجسم و تجزیه و تحلیل داده ها را تغییر می دهد؟
البته مهمترین ملاحظه این است که چگونه تعریف ما از علم داده و چارچوب علم داده کار می کند و افراد می توانند به ما در ساختن ابزارهای بهتر تجسم داده کمک کنند.
اول و مهمترین ، این کار با صریح و متناسب بودن شواهد از متنوع علم داده و کارگران کمک می کند. در حال حاضر از این چارچوب برای ایجاد معیارهای واضح تر برای شکستن تجربیات مشتری Tableau در علم داده استفاده شده است.
برای دانلود دوره آموزشی پاور بی آی کلیک کنید.
با دانستن اینکه نقش “دانشمند داده” خود دارای تنوع زیادی است ، با طبقه بندی افرادی که با آنها صحبت می کنیم در نه نقش علم داده ما ، بهتر می توانیم تشخیص دهیم چه کسی کار را انجام می دهد.
چنین طبقه بندی درک وظایف سیستم های تجسم ما را برای پشتیبانی و در چه سطحی آسان می کند. به عنوان مثال ، یک تحلیلگر فنی و مهندس ML / AI ، که دو نقش علوم داده هستند ، هر دو می توانند در یک کار مشترک مدل سازی شرکت کنند ، اما نیازهای کاملاً متفاوتی دارند. اگر این تفاوت ها را نادیده بگیریم ، خطر ایجاد ابزار اشتباه برای هر دو نقش را داریم.
اما شاید از همه مهمتر ، این چارچوب همچنین به ما کمک کند تا به آنچه در اکوسیستم فعلی ابزار تجزیه و تحلیل بصری از دست رفته است فکر کنیم.
نتیجه گیری قابل توجهی که به دست آمده، تمرکز محدود ابزارهای موجود به سمت تجسم مدل های یادگیری ماشین و کمبود ابزاری است که از دیگر جنبه های مهم کار علم داده مانند آماده سازی داده ها ، استقرار یا برقراری ارتباط پشتیبانی می کند.
این کمبود ابزار علاوه بر اینکه به کار علم داده می افزاید ، تأثیرگذاری کار بر تصمیم گیری و رویه های سازمانی را برای دانشمندان داده ، در هر نقشی که دارند ، دشوارتر می کند.
این تحقیق در مورد کار علم داده و افراد به ما کمک میکند تا این چالش ها را برطرف کنیم و فرصت هایی را برای ساخت ابزارهای بهتر که به مردم کمک می کند داده های خود را ببینند و درک کنند ، تعریف کنیم.
تحقیق گران : Anamaria Crisan ، Brittany Fiore-Gartland و Melanie Tory (2020) ، Passing the Data Baton: یک تحلیل گذشته نگر در مورد کار علوم داده و کارگران
سپاس گزاریم از خواندن این مقاله
برای دانلود دوره آموزشی تبلو کلیک کنید.
برای خرید لایسنس Tableau کلیک کنید.
برای دانلود دوره آموزشی پاور بی آی کلیک کنید.
برای خرید لایسنس Power BI کلیک کنید.
برای دانلود دوره آموزشی نرم افزار R کلیک کنید.
دیدگاهتان را بنویسید