تجزیه و تحلیل خوشه ای یک تکنیک مدل سازی اساسی است که همه چیز در مورد گروه بندی است. مراحل مربوط به خوشه بندی برای همه تکنیک ها معتبر است.
در اینجا مراحل تجزیه و تحلیل خوشه ای وجود دارد:
۱- متغیر مناسب را انتخاب کنید
این مفهوم شامل شناسایی ویژگی مناسب است و ارزش آن چقدر است. در اینجا، فرد باید متغیری را انتخاب کند که احساس میکند ممکن است برای شناسایی و درک تفاوتهای بین گروههای مشاهده در دادهها مهم باشد.
۲- مقیاس بندی داده ها
در این مورد، نمونه های داده از منابع مختلف ممکن است در مقیاس های مختلف گروه بندی شوند. به عنوان مثال، اگر ما روی داده های شخصی کار می کنیم، مانند سن که از 0 تا 100 می رسد، وزن بین 40-180 و قد بین 1-6 فوت. در اینجا، متغیرهای تجزیه و تحلیل در محدوده متفاوت هستند. متغیر با بیشترین دامنه بیشترین تأثیر را بر نتایج خواهد داشت.
برای خرید لایسنس تبلو Tableau کلیک کنید
۳- محاسبه فاصله ها
در اینجا، اگر متغیرهای تجزیه و تحلیل در محدوده متفاوت باشند، متغیری که بیشترین دامنه را داشته باشد، بیشترین تأثیر را بر نتایج خواهد داشت.
نکته ای که باید به آن توجه داشت این است که هر یک از ویژگی ها مقیاس های متفاوتی دارند. اگر بخواهیم با یک معادله بیرون بیاییم، باید نرمال سازی را در نظر گرفت، جایی که ممکن است مجبور باشیم همه صفات و متغیرها را بیاوریم.
به عنوان مثال، با توجه به اینکه ما در حال انجام تجزیه و تحلیل بر روی آب و هوا و ارزیابی داده های نمونه از هند و ایالات متحده هستیم، مقیاس در این مورد متفاوت است. این به این دلیل است که یکی از سیستم متریک و دیگری از سیستم ایالات متحده استفاده می کند. بنابراین، هدف ما این است که آنها را به یک استاندارد برسانیم. همچنین، هدف اصلی تحلیل خوشه ای محاسبه فاصله است.
محاسبه فاصله بین نقاط در یک Cluster
در اینجا، یک هدف می تواند گروه بندی نقاط مشابه با هم در یک Cluster باشد.
- یک راه این است که می توانیم مرکز خوشه را بگیریم و مرکز گروه بعدی را پیدا کنیم و فاصله بین مراکز را محاسبه کنیم.
- یا نزدیکترین نقطه را بگیرید و فاصله بین نزدیکترین نقاط را پیدا کنید.
- یا بزرگترین نقاط فاصله را بگیرید و فاصله بین آنها را پیدا کنید.
پیوند ساده – خوشه های کشیده ایجاد می کند. این کوتاه ترین فاصله بین یک نقطه در یک خوشه و یک نقطه در خوشه دیگر است.
پیوند کامل – طولانی ترین فاصله بین یک نقطه در یک خوشه و یک نقطه در خوشه دیگر
پیوند متوسط – فاصله متوسط بین هر نقطه در یک خوشه و هر نقطه در خوشه دیگر
مرکز- فاصله بین مرکزها (میانگین بردار بر روی متغیرها) دو خوشه
Ward– خوشه هایی را که به کمترین فاصله در خوشه ها منتهی می شوند، ترکیب می کند، مجموع تمام مربع ها روی همه متغیرها
توجه: این مفاهیم ممکن است برای چندین تکنیک به کار رود. در هر تکنیک ما چندین گزینه برای انتخاب داریم. وقتی صحبت از تجزیه و تحلیل خوشه ای می شود، به آن تحلیل خوشه سلسله مراتبی گفته می شود، که در آن می توان از چندین روش استفاده کرد. هر روش مزایا، معایب و خواص خاص خود را دارد.
دوره آموزشی زبان برنامه نویسی R »کلیک کنید» یک برنامه جامع است که بر توسعه محاسبات آماری و علم دادهها ، ایجاد اشکال گرافیکی و نمودارها و تحلیل سریهای زمانی، رگرسیون خطی و…. با استفاده از ابزار R تمرکز دارد.
سپاسگذاریم از وقتی که برای خواندن این مقاله گذاشتید
.
برای خرید لایسنس پاور بی ای Power BI کلیک کنید
.
برای مشاهده ویدیوهای آموزشی داده کاوی و هوش تجاری ما را در شبکه های اجتماعی دنبال کنید
Youtube Chanel :VISTA Data Mining
Aparat Chanel: VISTA Data Mining
Instagram Chanel: VISTA Data Mining
Telegram Chanel: VISTA Data Mining
Linkedin Chanel: VISTA Company