مقدمه ای در مورد Seaborn
Seaborn کتابخانه ای برای ساخت گرافیک آماری در پایتون است. از کتابخانه matplotlib ساخته شده و نزدیک به ساختارهای داده های pandas می باشد. Seaborn به شما کمک می کند تا داده های خود را کشف و درک کنید.
توابع رسم آن بر روی چارچوب داده ها و آرایه های حاوی کل مجموعه داده ها عمل می کند و به صورت داخلی نقشه برداری معنایی و تجمیع آماری لازم را برای تولید نمودارهای انجام می دهد.
مجموعه داده های گرافیکی API اعلامی آن به شما امکان می دهد تا به جای جزئیات نحوه ترسیم آنها ، روی معنی عناصر مختلف طرح های خود تمرکز کنید.
برای خرید لایسنس نرم افزار Tableau کلیک کنید
اولین طرح ما در Seaborn
در اینجا مثالی از آنچه که Seaborn می تواند انجام دهد وجود دارد:
خروجی کد بالا :
در اینجا چند اتفاق افتاده است. بیایید یکی یکی کد ها را برسی کنیم:
# Import seaborn
import seaborn as sns
Seaborn تنها کتابخانه ای است که برای این مثال ساده باید وارد کنیم. طبق مثال ، با مختصر sns وارد می شود.
در پشت صحنه ، seaborn از matplotlib برای ترسیم نقشه های خود استفاده می کند. برای کارهای تعاملی ، توصیه می شود از رابط Jupyter / IPython در حالت matplotlib استفاده کنید ، در غیر اینصورت وقتی می خواهید طرح را ببینید ، باید matplotlib.pyplot.show () را صدا کنید.
# Apply the default theme
sns.set_theme()
این از سیستم matplotlib rcParam استفاده می کند و بر نحوه به نظر رسیدن تمام نمودارهای matplotlib تأثیر می گذارد.
فراتر از موضوع پیش فرض ، چندین گزینه دیگر نیز وجود دارد ، و شما می توانید به طور مستقل سبک و مقیاس بندی طرح را کنترل کنید تا کار خود را بین زمینه های ارائه سریع ترجمه کنید (به عنوان مثال ، نسخه ای از شکل خود را بسازید که هنگام نمایش از فونت های قابل خواندن باشد ) اگر پیش فرض های matplotlib را دوست دارید یا تم دیگری را ترجیح می دهید ، می توانید از این مرحله صرف نظر کنید و همچنان از توابع رسم Seaborn استفاده کنید.
# Load an example dataset
tips = sns.load_dataset(“tips”)
کتابخانه Seaborn در پایتون
اکثر کدها در اسناد از عملکرد load_dataset () برای دسترسی سریع به یک نمونه داده استفاده می کنند.
هیچ چیز خاصی در این مجموعه های داده وجود ندارد: آنها فقط فریم های داده pandas هستند و ما می توانستیم آنها را با pandas.read_csv () بارگیری کنیم یا فراخوانی کنیم.
بیشتر نمونه های موجود در اسناد ، داده ها را با استفاده از فریم داده های pandas مشخص می کند ، اما seaborn در مورد ساختار داده هایی که می پذیرد بسیار انعطاف پذیر است.
# Create a visualization
sns.relplot(
data=tips,
x=”total_bill”, y=”tip”, col=”time”,
hue=”smoker”, style=”smoker”, size=”size”,
)
این نمودار رابطه بین پنج متغیر را در مجموعه داده نکات با استفاده از یک تماس منفرد با تابع seaborn (اتصال مجدد) نشان می دهد. توجه کنید که چگونه ما فقط نام متغیرها و نقش آنها را در طرح ارائه می دهیم.
برخلاف هنگام استفاده مستقیم از matplotlib ، لازم نبود مشخصات عناصر طرح را از نظر مقادیر رنگ یا کدهای نشانگر مشخص کنید.
در پشت صحنه ، seaborn ترجمه از مقادیر موجود در داده داده را به استدلالی که matplotlib درک می کند ، انجام می داد. این روش اعلانی به شما اجازه می دهد تا تمرکز خود را بر روی سوالاتی که می خواهید به آنها پاسخ دهید ، به جای جزئیات نحوه کنترل matplotlib ، حفظ کنید.
انتزاع API در سراسر تجسم ( API abstraction across visualizations )
سوالات مختلف با طرح های مختلف بهتر پاسخ داده می شوند. Seaborn با استفاده از یک API مجموعه داده گرا سازگار ، جابجایی بین نمایش های تصویری مختلف را آسان می کند
تابع relplot () به این ترتیب نامگذاری شده است زیرا برای تجسم روابط آماری مختلف طراحی شده است.
در حالی که نمودارهای پراکندگی اغلب موثر هستند ، روابطی که یک متغیر نشانگر اندازه گیری زمان است با یک خط بهتر نشان داده می شود.
تابع () relplot یک پارامتر مناسب دارد که به شما امکان می دهد به راحتی به این نمایش جایگزین بروید:
dots = sns.load_dataset(“dots”)
sns.relplot(
data=dots, kind=”line”,
x=”time”, y=”firing_rate”, col=”align”,
hue=”choice”, size=”coherence”, style=”choice”,
facet_kws=dict(sharex=False),
)
توجه داشته باشید که از پارامترهای اندازه و سبک چه در نمودارهای پراکندگی و چه در خطوط استفاده می شود ، اما آنها بر روی دو تصویر متفاوت تأثیر می گذارند: تغییر ناحیه و نماد نشانگر در نمودار پراکندگی در مقابل عرض خط و پرش در نمودار خط. نیازی نبود که این جزئیات را در ذهن داشته باشیم ، به ما اجازه می دهد تا بر ساختار کلی طرح و اطلاعاتی که می خواهیم منتقل کند تمرکز کنیم.
میله های تخمین آماری و خطا ( Statistical estimation and error bars )
غالباً ، ما به مقدار متوسط یک متغیر به عنوان تابعی از متغیرهای دیگر علاقه مند هستیم. بسیاری از توابع seaborn به طور خودکار تخمین آماری را که برای پاسخ به این سوالات لازم است ، انجام می دهد:
fmri = sns.load_dataset(“fmri”)
sns.relplot(
data=fmri, kind=”line”,
x=”timepoint”, y=”signal”, col=”region”,
hue=”event”, style=”event”,
)
خروجی کد بالا :
هنگامی که مقادیر آماری برآورد می شود ، seaborn از bootstrapping برای محاسبه فواصل اطمینان و رسم میله های خطا به نمایندگی از عدم قطعیت برآورد استفاده می کند.
برآورد آماری در seaborn فراتر از آمار توصیفی است.
به عنوان مثال ، می توان با استفاده از یک مدل رگرسیون خطی (و عدم قطعیت آن) با استفاده از lmplot () ، یک پراکندگی را افزایش داد:
sns.lmplot(data=tips, x=”total_bill”, y=”tip”, col=”time”, hue=”smoker”)
خلاصه های توزیعی آموزنده (Informative distributional summaries)
تجزیه و تحلیل آماری نیاز به دانش در مورد توزیع متغیرها در مجموعه داده شما دارد. تقسیم عملکرد seaborn از چندین روش برای تجسم توزیع ها پشتیبانی می کند.
اینها شامل تکنیکهای کلاسیک مانند هیستوگرام و روشهای فشرده محاسباتی مانند برآورد تراکم هسته است:
sns.displot(data=tips, x=”total_bill”, col=”time”, kde=True)
Seaborn همچنین سعی می کند تکنیک های قدرتمند اما کم آشنایی مانند محاسبه و رسم تابع توزیع تجمعی تجربی داده ها را ارتقا دهد:
sns.displot(data=tips, kind=”ecdf”, x=”total_bill”, col=”time”, hue=”smoker”, rug=True)
نمودارهای ویژه برای داده های طبقه بندی شده
چندین نوع طرح تخصصی در Seaborn به سمت تجسم داده های طبقه بندی شده است.
از طریق catplot () می توان به آنها دسترسی داشت. این طرح ها سطوح مختلف دانه بندی را ارائه می دهند.
در بهترین سطح ، ممکن است بخواهید با رسم نمودار “ازدحام” را مشاهده کنید: یک طرح پراکنده که موقعیت نقاط را در امتداد محور دسته بندی تنظیم می کند تا با هم همپوشانی نداشته باشند:
sns.catplot(data=tips, kind=”swarm”, x=”day”, y=”total_bill”, hue=”smoker”)
خروجی کد بالا :
متناوباً ، می توانید از تخمین تراکم هسته برای نشان دادن توزیع اساسی که از آن نقاط نمونه برداری می شود ، استفاده کنید:
sns.catplot(data=tips, kind=”violin”, x=”day”, y=”total_bill”, hue=”smoker”, split=True)
خروجی کد بالا:
یا می توانید فقط مقدار متوسط و فاصله اطمینان آن را در هر دسته تودرتو نشان دهید:
sns.catplot(data=tips, kind=”bar”, x=”day”, y=”total_bill”, hue=”smoker”)
خروجی کد بالا:
نماهای ترکیبی روی مجموعه داده های چند متغیره
برخی از توابع seaborn انواع مختلفی از نمودارها را تركيب می كنند تا به سرعت خلاصه های آموزنده يك مجموعه داده را ارائه دهند.
یک ، Jointplot () ، بر یک رابطه واحد متمرکز است. این توزیع مشترک بین دو متغیر همراه با توزیع حاشیه ای هر متغیر را ترسیم می کند:
penguins = sns.load_dataset(“penguins”)sns.jointplot(data=penguins, x=”flipper_length_mm”, y=”bill_length_mm”, hue=”species”)
خروجی کد بالا:
دیگری ، pairplot () ، دید وسیع تری دارد: توزیع های مشترک و حاشیه ای را به ترتیب برای همه روابط جفتی و برای هر متغیر نشان می دهد:
sns.pairplot(data=penguins, hue=”species”)
خروجی کد بالا:
دوره آموزشی زبان برنامه نویسی پایتون »کلیک کنید» یک برنامه جامع است که بر توسعه سریع نرمافزارهای کاربردی، برنامهنویسی شیگرا و کاربری ماژول و…. با استفاده از ابزار Python تمرکز دارد.
سپاسگذاریم از وقتی که برای خواندن این مقاله گذاشتید
.
برای خرید لایسنس نرم افزار Power BI کلیک کنید
.
برای مشاهده ویدیوهای آموزشی داده کاوی و هوش تجاری ما را در شبکه های اجتماعی دنبال کنید
Youtube Chanel :VISTA Data Mining
Aparat Chanel: VISTA Data Mining
Instagram Chanel: VISTA Data Mining
Telegram Chanel: VISTA Data Mining