همانطور که در این مقاله در مورد چگونگی نصب R و RStudio را خواهید دید ، R برای انواع مختلف محاسبات و تجزیه و تحلیل آماری مفید است. با این وجود ، بدون امکان وارد کردن مجموعه های داده به R. اینقدر قدرتمند و مفید نخواهد بود.
امکان وارد کردن آن به R برای هر کاربر بسیار مهم است.
در این مقاله دو روش مختلف برای وارد کردن یک فایل اکسل ارائه داده ایم:
- از طریق ویرایشگر متن
- به روشی “کاربرپسند”
ما همچنین در مورد مزایای اصلی هر دو روش بحث می کنیم. توجه داشته باشید که:
نحوه وارد کردن یک مجموعه داده اغلب به قالب پرونده (اکسل ، CSV ، متن ، SPSS ، استاتا و غیره) بستگی دارد.
ما در اینجا فقط روی پرونده های اکسل تمرکز می کنیم زیرا رایج ترین نوع پرونده برای یک مجموعه داده است.
چندین روش دیگر برای وارد کردن فایل اکسل وجود دارد ، اما ما دو روش ساده و در عین حال قوی برای وارد کردن چنین پرونده هایی را ارائه می دهیم
بدون توجه به نوع پرونده و نحوه وارد کردن آن ، یک استاندارد طلایی در مورد نحوه ساختار مجموعه داده ها وجود دارد.
ستون ها با متغیرها مطابقت دارند ، ردیف ها با مشاهدات (به معنای وسیع اصطلاح) و هر مقدار باید سلول خاص خود را داشته باشد:
یک فایل اکسل را به یک فایل CSV تبدیل کنید
قبل از پرداختن به وارکردن فایل ، اولین نکته این است که قالب فایل Excel خود را به قالب CSV تغییر دهید.
قالب CSV هنگام کار با مجموعه داده ها و زبان های برنامه نویسی استاندارد است زیرا در مقایسه با اکسل قالب قوی تری دارد.
اگر پرونده شما از قبل در قالب CSV (با پسوند .csv) است ، می توانید از این بخش صرف نظر کنید. اگر فایل در قالب CSV نیست (به عنوان مثال پسوند .xlsx) می توانید با دنبال کردن این مراحل به راحتی آن را به CSV تبدیل کنید:
- پرونده اکسل خود را باز کنید
- روی File> Save as کلیک کنید
- قالب .csv را انتخاب کنید
- روی ذخیره کلیک کنید
بررسی کنید که پرونده شما با پسوند .csv ذخیره شده باشد. در این صورت ، پرونده شما اکنون برای وارد کردن آماده است.
اما ابتدا اجازه دهید هنگام وارد کردن مجموعه های داده به RStudio ، فهرست کار ، یک مفهوم مهم را معرفی کنیم.
دایرکتوری R
اگرچه زبان های برنامه نویسی بسیار قدرتمند هستند ، اما اغلب به کمک ما نیاز دارند و وارد کردن یک مجموعه داده از این قاعده مستثنی نیست.
در واقع ، قبل از وارد کردن داده های خود ، باید به RStudio بگویید که پرونده شما در کجا قرار دارد (بنابراین به RStudio اطلاع دهید که در کدام پوشه به دنبال مجموعه داده خود باشد).
اما قبل از این ، اجازه دهید فهرست کار را معرفی کنیم.
فهرست کار محلی است (در رایانه شما) جایی که RStudio در حال حاضر در آن کار می کند (در واقع RStudio در کل رایانه شما کار نمی کند ؛ در داخل یک پوشه رایانه شما کار می کند).
در مورد این دایرکتوری کاری ، دو عملکرد وجود دارد که ما به آنها نیاز خواهیم داشت:
1. getwd()
(
wd
stands for working directory)
2. setwd()
دایرکتوری کاری را دریافت کنید
در بیشتر موارد ، وقتی RStudio را باز می کنید ، فهرست کار (بنابراین جایی که در حال حاضر کار می کند) متفاوت از مکانی است که مجموعه داده شما قرار دارد.
برای اینکه بدانید دایرکتوری کاری که RStudio در حال حاضر از آن استفاده می کند ، getwd () را اجرا کنید.
در MacOS ، این عملکرد به احتمال زیاد مکانی مانند “/ Users / yourname /” را ارائه می دهد ، در حالی که در Windows به احتمال زیاد “c: / Documents /” را ارائه می دهد.
اگر دایرکتوری کاری متفاوت است نگران نباشید ، مهمترین کار این است که دایرکتوری کاری را به درستی تنظیم کنید (بنابراین در جایی که پرونده شما قرار دارد)
فهرست کار را تنظیم کنید
همانطور که قبلاً ذکر شد ، مجموعه داده شما به احتمال زیاد در مکانی متفاوت از فهرست کاری شما واقع شده است.
بدون هیچ اقدامی از طرف شما ، RStudio هرگز قادر به وارد کردن پرونده شما نخواهد بود زیرا در پوشه صحیح جستجو نمی کند (با خطای زیر در کنسول روبرو خواهید شد: نمی تواند پرونده “data.csv” را باز کند: چنین پرونده یا دایرکتوری وجود ندارد) .
اکنون ، برای تعیین محل صحیح پرونده خود (یعنی برای گفتن به RStudio در کدام پوشه باید به دنبال مجموعه داده شما باشد) ، شما سه گزینه دارید:
- روش کاربر پسند
- از طریق کنسول
- از طریق ویرایشگر متن
1- روش کاربر پسند
برای تنظیم پوشه صحیح ، بنابراین برای تنظیم فهرست کار برابر با پوشه ای که پرونده شما در آن قرار دارد ، این مراحل را دنبال کنید:
- در قسمت سمت راست پایین RStudio ، روی برگه “Files” کلیک کنید
- روی «خانه» در کنار نماد خانه کلیک کنید
- به پوشه ای بروید که مجموعه داده شما در آن قرار دارد
- روی “بیشتر” کلیک کنید
- بر روی “Set As Working Directory” کلیک کنید
تنظیم فهرست کار در RStudio (روش کاربر پسند)
در عوض ، می توانید با کلیک بر روی Session> Set Working Directory> Select Directory the ، فهرست کار را تنظیم کنید.
تنظیم فهرست کار در RStudio (روش کاربر پسند)
همانطور که در کنسول مشاهده می کنید ، هر یک از این دو روش در واقع کد setwd () را با مسیری که به پوشه شما مشخص کرده اید اجرا می کنند.
بنابراین با کلیک بر روی دکمه ها در واقع از RStudio خواسته اید که یک خط کد برای شما بنویسد. این روش این مزیت را دارد که شما نیازی به یادآوری کد ندارید و در نام مسیر پوشه خود اشتباه نخواهید کرد.
نقطه ضعف این است که اگر RStudio را ترک کنید و بعداً دوباره آن را باز کنید ، باید دوباره فهرست کار را مشخص کنید زیرا RStudio اقدامات شما را از طریق دکمه ها ذخیره نکرده است.
2- از طریق کنسول
با اجرای setwd (مسیر / به / پوشه) مستقیماً در کنسول می توانید فهرست کار را مشخص کنید ، مسیر path / to / folder مسیر پوشه حاوی مجموعه داده شماست.
با این حال ، هنگام باز کردن مجدد RStudio ، باید دستور را دوباره اجرا کنید.
3- از طریق ویرایشگر متن
این روش در واقع ترکیبی از دو روش فوق است:
- با دنبال کردن مراحل دقیق مشابه روش کاربر پسند (از طریق دکمه ها) ، فهرست کار را تنظیم کنید
- کد اجرا شده در کنسول را کپی کرده و در ویرایشگر متن (به عنوان مثال ، اسکریپت خود) جای گذاری کنید
ما این روش را به چند دلیل توصیه می کنیم.
- نیازی به یادآوری تابع setwd () نیست.
- در مسیر پوشه خود غلط نویسی نخواهید کرد (مسیری که اگر پوشه هایی در داخل پوشه ها داشته باشید ، ممکن است گاهی طولانی شود).
- هنگام ذخیره اسکریپت خود (که تصور می کنم در غیر این صورت تمام کار خود را از دست خواهید داد) ، اقداماتی را که از طریق دکمه ها انجام داده اید نیز ذخیره می کنید.
بنابراین وقتی اسکریپت خود را در آینده مجدداً باز می کنید ، فارغ از اینکه این پوشه فعلی چه باشد ، با اجرای اسکریپت خود (که اکنون شامل خط کد برای تنظیم دایرکتوری کار می شود) ، همزمان دایرکتوری کاری را که برای آن انتخاب کرده اید مشخص می شود.
مجموعه داده خود را وارد کنید
اکنون که فایل اکسل خود را به یک فایل CSV تبدیل کرده و پوشه حاوی داده های خود را با تنظیم فهرست کار مشخص کرده اید ، اکنون آماده وارد کردن مجموعه داده خود هستید.
یادآوری کنید که برای وارد کردن فایل دو روش وجود دارد:
- به روشی کاربر پسند
- از طریق ویرایشگر متن
مهم نیست که کدام روش را انتخاب کنید ، این یک روش خوب است که ابتدا فایل خود را در در (مک) TextEdit یا Notepad (در ویندوز) باز کنید تا داده های خام را ببینید. اگر پرونده را در Excel باز کنید.
داده های از قبل قالب شده را مشاهده خواهید کرد و بنابراین برخی از اطلاعات مهم مورد نیاز برای وارد کردن را از دست می دهید.
برای وارد کردن صحیح مجموعه داده ما باید چند مورد را جستجو کنیم:
- آیا نام متغیرها وجود دارد؟
- مقادیر چگونه تفکیک می شوند؟ ویرگول ، نقطه ویرگول ، فضای خالی ، برگه؟
- آیا اعشار یک نقطه است یا ویرگول؟
- چگونه مقادیر گمشده مشخص شده است؟ سلولهای خالی ، NA ، تهی ، O ، دیگر؟
راه کاربر پسند
به سادگی بر روی پرونده> وارد کردن مجموعه داده click کلیک کنید
پنجره ای که به نظر می رسد مانند این باز می شود:
از این پنجره ، می توانید پیش نمایش داده های خود را داشته باشید و مهمتر از همه ، بررسی کنید که آیا داده های شما به درستی وارد شده اند.
اگر داده های شما به درستی وارد شده است ، می توانید بر روی “Import” کلیک کنید.
اگر اینگونه نیست ، می توانید گزینه های وارد کردن را در پایین پنجره (زیر پیش نمایش داده) مربوط به اطلاعاتی که هنگام مشاهده داده های خام جمع آوری کرده اید ، تغییر دهید.
در زیر ، گزینه های وارد کردن اطلاعات که به احتمال زیاد استفاده خواهید کرد:
- Name: نام مجموعه داده خود را تنظیم کنید (پیش فرض نام پرونده است).
از کاراکترهای خاص و نام های طولانی خودداری کنید (زیرا باید چندین بار نام مجموعه داده خود را تایپ کنید).
ما عموماً مجموعه داده های خود را با یک نام عمومی مانند “dat” تغییر نام می دهیم ، دیگران از “df” (برای dataframe) ، “data” یا حتی “my_data” استفاده می کنند.
اگر برای مثال از داده های مسابقات تنیس استفاده می کنید ، می توانید از نام های واضح تری مانند “tennis_data” استفاده کنید.
با این حال ، اشکال اصلی در استفاده از نام های خاص برای مجموعه داده ها این است که اگر ، برای مثال ، می خواهید از کدی که ایجاد کرده اید در هنگام تجزیه و تحلیل داده های تنیس در مجموعه های داده دیگر استفاده کنید ، باید کد خود را با جایگزینی همه موارد “tennis_data” توسط نام مجموعه داده جدید شما
- پرش: تعداد ردیف های بالایی را که می خواهید رد کنید مشخص کنید (پیش فرض 0 است). بیشتر اوقات ، 0 خوب است.
با این حال ، اگر پرونده شما شامل تعدادی ردیف خالی در بالا (یا اطلاعاتی که می خواهید از آنها صرف نظر کنید) شود ، تعداد ردیف ها را برای جستجوی تنظیم کنید
ردیف اول به عنوان نام: مشخص کنید که آیا نام متغیرها وجود دارد یا نه (پیش فرض وجود نام متغیرها است)
- Delimiter: نویسه ای که مقادیر را جدا می کند. از داده های خام ما در بالا ، می بینید که جدا کننده یک ویرگول است (“،”). اگر مقادیر شما با “؛” جدا شده است ، آن را به نقطه ویرگول تغییر دهید.
برنامه نویسی R
- NA: نحوه تعیین مقادیر از دست رفته (پیش فرض سلولهای خالی است). از داده های خام ما در بالا ، می بینید که مقادیر از دست رفته به سادگی سلول های خالی هستند .
بنابراین NA را به عنوان پیش فرض بگذارید یا آنها را به “خالی” تغییر دهید.
اگر مقادیر از دست رفته در داده های خام شما به صورت “NA” یا “0” کدگذاری می شوند ، این گزینه را تغییر دهید (نکته: مقادیر از دست رفته خود را به عنوان “0” کد نکنید ، در غیر این صورت نمی توانید مقادیر صفر واقعی و مقادیر از دست رفته را تشخیص دهید) )
پس از تغییر گزینه های واردات مربوط به داده های خود ، روی “Import” کلیک کنید.
اکنون باید مجموعه داده خود را در یک پنجره جدید مشاهده کنید و از آنجا می توانید تجزیه و تحلیل داده های خود را شروع کنید.
این روش کاربر پسند این مزیت را دارد که شما نیازی به یادآوری کد ندارید (برای کل کد ، به قسمت بعدی مراجعه کنید).
با این حال ، اشکال اصلی این است که گزینه های واردات شما برای استفاده های بعدی ذخیره نمی شود ، بنابراین شما باید هر بار که RStudio را باز می کنید مجموعه داده خود را به صورت دستی وارد کنید.
از طریق ویرایشگر متن
به طور مشابه با تنظیم پوشه کار ، من نیز توصیه می کنم از ویرایشگر متن به جای روش کاربر پسند استفاده کنید به این دلیل ساده که می توانید هنگام استفاده از ویرایشگر متن (و نه هنگام استفاده از روش کاربر پسند) گزینه های وارکردن اطلاعات خود را ذخیره کنید.
ذخیره گزینه های وارکردن اطلاعات در اسکریپت (به لطف یک خط کد) به شما امکان می دهد به سرعت و به همان روش مجموعه داده خود را بدون نیاز به تکرار تمام مراحل لازم در هر بار وارد کردن مجموعه داده خود ، وارد کنید.
دستور وارد کردن یک فایل CSV read.csv () (یا read.csv2 () است که معادل است اما با سایر گزینه های واردات پیش فرض).
در اینجا مثالی با همان پرونده وجود دارد نسبت به روش کاربر پسند:
dat <- read.csv(
file = “data.csv”,
header = TRUE,
sep = “,”,
dec = “.”
)
How to import Excel file in R
پس از وارد کردن ، می توانید بررسی کنید که آیا داده های خود را با اجرای View (dat) که dat نامی است که برای داده های خود انتخاب کرده اید ، به درستی وارد کرده اید.
پنجره ای مشابه روش کاربر پسند ، داده های شما را نمایش می دهد.
همچنین می توانید head (dat) را برای دیدن 6 ردیف اول اجرا کرده و بررسی کنید که با فایل Excel شما مطابقت دارد.
اگر مشکلی هست ، گزینه های وارکردن را ویرایش کنید و دوباره بررسی کنید.
اگر مجموعه داده شما به درستی وارد شده است ، اکنون می توانید تجزیه و تحلیل داده های خود را شروع کنید.
مزیت وارد کردن مجموعه داده خود به طور مستقیم از طریق کد موجود در ویرایشگر متن این است که گزینه های واردات شما برای استفاده های بعدی ذخیره می شود و از وارد کردن دستی هربار باز کردن اسکریپت جلوگیری می کند.
با این وجود ، باید تابع read.csv () را به خاطر بسپارید (نه آرگومان ها ، زیرا همیشه می توانید آنها را در مستندات راهنما بررسی کنید).
دوره آموزشی زبان برنامه نویسی R »کلیک کنید» یک برنامه جامع است که بر توسعه محاسبات آماری و علم دادهها ، ایجاد اشکال گرافیکی و نمودارها و تحلیل سریهای زمانی، رگرسیون خطی و…. با استفاده از ابزار R تمرکز دارد.
سپاسگذاریم از وقتی که برای خواندن این مقاله گذاشتید
.
برای خرید لایسنس تبلو Tableau کلیک کنید
.
برای مشاهده ویدیوهای آموزشی داده کاوی و هوش تجاری ما را در شبکه های اجتماعی دنبال کنید
Youtube Chanel :VISTA Data Mining
Aparat Chanel: VISTA Data Mining
Instagram Chanel: VISTA Data Mining
Telegram Chanel: VISTA Data Mining
Linkedin Chanel: VISTA Company