데이터분석을 위한 가장 첫 단계는 데이터(이하 데이터셋)를 불러오는 것입니다.
학부생 수준에서의 데이터 분석을 위한 데이터셋은 대부분 Excel 혹은 csv파일입니다. Excel 파일의 확장자는 .xlsx이고 csv 파일의 확장자는 .csv입니다. 기억해두면 좋습니다.
이번 글에서는 다음과 같은 분들을 대상으로 파이썬에서 csv 파일 불러오는 법에 대해 최대한 자세히 설명하도록 하겠습니다.
1. 파이썬을 처음 사용해보시는 분
2. 파이썬에서 판다스 라이브러리를 사용해 본 적이 없으신 분
3. 추가로 Kaggle을 사용해 본적이 없으신 분은 목차의 0번까지만 읽어주시면 좋습니다.
1번과 2번에 해당하지 않는다면, 이 글을 읽으실 필요 없습니다. 어서 뒤로가기 버튼을 누르세요.
목차
0. Kaggle에서 csv 파일 다운로드 받기
1. 구글 코랩 사용 시
1.1. 구글 코랩 노트북 실행하기
1.2. 판다스 라이브러리 불러오기
1.3. 구글 코랩에서 csv 파일 읽어오기
2. vscode 사용 시(혹은 다른 ide도 포함)
2.1. 판다스 라이브러리 설치 확인 (+설치 과정)
2.2. csv 파일 읽어오기
3. 기본적인 데이터셋 정보 확인하는 법
0. Kaggle에서 csv 파일 다운로드 받기
Kaggle이란??
: 데이터 분석과 머신러닝을 위한 플랫폼(그냥 사이트라고 생각하면 쉬움)입니다.
원하는 데이터셋을 찾아서 무료로 다운로드 가능합니다.
Kaggle에서 가장 유명한 데이터셋인 Titanic 데이터셋을 다운로드 받아 볼 겁니다.
Kaggle에서 데이터셋 파일을 다운로드 받으려면 계정을 만들어 로그인을 해야 하는데, 계정이 없으신 분은 회원가입을 하기를 권장드립니다. 회원가입까지 완료했다고 가정하고, 설명을 이어가겠습니다.
밑의 링크는 Kaggle에서 제공하는 Titanic 데이터 분석 대회의 링크입니다. 다음 페이지에 올라와있는 train 파일과 test 파일을 다운로드 받아주시면 됩니다.
https://www.kaggle.com/competitions/titanic/data
Titanic | Novice
Kaggle profile for Titanic
www.kaggle.com
다음 링크에서 페이지를 밑으로 내리시면 밑의 사진과 같은 화면이 뜹니다.
오른쪽 부분에서 test.csv 파일과 train.csv 파일 다운로드 받아주시면 됩니다. 표시된 아이콘을 눌러주면 해당 파일을 다운로드 받을 수 있도록 아래와 같은 화면이 뜰 것입니다. gender_submission.csv의 경우에는 이번 수업 시간에 다룰 내용이 아니기에 무시해주시면 됩니다.
1. 구글 코랩 사용 시
1.1. 구글 코랩 노트북 실행하기
Google Colab 환경에서 코딩을 할 경우, 그냥 구글 검색창에 Google Colab 검색하여 들어가면 바로 본인 구글 계정으로 코랩 페이지에 들어갈 수 있습니다.
들어가면 다음과 같은 화면이 보이실 겁니다.
하단의 파란색 '새 노트'를 클릭해주시면 됩니다.
1.2. 판다스 라이브러리 불러오기
Pandas 라이브러리란?
: csv 형태의 데이터를 쉽게 다룰 수 있도록 도와주는 기능을 제공하는 라이브러리입니다.
구글 코랩의 경우 이 Pandas 라이브러리가 기본적으로 설치되어 있습니다. 단순히 이 라이브러리를 불러주기만 하면 됩니다. 위에서 연 '새 노트'에 다음과 같은 코드를 입력해 줍니다.
import pandas as pd
코드 입력 후 왼쪽의 실행 버튼을 누르거나 Shift+Enter를 입력하면 코드가 실행됩니다.
1.3. 구글 코랩에서 csv 파일 불러오기
이제 불러온 Pandas 라이브러리를 통해, 0번에서 다운로드한 csv 파일을 불러오는 과정입니다.
구글 코랩의 경우 컴퓨터에 저장되어 있는 csv 파일을 다시 해당 페이지에서 파일로 업로드해줘야 합니다. 어렵지 않으니, 아래 사진을 보고 따라하시면 됩니다.
성공적으로 완료한 경우 업로드된 파일을 오른쪽에서 확인할 수 있습니다. (제 경우에는 파일 이름이 test (1).csv입니다.)
같은 방법으로 train.csv 파일도 업로드해주면 됩니다.
파일을 업로드해 주었다면 코드블록에 다음과 같은 코드를 써줍니다.
train.csv를 df_train이라는 이름으로, test.csv는 df_test라는 이름으로 불러오는 코드입니다.
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')
2. vscode 사용 시(혹은 다른 ide도 포함)
2.1. 판다스 라이브러리 설치 확인 (+설치 과정)
구글 코랩이 아닌 다른 ide에서 코딩을 하시는 경우 Pandas 라이브러리가 설치되어 있어야 라이브러리를 불러올 수 있습니다. 위에서 판다스 라이브러리를 불러올 때 쓴 코드와 동일한 코드를 입력해주면 됩니다.
import pandas as pd
오류가 발생한다면 Pandas 라이브러리가 설치되지 않은 상태입니다.
판다스 라이브러리의 설치에 대한 내용은 따로 인터넷 검색 등을 통하여 하시길 권유드리며(사실 제가 정확히 잘 모름), 가장 간단한 방법은 터미털에서 다음 코드를 작성해주는 것입니다.
pip install pandas
2.2. csv 파일 불러오기
구글 코랩을 사용하였을 때와 동일한 코드로 csv 파일을 불러와 주시면 됩니다.
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')
그런데 위의 코드를 실행하였을 때 FileNotFoundError가 뜨는 경우가 있습니다. 이 경우 대부분은 해당 작업 디랙토리와 csv 파일이 저장된 위치가 달라서 발생하는 에러입니다. 아래와 같은 에러 메세지가 뜨는 경우입니다.
FileNotFoundError: [Errno 2] No such file or directory: 'train.csv'
이러한 경우의 가장 쉬운 해결 방법을 알려드리겠습니다. 컴퓨터에서 저장된 csv 파일을 찾아 우클릭하여 '경로 복사'를 클릭합니다. 경로 복사를 통해 파일이 있는 경로 그 자체를 복사하여, 코드에 써주시면 됩니다.
df_train = pd.read_csv("C:\Users\UserPC\OneDrive\train.csv")
df_test = pd.read_csv("C:\Users\UserPC\OneDrive\test.csv")
그런데, 위와 같은 코드도 에러가 발생할 것입니다. 여기서 BackSlash 기호인 \를 모두 Slash 기호인 / 로 바꾸어 주어야 파일을 정상적으로 읽어들일 수 있습니다. 최종 코드는 다음과 같습니다.
df_train = pd.read_csv("C:/Users/UserPC/OneDrive/train.csv")
df_test = pd.read_csv("C:/Users/UserPC/OneDrive/test.csv")
3. 기본적인 데이터셋 정보 확인하는 법
위의 과정을 통해 Pandas 라이브러리로 csv 파일을 성공적으로 불러왔다고 가정하고, 불러온 데이터셋의 기본적인 정보들을 파악해 보겠습니다. Pandas 라이브러리는 데이터셋의 정보를 알려주는 기본 함수들을 제공합니다. 이 중 df.info()와 df.head()에 대해서만 간단히 설명하겠습니다.
df.info()
df.info()의 경우 df의 기본적인 정보들을 알려주는 함수입니다. 각 변수의 데이터 타입과 결측치 개수를 파악할 수 있습니다. 아래 사진과 같이 각 column별로 non-null 개수와, column에 들어있는 데이터의 Dtype을 알려줍니다. 위의 891 entries 부분을 통해 몇 개의 데이터가 있는지도 알 수 있습니다.
위에서 train.csv 데이터셋을 df_train라는 이름으로 저장한 것을 기억하시나요? df_train.info()로 코드를 적어줘야, df_train에 대한 정보들을 확인할 수 있습니다.
df.head()
df.head(n)의 경우 df의 첫 n번째 데이터들을 보여줍니다. n에 아무런 값을 지정하지 않는다면 기본적으로 첫 5개 행을 보여줍니다. 데이터 전처리 및 EDA 등의 과정에서 가장 많이 쓰이는 함수이니 기억해 두세요. 수시로 head()를 호출하여 데이터셋의 형태를 파악하는 것이 중요합니다.
지금까지 csv 파일 불러오기에 대한 가장 기초적인 부분들을 설명해 보았습니다. 추가로 분석해야 할 데이터셋이 엑셀 파일인 경우 확장자를 .xlsx로 설정하여 df = pd.read_excel('파일명.xlsx')로 읽어오시면 됩니다.
도움이 되었다면 좋겠습니다!!
'공부 자료' 카테고리의 다른 글
[공부자료] Geopandas 라이브러리 처음 써보기 (0) | 2025.04.19 |
---|