본문 바로가기

성동1기 전Z전능 데이터 분석가 과정

[성동1기 전Z전능 데이터 분석가] 32일차 python 데이터 프레임

728x90

1. 데이터 프레임 이해하기

 

데이터 프레임이란?

데이터를 다룰 때는 가장 많이 사용되는 데이터 형태

행과 열로 구성된 사각형 모양의 표처럼 생김

'열'은 속성이다.

- 컬럼 or 변수라고 부른다.

'행'은 한 사람의 정보다.

- row 또는 case라고 불림

데이터가 크다는 것은 행이 많다 또는 열이 많다는 뜻이다.

- 심도있는 분석을 위해서라면 열이 많은 것이 더 중요하다.

why? 행은 아무리 늘어나도 분석하는 방식에는 큰 차이가 없다. 

열이 늘어난다면 속성별로 관계를 분석하는 것이 늘어날 수 있기 때문이다. => 다양해짐

 

2. 데이터 프레임 만들기

  • 데이터를 입력해 데이터 프레임 만들기

import pandas as pd
df = pd.DataFrame({'name': ['김지훈','이유진','박동현','김민지'],
                   'english': [90,80,60,70],
                   'math': [50,60,100,20]})
df

  • 데이터 프레임으로 분석하기

특정 변수의 값 출력하기

df['english']

0    90
1    80
2    60
3    70
Name: english, dtype: int64

변수의 값으로 합계 구하기

sum(df['english'])

 

300

변수의 값으로 평균구하기

sum(df['english'])/len(df['english'])

75.0

 

3. 외부데이터 이용하기

엑셀 파일 불러오기

import pandas as pd
df_exam = pd.read_excel("C:/Users/anjiyoung/Documents/excel_exam.xlsx")
print(df_exam)

 

분석하기

 

sum(df_exam['english'])/20

84.9

len을 이용해 평균구하기

 

 

# 엑셀 파일의 첫 번째 행이 변수명이 아니라면?
df_exam_novar = pd.read_excel("C:/Users/anjiyoung/Documents/excel_exam_novar.xlsx", header = None)
df_exam_novar

 

# 엑셀 파일에 시트가 여러 개 있다면?

#sheet2 시트의 데이터 불러오기

df_exam = pd.read_excel('excel_exam.xlsx', sheet_name = 'sheet2')

#세 번째 시트의 데이터 불러오기

df_exam = pd.read_excel('excel_exam.xlsx', sheet_name = 2)

(숫자를 0부터 센다는 점 유의)

 

csv파일 불러오기

import pandas as pd
df_csv_exam = pd.read_csv("C:/Users/anjiyoung/Documents/exam.csv")
df_csv_exam

 

#데이터 프레임을 csv파일로 저장하기
#1. 데이터 프레임 만들기
df_midterm = pd.DataFrame({'english': [90,80,60,70],
                           'math': [50,60,100,20],
                           'nclass': [1,1,2,2]})
df_midterm

 

#csv파일로 저장하기, 인덱스 번호 제외하고 저장
df_midterm.to_csv('output_newdata.csv', index = False)