1. 데이터 프레임 이해하기
데이터 프레임이란?
데이터를 다룰 때는 가장 많이 사용되는 데이터 형태
행과 열로 구성된 사각형 모양의 표처럼 생김
'열'은 속성이다.
- 컬럼 or 변수라고 부른다.
'행'은 한 사람의 정보다.
- row 또는 case라고 불림
데이터가 크다는 것은 행이 많다 또는 열이 많다는 뜻이다.
- 심도있는 분석을 위해서라면 열이 많은 것이 더 중요하다.
why? 행은 아무리 늘어나도 분석하는 방식에는 큰 차이가 없다.
열이 늘어난다면 속성별로 관계를 분석하는 것이 늘어날 수 있기 때문이다. => 다양해짐
2. 데이터 프레임 만들기
- 데이터를 입력해 데이터 프레임 만들기
import pandas as pd
df = pd.DataFrame({'name': ['김지훈','이유진','박동현','김민지'],
'english': [90,80,60,70],
'math': [50,60,100,20]})
df

- 데이터 프레임으로 분석하기
특정 변수의 값 출력하기
df['english']
0 90
1 80
2 60
3 70
Name: english, dtype: int64
변수의 값으로 합계 구하기
sum(df['english'])
300
변수의 값으로 평균구하기
sum(df['english'])/len(df['english'])
75.0
3. 외부데이터 이용하기
엑셀 파일 불러오기
import pandas as pd
df_exam = pd.read_excel("C:/Users/anjiyoung/Documents/excel_exam.xlsx")
print(df_exam)

분석하기
sum(df_exam['english'])/20
84.9

# 엑셀 파일의 첫 번째 행이 변수명이 아니라면?
df_exam_novar = pd.read_excel("C:/Users/anjiyoung/Documents/excel_exam_novar.xlsx", header = None)
df_exam_novar

# 엑셀 파일에 시트가 여러 개 있다면?
#sheet2 시트의 데이터 불러오기
df_exam = pd.read_excel('excel_exam.xlsx', sheet_name = 'sheet2')
#세 번째 시트의 데이터 불러오기
df_exam = pd.read_excel('excel_exam.xlsx', sheet_name = 2)
(숫자를 0부터 센다는 점 유의)
csv파일 불러오기
import pandas as pd
df_csv_exam = pd.read_csv("C:/Users/anjiyoung/Documents/exam.csv")
df_csv_exam

#데이터 프레임을 csv파일로 저장하기
#1. 데이터 프레임 만들기
df_midterm = pd.DataFrame({'english': [90,80,60,70],
'math': [50,60,100,20],
'nclass': [1,1,2,2]})
df_midterm

#csv파일로 저장하기, 인덱스 번호 제외하고 저장
df_midterm.to_csv('output_newdata.csv', index = False)
'성동1기 전Z전능 데이터 분석가 과정' 카테고리의 다른 글
| [성동1기 전Z전능 데이터 분석가] 37일차 python 프로젝트(통계분석) (0) | 2023.12.05 |
|---|---|
| [성동1기 전Z전능 데이터 분석가] 33일차 python 데이터 분석 기초 (0) | 2023.11.29 |
| [성동1기 전Z전능 데이터 분석가] 32일차 python 기초 - 함수, 패키지 (0) | 2023.11.28 |
| [성동1기 전Z전능 데이터 분석가] 31일차 python 기초 - 제어문 (0) | 2023.11.27 |
| [성동1기 전Z전능 데이터 분석가] 30일차 python 기초 - 자료형 (0) | 2023.11.24 |