1. 선형 회귀 모델
1.1 선형 회귀의 의미
1️⃣ 주어진 Training Data → 2️⃣ 특징 변수(x)와 목표변수(t) 간 선형 관계 분석
→ 3️⃣ 이를 기반으로 모델 학습 → 4️⃣ 새로운 입력 데이터(Training Data X)의 결과 예측(연속적인 수치로)
1.2 트레이닝 데이터
-
kaggle에서 Dataset 다운로드
!kaggle datasets download -d abhishek14398/salary-dataset-simple-linear-regression -
다운로드 파일 압축 해제
unzip salary-dataset-simple-linear-regression.zip -
트레이닝 데이터 불러오기
data = pd.read_csv("Salary_dataset.csv", sep = ',', header = 0)sep : .csv 파일의 각 열을 구분하는 구분자
header = 0 : ‘csv 파일의 첫 줄을 열 이름으로 사용하겠다.’
-
트레이닝 데이터의 특징변수, 목표변수 분리
x = data.iloc[:, 1].valuest = data.iloc[:, 2].valuesvalues : 선택한 DataFrame 값을 Numpy 형식으로 반환
1.3 상관 관계 분석
- 두 변수 간 선형 관계 파악
- 해당 관계가 양의 관계인지 파악
-
높은 상관관계를 가지는 특징 변수들이 무엇인지 파악
⇒ 다중 선형 회귀 모델에서는 특징 변수 중 필요하지 않은 Data 제거
-
(특징 변수, 목표 변수 간) 상관관계 분석
np.corrcoef(x, t)corrcoef : correlation coefficient ⇒ 값이 1에 가까울 록 관계성 높음
chat_bubble 댓글남기기
댓글남기기