# 데이터 과학을 위한 파이썬 머신러닝 : 2. 데이터의 이해

- Author: @laetipark
- Published: 2022-05-21
- Updated: 2022-08-24
- Source: http://blex.me/@laetipark/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EA%B3%BC%ED%95%99%EC%9D%84-%EC%9C%84%ED%95%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-2-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%9D%B4%ED%95%B4
- Tags: 파이썬, 머신러닝, 데이터과학, 한빛아카데미

---

### 피쳐(Feature)
- 피쳐(feature) : '특징', 모델에서 주어지는 데이터, 데이터 테이블 상에서 속성에 해당한다.

> ![](https://static.blex.me/images/content/2022/5/21/202252122_FadozGX919FUDC9x1PAN.jpg)
> - y값 : 종속변수 또는 목적변수
> - x값 : 독립변수, 피쳐로 종속변수 y에 영향을 줌.  
주어진 데이터 x와 알고리즘을 통해 a와 b의 최적값을 찾아, 예측값 y를 구함.

> ![](https://static.blex.me/images/content/2022/5/21/202252122_DR2Eh0mUlogkSs1Cngdp.jpg)  
> 서로 다른 독립변수 13개를 xn으로 하고 가중치 wn을 선형 결합하여 나타냄.  
머신러닝에서는 가중치를 의미하는 w를 사용한다.
> - 데이터 테이블 : 판다스를 이용한 테이블 형태의 데이터 집합
> - 데이터 인스턴스 : 객체에 대한 모든 피쳐를 모아 놓은 데이터 전체, 데이터베이스에서 튜플(tuple)
> - 차원의 저주(Curse of Dimensionality) : 차원이 늘어날수록, 피쳐의 개수가 증가할수록 데이터를 표현해야하는 공간이 늘어나 데이터 처리가 어려움. 희박한 벡터로 인해 모델에 대한 정확도를 떨어뜨리거나 데이터 처리 속도와 메모리 공간 문제가 발생

### 피쳐의 종류
- 연속형 데이터(Continuous Data) : 연속된 값
- 이산형 데이터(Discreate Data) : 연속적인 값이 아닌 분리해서 표현하는 데이터, 라벨로 구분 가능
- 연속형 데이터와 이산형 데이터 차이 : 숫자의 의미가 scale이 있는가 없는가

> **예시**  
> 이산형 데이터 : 만족도 여부 5점 척도, 1점과 2점 간에 스케일이 존재하지 않음  
> 연속형 데이터 : 차량의 속도 20km/40km/60km

### 이산형 데이터의 분류 
1) 숫자형 데이터 : 정수나 실수 값으로 정략적으로 측정 가능한 데이터 타입, 단위가 있으면 등간척도형, 데이터와 비율이 있으면 비율척도형
2) 명목형 데이터 : 카테고리로 분류가 가능한 데이터 타입, 두 개의 카테고리로 분류되면 이진형 데이터 타입
3) 서수형 데이터 : 1학년/2학년/3학년, 소/중/대와 같이 순서가 있는 범주형 데이터 일종의 데이터 타입

### 데이터를 모델에 적용할 때 고려사항
데이터의 성질이나 존재 하지 않거나 잘못된 데이터들을 고려해서 머신러닝 모델을 만들어야 한다.

---
### 연습문제  
[데이터 과학을 위한 파이썬 머신러닝 2장 연습문제 풀이](https://blex.me/@Laeti-Park/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EA%B3%BC%ED%95%99%EC%9D%84-%EC%9C%84%ED%95%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-2%EC%9E%A5-%EC%97%B0%EC%8A%B5%EB%AC%B8%EC%A0%9C-%ED%92%80%EC%9D%B4)

### 참고문헌
최성철, 『데이터 과학을 위한 파이썬 머신러닝』, 초판, 한빛아카데미, 2022
