1 통계학과 컴퓨터과학과의 차이
2 데이터
1) 데이터유형
- 수치형 : 의미있는 숫자의 구성
* 연속형
* 이산형(discrete) : 정수값만 취하는 경우
- 범주형(catergorical)
* 순서형(ordinal) :
* 명목형
2) 데이터 관련 용어
- 데이터프레임 : 테이블형태의 데이터
- 피처(feature) : 테이블의 각 열, 예측변수, 독립변수
- 레코드(record) : 데이블의 각행, 관측치, 사건등
3 데이터의 추정
1) 위치추정
- 평균
- 절사평균 : 최고점과 최저점을 제외한 점수의 평균
- 가중평균 : 사용자가 지정한 가중치를 곱한값들의 총합을 다시 가중치의 평균으로 나눈값
- 중간값(중앙값, 중위수) : 특이점에 민감하지 않은 통계량
* 로버스트한 통계량
- 특이값 : 극단적인 값을 가지는 데이터
- 로버스트하다(robust)
* 이상치/에러값으로부터 영향을 크게 받지 않는 (건장한) 통계량
* 이상치에 대한 저항도를 가지고, 데이터의 특성을 잘 나타내는 상태
* 로버스트 회귀분석
2) 변이추정 : 데이터의 변동을 나타내는 수치
- 분산과 편차
* 분산
* 표준편차
* 평균절대편차
- 백분위수
4 데이터의 표시
1) 박스플롯
- 장점
* 통계를 낼때 평균이나 표준편자를 사용하는데, 데이터가 이상치(outlier)가 있으면 왜곡될 가능성이 있다.
* 이상치의 유무를 확인하기 위해 박스플롯을 활용할 수 있다.
* 5가 요소에 대해 직관적인 이해를 할 수 있다.
- 구성
* 중위값(2사분위)
* 1분위
* 3분위
* 꼬리 : 상자길이의 1.5배 떨어진지점
* 이상점(특이점, 아웃라이어) : 꼬리 밖의 데이터 특이한 분포 데이터
* 극단점 : 이상치중에서도 유난히 높은 특이한 데이터
2) 상관관계
- 산점도 : 두 연속형 변수의 관계를 시각화 하는 기본적인 방법
- 상관계수
* 상관계수는 -1과 1사이의 값을 나타내며 상관계수의 절대값이 1에 가까울수록 두 변수들이 강한 직선관계가 있음을 의미한다.
* 상관의 기준은 없으나 0.5 이상은 관련이 있음. 0.8 이상은 강한 상관이 있음을 의미한다.
'컴퓨터공학 > 통계학' 카테고리의 다른 글
표준편차와 표준오차 (0) | 2022.12.07 |
---|---|
통계학 용어 정리 (0) | 2022.11.28 |
통계학_표본과 분포 (0) | 2022.11.22 |