본문 바로가기
컴퓨터공학/통계학

통계와 데이터

by the artisan 2022. 11. 14.
반응형

1 통계학과 컴퓨터과학과의 차이

2 데이터
 1) 데이터유형
   - 수치형 : 의미있는 숫자의 구성
     * 연속형
     * 이산형(discrete) : 정수값만 취하는 경우
   - 범주형(catergorical)
     * 순서형(ordinal) : 
     * 명목형
 2) 데이터 관련 용어
   - 데이터프레임 : 테이블형태의 데이터
   - 피처(feature) : 테이블의 각 열, 예측변수, 독립변수
   - 레코드(record) : 데이블의 각행, 관측치, 사건등

3 데이터의 추정
 1) 위치추정
   - 평균
   - 절사평균 : 최고점과 최저점을 제외한 점수의 평균
   - 가중평균 : 사용자가 지정한 가중치를 곱한값들의 총합을 다시 가중치의 평균으로 나눈값
   - 중간값(중앙값, 중위수) : 특이점에 민감하지 않은 통계량
     * 로버스트한 통계량
   - 특이값 : 극단적인 값을 가지는 데이터
   - 로버스트하다(robust)
     * 이상치/에러값으로부터 영향을 크게 받지 않는 (건장한) 통계량
     * 이상치에 대한 저항도를 가지고, 데이터의 특성을 잘 나타내는 상태
     * 로버스트 회귀분석

 2) 변이추정 : 데이터의 변동을 나타내는 수치
   - 분산과 편차
    * 분산
    * 표준편차
    * 평균절대편차
   - 백분위수

4 데이터의 표시
 1) 박스플롯
  - 장점
     * 통계를 낼때 평균이나 표준편자를 사용하는데, 데이터가 이상치(outlier)가 있으면 왜곡될 가능성이 있다.
     * 이상치의 유무를 확인하기 위해 박스플롯을 활용할 수 있다.
     * 5가 요소에 대해 직관적인 이해를 할 수 있다.
  - 구성
    *  중위값(2사분위)
    *   1분위
    *   3분위
    *   꼬리 : 상자길이의 1.5배 떨어진지점
    *   이상점(특이점, 아웃라이어) : 꼬리 밖의 데이터 특이한 분포 데이터
    *   극단점 : 이상치중에서도 유난히 높은 특이한 데이터

 2) 상관관계
   - 산점도 : 두 연속형 변수의 관계를 시각화 하는 기본적인 방법
   - 상관계수
     *  상관계수는 -1과 1사이의 값을 나타내며 상관계수의 절대값이 1에 가까울수록 두 변수들이 강한 직선관계가 있음을 의미한다.
     * 상관의 기준은 없으나 0.5 이상은 관련이 있음. 0.8 이상은 강한 상관이 있음을 의미한다.

반응형

'컴퓨터공학 > 통계학' 카테고리의 다른 글

표준편차와 표준오차  (0) 2022.12.07
통계학 용어 정리  (0) 2022.11.28
통계학_표본과 분포  (0) 2022.11.22