TIL

2024-06-03

여연찌 2024. 6. 3. 21:03
  • Today

1. 머신러닝 기초 1-7 까지 수강

2. 통계학 1회차 수강 및 복습

3. SQL Challenge 2회차 수강

+ 대시보드

 


  • Today I Learned

 

SQL

 

 

AARRR

 

정수 나누기 문제 해결

정수 나누기를 하면 결과가 정수로 반환되는데

정수 나누기 1.0을 곱하면 실수를 얻을 수 있다 ?

> 이부분은 이해가 되지 않아 내일 여쭤봐야겠다!

 


Python

 

 

주피터 노트북 단축키

a: 위에

b: 아래에

m: 마크다운

 


머신러닝

 

지도학습: 문제와 정답을 모두 알려주고 공부시키는 방법(예측,분류)

비지도 학습: 답을 가르쳐주지 않고 공부시키는 방법(연관규칙,군집)

강화학습: 보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습(보상)

 

 

 


통계학 1회차

 

 

수치형

: 연속형 - 일정 범위 안에서 어떤 값이든 취함(체중,신장)

: 이산형 - 정수형 값만 취함(사고건수, 일 방문자수)

 

범주형(나라, 도시, 혈액형, 성공여부, 등수) 

: 이진형- 두개의 값만 가짐/ 예 아니오, 참 거짓

: 순서형- 순위가 있는 데이터

 

 

A학생 30점

B학생 70점

C학생 80점

평균 60점

 

편차: 점수(x 값) - 평균

A. 30-60 = -30

B. 70-60 = +10

C. 80-60 = +20

 

>> 편차를 모두 더하게 되면 0이 나옴

>>>> 편차: 평균으로부터 얼마나 떨어져 있는지

저 데이터 안에서만 평균을 구했기 때문에 편차를 모두 더하게 되면 0이 나온다.

 

 

분산: 편차 제곱합의 평균

다 제곱하면 마이너스가 나오지 않는다!(편차합이 0으로 나오는 것을 방지)

A. -30 제곱 = 900

B. +10 제곱 = 100

C. +20 제곱 = 400

편차 제곱합 : 1400

편차 제곱합의 평균(분산): 1400/3=466

 

 

표준편차: 분산에 제곱근을 씌어준 값(루트)

= 원래 단위로 되돌리기

√ 466

21.5870331449

분산: 466

표준편차: 약 21.6

>> 반 전체의 점수가 약 20만큼 퍼져있다(분산되어있다)

 

 

표본분포

: 표본이 어떻게 흩어져있는지

 

중심극한정리:

여러 표본을 추출하는 것

랜덤하게 추출을 한다고 가정했을때 각각의 평균이 정규분포를 따른다.

>> 어떤 표본을 추출하더라도 중심극한정리에 의해서 각각의 평균이 정규분포를 따른다.

 

정규분포:

표본을 선정할 때 그 경우의 수는 매우 많을 것이고

경우의 수를 평균내어 모아보면 종 모양의 분포를 띄게되는데 이를 정규분포라고 한다.

- 좌우대칭, 평균치에서 가장 그 확률이 높다.

- 곡선은 각 확률값을 나타내며 모두 더하면 1이 된다.

- 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다.

- 평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 한다.

 

표준정규분포가 필요한 이유?

각각의 그래프는 평균과 분산값에 따라 다르게 그려질 수 있는데

확률을 계산할때 어려움을 겪게 된다.

계산하기 편하도록 표준화를 하는 것

 

스탠다드 스케일

일주일 접속일 수 0~7

결제금액 0~100억

> 평균 0, 분산1 로 표준화를 해야함

>> 우리는 두개의 1이 다르다는 것을 알지만 파이썬은 모르기 때문에 잘못된 대답을 가져오지 않도록 표준화를 해야한다.

 

 

신뢰구간

 

표본을 추출하는 순간 모집단 전체를 사용하는 것이 아니기 때문에 불확실성을 가지게 됨

100% 이렇다! 라는 것을 알 수가 없기 때문에 신뢰구간이라는 개념을 사용한다.

 

신뢰구간:

특정범위내에 값이 존재할 것으로 예측되는 경우

 

신뢰수준:

실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률

주로 95%와 99% 이용

 

> 더 많이 신뢰하려면 데이터 범위가 더 커야한다(추출될 데이터가 많아야 하기 때문!)

>> 95% 보다 99% 가 더 큰 값의 신뢰구간을 가진다

 

95% 신뢰구간

(10.338733110887336, 20.661266889112664)

 

99% 신뢰구간

(8.085277068873378, 22.914722931126622)

 

 

 

 


Daily Scrum

 

 

 

 

 

 


  • Next

1. SQL 코드카타(99번)

2. 알고리즘 코드카타(44번)

3. SQL Challenge 3회차 수강

4. 머신러닝 기초 완강

+ 대시보드

'TIL' 카테고리의 다른 글

2024-06-05  (1) 2024.06.05
2024-06-04  (0) 2024.06.04
2024-06-02  (0) 2024.06.02
2024-05-31  (1) 2024.05.31
2024-05-30  (0) 2024.05.30