TIL

2024-07-17

여연찌 2024. 7. 17. 19:48
  • Today

1. 프로젝트 진행

2. 크롤링 수강

 


  • Today I Learned

 

프로젝트

 

 

어제 프로젝트에 이어서 

' 구독자를 올려서 무엇을 할 것인지? '

에 관하여 조금 더 세부적으로 생각해보기로 했다.

 

 

이 회사에서 원하는 것이 무엇인지?

- 수익성 올리기

→ 경험상점, 광고효율 등을 활용하여 올릴 수 있을 듯 해보이지만, 우리가 받아볼 수 있는 데이터는 한정되어 있기 때문에 수월하지 않을 것으로 예상

 

- 커뮤니티 활성화

* 활성화를 시켜야 하는 이유 ?

1. 회사의 규모 성장을 하기 위해서

2. 구독자들로부터 많은 소재를 얻기 위해

 

목적: 신규 구독자 증가를 통한 커뮤니티 활성화

> 광고 등을 통한 매출 증가

 

 

필요한 데이터는 무엇인가?

- 웹 페이지 랜딩 페이지 뷰

1. 해당 카테고리에 들어온 총 페이지 조회수

2. 게시물 별 조회수(일별,월별 등)

3. 카테고리 유입경로, 유입 소스 경로

4. 총 회원가입자 수 증가 추이(일별,월별 등)

- 헤비 유저 파악

* 이유 ?

게시물과 댓글의 '닉네임' 을 파악하여 해당 카테고리의 활성화 현황 확인

어떤 분야의 게시글을 주로 사용하는지에 대한 주류 파악

- 좋아요 수, 공유 수 등

 

 

생각해본 액션플랜

 

1. 검색 시스템 도입

2. 지도맵 넣기

3. 이벤트와 합치기

 

 

카테고리에서 크롤링

해당 사이트 크롤링 주의사항 확인

설문조사

설문조사에 대한 통계자료 확인

 

 

 

 


 

 

크롤링 특강

 

웹에 접근하는 방식

1. 크롤링

웹 크롤링: 웹상에 존재하는 모든 웹페이지를 방문하여 데이터를 수집하는 방법

크롤러가 모든 url 을 방문하며 링크를 따라가며 자동으로 데이터 수집

 

2. 스크래핑

웹 스크래핑: 특정 웹 사이트에서 필요한 데이터를 자동으로 추출

 

공통점: 원하는 데이터를 수집

차이점: 웹 크롤링은 웹 사이트에 대한 정보를 인식하고 저장하는데 사용, 웹 스크래핑은 분석 및 기타 목적을 위해 추출하는 것

 

* 주의사항

웹 사이트에서 데이터를 긁어와도 괜찮은지, 합법인지 확인해야함

 

robots.txt

로 확인

ex. url/robots.txt

disallow가 뜰 경우 크롤링을 하지 마라는 뜻

 

allow 는 혼합 되어 있을 수 있음

 

 

웹의 구성요소

HTML: 뼈대

CSS: 예쁘게

javascript: 동작

 

 

HTML

: 문서를 설명해주는 정보를 표현하는 마크업 언어

= 태그<>

 

 

html

head: 화면에 보여지지 않는

body: 화면에 보여지는

 

XPath

: HTML 의 위치

 

* 데이터 분석가가 XPath 라는 경로를 통해서 파이썬을 사용하여 크롤링을 할 수 있다.

 

div 태그: 가로 공간 만드는 태그

p 태그: 단락, 절

 

 

 

뷰티풀 숲 

은 한 화면에 있는 갯수만 끌어올 수 있음

리퀘스트 라이브러리를 통해 웹페이지를 호출, 뷰티풀숲 라이브러리를 통해 웹에 접근된 상태에서 데이터를 추출

> 이 것을 파싱이라고 함

*파싱?

html 이야? 자연어로 가져와줄게

 

사용방식은 코드로 추가하기

 

 

 

셀레니움

모든 리뷰 갯수 다 불러올 수 있음

 

동적웹이 제대로 작동하는지 테스트 하기 위해 만들어진 모듈

동작을 하면서 데이터를 끌어오겠다.

 

웹드라이버로 구동

 

 

 

 


 

 

ADsP

 

비례 층화 추출법

: 모집단을 여러 개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 집단으로부터 표본을 추출하는 방법

 

명목척도

: 여러 개의 범주로 구성됨

각 범주 사이의 높고 낮음이 존재하지 않음

ex. 학급

 

순서척도

: 여러 개의 범주로 구성된 이산형 변수

각 범주 사이에 높고 낮음이 존재

ex. 성적의 등급

 

비율척도

: 절대적 기준 0이 존재

ex. 키, 몸무게

 

구간척도

: 연속형 변수이지만 사칙연산이 불가능한 자료

 

배반관계

: 두 개의 사건에 대하여 두 사건이 서로 공통 부분이 존재하지 않는 경우

 

독립관계

: 두 개의 사건이 공통인 부분은 존재한다 하더라도 서로가 서로에게 영향을 주지 않는 경우

 

 

공분산은 최댓값과 최솟값이 존재하지 않는다.

 

 

왜도가 양수인 경우

최빈값 < 중앙값 < 평균

 

연속형 확률분포

: 균일분포

 

이산형 확률분포

: 포아송 분포, 기하 분포, 베르누이 분포

 

포아송분포

: 0과 1로 두개인 확률분포를 n번 시행할 때 처음으로 성공인 시행이 나올 때까지 n번 시행할 확률을 나타내는 분포

 

 

 

 

 

'TIL' 카테고리의 다른 글

2024-07-19  (0) 2024.07.19
2024-07-18  (0) 2024.07.18
2024-07-16  (0) 2024.07.16
2024-07-15  (0) 2024.07.15
2024-07-08  (0) 2024.07.08