728x90

전체 글 107

[Python] 상관 분석(산점도, 상관계수) - Pearson, Spearman, Kendall

상관분석(Correlation Analysis) 상관분석은 쉽게 말하면 직선(선형)의 관계가 있는지 분석하는 것이다.상관분석에서 알아야 할 점은 [산점도], [상관계수] 이다. 상관 분석의 핵심은 Y를 예측하는 것이고 X 들에 대해 얼마나 선형 관계가 강하고 약한지 파악한다. (featuring) 예를 들어 X_1의 자료가 질적자료이고 A와 B가 있을 때는 Two sample test를 진행하여 Y와의 관계를 파악해 볼 수 있고, A,B,C,D, 등의 질적자료가 있을 때는 분산분석(ANOVA)를 이용할 수도 있을 것이다. X와 Y라는 양적자료가 있을 때 대부분 더 중요한 양적 자료를 Y로 둔다. 분산분석에는 "일원배치 분산분석" 이라는 것이 있다. 질적인 자료 하나를 가지고 양적인 자료와 차이가 있는지 ..

[프로그래머스] level2 - 프린터 : 파이썬(Python) 풀이

문제 프린터 코딩테스트 연습 - 프린터 일반적인 프린터는 인쇄 요청이 들어온 순서대로 인쇄합니다. 그렇기 때문에 중요한 문서가 나중에 인쇄될 수 있습니다. 이런 문제를 보완하기 위해 중요도가 높은 문서를 먼저 인쇄하는 프린�� programmers.co.kr 코드 from collections import deque def solution(priorities, location): cnt = 0 priorities = deque(priorities) prioritie1 = deque([0]*len(priorities)) prioritie1[location] = 1 while(1): if(len(priorities) == 1): cnt += 1 break else: num = priorities.poplef..

Step2. 머신러닝을 시작하기 전에

머신러닝을 시작하기 전에 알아야 할 것은 특성 공학(feature engineering) 이다. 특성 공학이란 머신러닝 프로젝트에서 훈련에 사용할 좋은 데이터(특성)들을 찾는 것이다. 에러, 이상치, 잡음으로 가득하면 결과가 좋지 않게 나오는 것은 당연하기 때문에 특성 공학에 시간을 쏟는 것은 절대 시간을 버리는 것이 아니다. 특성공학에는 두 가지 작업을 포함한다. 특성 선택(feature selection) : 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택 특성 추출(feature extraction) : 특성을 결합하여 더 유용한 특성을 만든다. 모델이 새로운 샘플에 얼마나 잘 일반화될지 아는 유일한 방법은 새로운 샘플을 실제로 적용해보는 것이다. 그렇게 하기 위해 주로 쓰는 방법은 훈련 ..

[프로그래머스] level2 카펫 - 파이썬(Python) 풀이

문제 코딩테스트 연습 - 카펫 Leo는 카펫을 사러 갔다가 아래 그림과 같이 중앙에는 노란색으로 칠해져 있고 테두리 1줄은 갈색으로 칠해져 있는 격자 모양 카펫을 봤습니다. Leo는 집으로 돌아와서 아까 본 카펫의 노란색과 �� programmers.co.kr 코드 # 2,3,8,9,10 실패 answer = [] for i in range(1, yellow+1): if 2 * (int(yellow / i) + 2) + (i * 2) == brown: answer = [int(yellow/i+2) ,i+2] break answer def solution(brown, yellow): answer = [] for i in range(1, yellow+1): if yellow / i == int(yellow ..

Step1. 머신러닝이란.

# 머신러닝 데이터를 기반으로 학습하는 컴퓨터 프로그래밍. 머신러닝 기술을 통해 대용량의 데이터를 분석할 때 겉으로 보이지 않았던 패턴을 발견하게 되는데 그것을 데이터 마이닝(data mining) 이라고 한다. # 머신러닝의 종류 사람이 관여하여 훈련(학습)하는 것의 여부 (지도학습, 비지도학습, 준지도학습, 강화 학습) 실시간으로 학습의 능력을 키워나가는지의 여부(온라인학습, 배치 학습) 알고 있는 데이터와 새로운 데이터를 비교하는지, 훈련 데이터 셋에서 패턴을 발견하여 예측하는지의 여부(사례 기반 학습, 모델 기반 학습) (1) 지도학습 알고리즘 k-NN 알고리즘 선형 회귀(Linear Regression) 로지스틱 회귀(Logistic Regression) 서포트 벡터 머신(SVM; Support..

[독서노트] 모순 - 양귀자(장편소설)

나의 인생에 있어 '나'는 당연히 행복해야 할 존재였다. 이 책은 "활달하고 발랄하며 문득 쓸쓸한 양귀자만의 문장으로 삶과 사랑의 본질을 보여주는 인생학 교과서" 라고 설명한다. 이 책을 다 읽고 든 느낌은 "안진진" 이라는 한 사람의 이야기를 카페에 앉아 실감나게 들었다는 것이었다. 사실 전체적인 내용은 긍정적인 내용이 아니라 행복하게 읽거나, 아 재미있었다 라는 느낌은 들지 않았다. 그저 문학작품을 읽었다는 생각 뿐. 인생은 그냥 받아들이는 것이 아니라 전 생애를 걸고라도 탐구하면서 살아야 하는 무엇이다. 이 책은 "안진진" 이라고 하는 주인공의 시점으로 이야기가 진행된다. 주인공은 뭐랄까 안쓰러운 듯한 인생을 사는 것 같으면서 좋은 인상을 주지 않는 등장인물이라고 느껴진다. 남자에 관해서 나영규와 ..

BOOK 2020.09.13

[Python] 분산 분석(ANOVA) : feat.크루스칼-왈리스 순위합 검정- (2)

이전 게시물에 이어서 만약 등분산이었을 때의 분산분석을 해보자. stats.f_oneway(iris.loc[iris.species == "setosa", "petal_length"], iris.loc[iris.species == "versicolor", "petal_length"], iris.loc[iris.species == "virginica", "petal_length"]) ------------------------------------------------------------------------- F_onewayResult(statistic=1180.161182252981, pvalue=2.8567766109615584e-91) 등분산 일 때의 분산분석은 stats.f_oneway() 를 사..

[Python] 분산 분석(ANOVA) : feat.(SST,SSE,SSB) - (1)

분산 분석(ANOVA : Analysis of Variance) k 개의 집단을 비교하여 다름을 판단하는 것. (k : 3개 이상의 유한한 개수) 분산 분석의 대립가설은 많은 경우의 수를 가지고 있다. 그래서 최소한 2개의 집단은 차이가 있을 것으로 판단한다. 일표본 검정 -> 독립 2표본 -> 분산분석 -> 회귀분석으로 확장된다. 모집단 A, B, C 가 있고 모두 정규분포를 따른다고 가정한다. 각각의 모집단에서 표본을 추출하는데 데이터 2개씩 가져온다고 가정해보자. 우리는 뽑아낸 표본들의 데이터들에 대해 Y의 다름이 얼마나 되는지 측정하고 싶다. 하지만 데이터에서 전체 평균을 빼고 모두를 더하면 무조건 0 이 나온다. 그래서 그 편차를 제곱을 한다. SST = SSE(Sum of Square Erro..

[프로그래머스] level2 스킬 트리

문제 코딩테스트 연습 - 스킬트리 programmers.co.kr 코드 def search(a,b): c = list(b) d = 1 for i in range(len(c)-1,-1,-1): if(c[i] not in a): del c[i] if(len(c) == 0): d = 1 else: for i in range(len(c)): if(c[i] != a[i]): d = 0 return d def solution(skill, skill_trees): answer = 0; skill = list(skill) for i in range(len(skill_trees)): answer += search(skill,skill_trees[i]) return answer 코드풀이 skill : 선행되야 할 스킬 s..

[독서노트] 작가들의 비밀스러운 삶 - 기욤 뮈소(스포 x)

읽는 데 단 이틀이 걸렸다. 일정만 없었으면 하루 안에 다 읽었을 정도로 전개에 눈을 뗄 수 없는 소설이었다. 책을 결정하는데는 표지 디자인, 작가, 장르, 목차(프롤로그) 등 많지만 역시 가장 영향이 있는 것은 작가인 것 같다. 기욤 뮈소의 글에 팬이다보니 한 번이라도 더 눈이 가는 건 사실인 것 같다. 엄청난 흥행으로 유명해진 작가 "네이선 파울스" 어떠한 이유인지 갑자기 절필선언을 하고 자연이 훼손되지 않는 보몽 섬에 칩거하게 된다. 평소 네이선의 팬이었던 작가 꿈나무 라파엘 바타유는 글을 써 출판사에 보였지만 퇴짜를 당한다. 그는 그의 글을 네이선에게 보이고 싶어 보몽 섬에 그레구아르 오디베르가 운영하는 서점에 일자리를 찾아 들어간다. 한편, 많은 비밀과 미스터리를 남기고 간 네이선을 파보기 위해..

BOOK 2020.09.07
728x90