728x90

데이터 분석/머신러닝 독학하기 5

Step3. 지도학습과 비지도학습

머신러닝에는 크기 지도학습과 비지도학습이 있다. 두 개의 큰 차이점은 라벨링된 데이터가 있는지 없는지의 여부이다. # 지도학습(supervised learning) 지도학습은 라벨링된 데이터를 사용하며 대표적으로 회귀(Regression)와 분류(Classification)이 있다. 회귀 : 예측(출력)되는 변수 Y 가 연속형 변수일 때. (숫자형 같은 것. 키, 몸무게 등) 분류 : 예측(출력)되는 변수 Y 가 이산형 변수일 때. (성별, 정상/비정상 등) # 비지도학습(unsupervised learning) 입력 변수(X) 간의 관계에 대한 패턴(특징)을 찾아내는 것이 비지도학습이다. (Y 가 존재하지 않음) 비지도 학습에는 대표적으로 군집과 PCA 가 있다. 군집 : 비슷한 데이터끼리 그룹화. P..

머신러닝 단기집중과정 요점정리

머신러닝을 시작하기 전 용어에 대해 정리한다. 라벨(labels) : 예측하는 실제 항목(y) 특성(features) : 데이터를 설명하는 입력 변수(x) 모델(models) : 특성과 라벨의 관계 정의. 학습 - 모델을 만들거나 배우는 것 추론 - 학습된 모델을 정의되지 않은 데이터에 적용하는 것. 예측. 회귀 모델 - 연속적인 값을 예측한다. ex) xx기업의 주식 가격이 얼마인가요? 분류 모델 - 불연속적인 값을 예측한다. ex) 이 사진은 강아지일까요, 고양이일까요? 주어진 데이터를 통해서 특성과 Y의 관계를 만드는 알고리즘을 만드는 것도 머신러닝이지만, 데이터의 특징을 찾아내는 함수를 만드는 것 또한 머신러닝이다. 이 사진은 온도에 따라 귀뚜라미가 우는 빈도를 나타내었습니다. 다음과 같이 선형을..

머신러닝 - MNIST 알아보기 (분류) - Python

머신러닝을 공부하는 사람이라면 한 번쯤 경험해봤거나 들어봤을 데이터셋이다. MNIST! 이 데이터 셋은 미국 고등학생들과 인구조사국 직원분들이 손으로 직접 쓴 숫자 데이터셋이다. 시작해보자. from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784', version=1) mnist.keys() --------------------------------------------- dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url']) 사이킷런을 통해서 mnist 데이터셋을 받아오는 과정이다...

Step2. 머신러닝을 시작하기 전에

머신러닝을 시작하기 전에 알아야 할 것은 특성 공학(feature engineering) 이다. 특성 공학이란 머신러닝 프로젝트에서 훈련에 사용할 좋은 데이터(특성)들을 찾는 것이다. 에러, 이상치, 잡음으로 가득하면 결과가 좋지 않게 나오는 것은 당연하기 때문에 특성 공학에 시간을 쏟는 것은 절대 시간을 버리는 것이 아니다. 특성공학에는 두 가지 작업을 포함한다. 특성 선택(feature selection) : 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택 특성 추출(feature extraction) : 특성을 결합하여 더 유용한 특성을 만든다. 모델이 새로운 샘플에 얼마나 잘 일반화될지 아는 유일한 방법은 새로운 샘플을 실제로 적용해보는 것이다. 그렇게 하기 위해 주로 쓰는 방법은 훈련 ..

Step1. 머신러닝이란.

# 머신러닝 데이터를 기반으로 학습하는 컴퓨터 프로그래밍. 머신러닝 기술을 통해 대용량의 데이터를 분석할 때 겉으로 보이지 않았던 패턴을 발견하게 되는데 그것을 데이터 마이닝(data mining) 이라고 한다. # 머신러닝의 종류 사람이 관여하여 훈련(학습)하는 것의 여부 (지도학습, 비지도학습, 준지도학습, 강화 학습) 실시간으로 학습의 능력을 키워나가는지의 여부(온라인학습, 배치 학습) 알고 있는 데이터와 새로운 데이터를 비교하는지, 훈련 데이터 셋에서 패턴을 발견하여 예측하는지의 여부(사례 기반 학습, 모델 기반 학습) (1) 지도학습 알고리즘 k-NN 알고리즘 선형 회귀(Linear Regression) 로지스틱 회귀(Logistic Regression) 서포트 벡터 머신(SVM; Support..

728x90