데이터 엔지니어 수업 정리 180622
in Data on 패스트캠퍼스-데엔스수업
수업 내용을 정리 한 것
수업 시작시 인트로??
딥러닝 할 때 레이블링 된 데이터가 필요하다
빅데이터 레이블링??라벨링 조사 필요
cnn?? rnn??
트랜스퍼 러닝
Machine Learnin & Deep Learnin
머신러닝에 대한 인프라 지식
3주정도 머신러닝 에 대한 훝어보기 정도로
관심있으면 코세라 앤드류 교수 강의(무료다 하지만 영어)
강의
머신러닝
- 어떤 로직을 프로그래밍 하지 않고도 컴퓨터가 작업이나 지식을 배울 수 있는 분야
- 가볍게 주변에서 볼 수 있는 기기로는 로봇청소기 또는 세탁기 정도로 복잡하고 어렵게 생각할게 아니다
- 차에 센서가 달려있고 운전자가 운전하는 상황을 예를 들면 - 쌓여있는 데이터를 기반으로 머신러닝으로 운전자를 초보인지 운전 잘 하는지 판단 할 수 있다
딥러닝
머신러닝의 하위 분야 중 하나 로 기존 머신러닝 방법론의 한계를 극복하는 중이고, 폭발적으로 관심 받는 분야
Raw 한 input(글자, 소리, 단어 등등) 입력받음
기존 머신러닝은
데이터를 어떻게 가공해서 넣느냐 가 중요함
Feature Engineering
Feature Engineering
데이터를 가공해서 컴퓨터를 학습시킬 Feature 를 만들려면 해당분야의 전문지식이 필요하며 시간 과 비용 이 많이든다
딥러닝은 뭐가 다른가
Deep Neural Network
표현력이 좋은 네트워크를 여러층 쌓아서 네트워크가 feature 를 스스로 만들고 학습 할 수 있도록 한다
스스로 학습시킬려면 아주 많은 데이터가 필요하다
딥러닝 모델을 활용한 음성인식 , 기존 음성인식 방법 대비 성능이 비약적으로 향상됨 rnn 에 대한 추상적인 설명이다
사용 예
- 쌓여있는 이미지 데이터를 통한 학습으로 이미지 분석
- 기존 댓글 , 단어을 통한 감정분석
- 기존
긍정 부정의 감정을 가지는지 db 구축 및 판별을 통하여 처리 하지만 제대로 할 수 없다 - 딥러닝
문법이나 의미적인 것 까지 고려하여 가능
- 기존
- 질의응답
- 기존
구축된 db에서 질문-답변을 찾고 그에 따른 답변을 제시함 - 딥러닝
여러 질문에 대한 답변이 vector 형식으로 모델에 녹아있음
- 기존
- 자동번역 - 만세!!!
머신러닝
- Supervised Learning(지도학습) 요즘 대부분 사용되는 머신러닝
- Regression - 연습적인 값을 예측
- 부동산 가격 예측
- Classification - 불연속적인 값 예측
- 사진을 보고 맞추기
- Regression 문제도 Classification 문제로 바뀔수 있다
- 부동산 가격을 보고 살지 안살지 결정
- 레이블링 한 데이터를 통해 학습 해서 결정을 할 수 있다. 정답을 받아 누적된 데이터를 가지고 학습하여 머신이 정답을 알려준다. 그 정답을 통해 의사결정을 할 수 있을지도
- Regression - 연습적인 값을 예측
- Unsepervised Learning(비지도학습)
- 레이블링이 없는 데이터를 가지고 학습을 한다
- Reinforcement Learning(강화학습)
- 윈드러너 같은 게임 메크로를 통해 논리구조를 잘 만들어서 하는것보단 머신러닝을 통해 게임을 잘 한다???
- 아직까지는 잘 사용되지 않음
딥러닝은 여러 계층의 데이터를 통해 학습된 머신러닝의 일종이다.
Supervised
Linear Regression
집의 넓이 데이터로 부동산 가격 예측
주로 학계쪽에서 연구분야로 나오기에 수식이 많이나온다!!!!!!!!!!앜!!!!! 그래서 수식이 함수인데도 h(x) 로 나오는 편
h\theta(x) = \theta0x + \theta1
Cost Function
어떤 가정을 h 세웠을때 그 가정이 얼마나 틀렸는가(error) 를 비용(cost) 로 간주 하여 수식을 세움 cost를 최소하 하는 방향으로 파라메터 a,b 를 조정하여 좀더 올바른 가정 h 를 가질 수 있다!
#수식 주여…왜 이런 시련을.ㅠㅠ 기존 f(y) = ax 라 치자
그럼 0 부터 1,2,3 인 정비례 그래프가 그려질꺼고 그것의 cost를 구하자면
오차값 j(\theta0,/theta1) = / (2*m)…………….
말로 풀어보자
각 값을 x 에서 y 를 뺀 값으로 절대값을 취한다(양수로 합해서 +, - 되어 줄어드는 경우를 막기 위해) 각 값의 갯수(평균을 내기 위해) * 2 를 한 값으로 나눠주면 코스트 값이 나온다
마크다운에서 수식을 표현하려면 laTex 를 추가해야하므로 나중에 정리함
미분미분미분
중요 용어들
레이블, 코스트펑션, 에러, 피쳐
Gradient Descent
과정을 수렴할때 까지 반복
a : learning rate
cost function 의 미분값 입은 있으나 할 말이 없다. 미분도 모르는데 편미분 나왔다..gg
##차회예고 딥러닝 관련 공부…. 수식은 다음부터 점점 줄어든다
다음을 위한 실습 환경 셋팅
타이타닉 생존자 예측 spark