데이터 엔지니어 수업 정리 180622

패스트캠퍼스 데이터엔지니어 수업


수업 내용을 정리 한 것

수업 시작시 인트로??

딥러닝 할 때 레이블링 된 데이터가 필요하다
빅데이터 레이블링??라벨링 조사 필요
cnn?? rnn??
트랜스퍼 러닝

Machine Learnin & Deep Learnin

머신러닝에 대한 인프라 지식
3주정도 머신러닝 에 대한 훝어보기 정도로
관심있으면 코세라 앤드류 교수 강의(무료다 하지만 영어)
강의

머신러닝

  • 어떤 로직을 프로그래밍 하지 않고도 컴퓨터가 작업이나 지식을 배울 수 있는 분야
  • 가볍게 주변에서 볼 수 있는 기기로는 로봇청소기 또는 세탁기 정도로 복잡하고 어렵게 생각할게 아니다
  • 차에 센서가 달려있고 운전자가 운전하는 상황을 예를 들면 - 쌓여있는 데이터를 기반으로 머신러닝으로 운전자를 초보인지 운전 잘 하는지 판단 할 수 있다

딥러닝

머신러닝의 하위 분야 중 하나 로 기존 머신러닝 방법론의 한계를 극복하는 중이고, 폭발적으로 관심 받는 분야

Raw 한 input(글자, 소리, 단어 등등) 입력받음

기존 머신러닝은

데이터를 어떻게 가공해서 넣느냐 가 중요함

Feature Engineering

Feature Engineering

데이터를 가공해서 컴퓨터를 학습시킬 Feature 를 만들려면 해당분야의 전문지식이 필요하며 시간비용 이 많이든다

딥러닝은 뭐가 다른가

Deep Neural Network

표현력이 좋은 네트워크를 여러층 쌓아서 네트워크가 feature 를 스스로 만들고 학습 할 수 있도록 한다

스스로 학습시킬려면 아주 많은 데이터가 필요하다
딥러닝 모델을 활용한 음성인식 , 기존 음성인식 방법 대비 성능이 비약적으로 향상됨 rnn 에 대한 추상적인 설명이다

사용 예

  • 쌓여있는 이미지 데이터를 통한 학습으로 이미지 분석
  • 기존 댓글 , 단어을 통한 감정분석
    • 기존
      긍정 부정의 감정을 가지는지 db 구축 및 판별을 통하여 처리 하지만 제대로 할 수 없다
    • 딥러닝
      문법이나 의미적인 것 까지 고려하여 가능
  • 질의응답
    • 기존
      구축된 db에서 질문-답변을 찾고 그에 따른 답변을 제시함
    • 딥러닝
      여러 질문에 대한 답변이 vector 형식으로 모델에 녹아있음
  • 자동번역 - 만세!!!

머신러닝

  • Supervised Learning(지도학습) 요즘 대부분 사용되는 머신러닝
    • Regression - 연습적인 값을 예측
      • 부동산 가격 예측
    • Classification - 불연속적인 값 예측
      • 사진을 보고 맞추기
    • Regression 문제도 Classification 문제로 바뀔수 있다
      • 부동산 가격을 보고 살지 안살지 결정
    • 레이블링 한 데이터를 통해 학습 해서 결정을 할 수 있다. 정답을 받아 누적된 데이터를 가지고 학습하여 머신이 정답을 알려준다. 그 정답을 통해 의사결정을 할 수 있을지도
  • Unsepervised Learning(비지도학습)
    • 레이블링이 없는 데이터를 가지고 학습을 한다
  • Reinforcement Learning(강화학습)
    • 윈드러너 같은 게임 메크로를 통해 논리구조를 잘 만들어서 하는것보단 머신러닝을 통해 게임을 잘 한다???
    • 아직까지는 잘 사용되지 않음

딥러닝은 여러 계층의 데이터를 통해 학습된 머신러닝의 일종이다.

Supervised

Linear Regression

집의 넓이 데이터로 부동산 가격 예측

주로 학계쪽에서 연구분야로 나오기에 수식이 많이나온다!!!!!!!!!!앜!!!!! 그래서 수식이 함수인데도 h(x) 로 나오는 편

h\theta(x) = \theta0x + \theta1

Cost Function

어떤 가정을 h 세웠을때 그 가정이 얼마나 틀렸는가(error) 를 비용(cost) 로 간주 하여 수식을 세움 cost를 최소하 하는 방향으로 파라메터 a,b 를 조정하여 좀더 올바른 가정 h 를 가질 수 있다!

#수식 주여…왜 이런 시련을.ㅠㅠ 기존 f(y) = ax 라 치자

그럼 0 부터 1,2,3 인 정비례 그래프가 그려질꺼고 그것의 cost를 구하자면

오차값 j(\theta0,/theta1) = / (2*m)…………….
말로 풀어보자

각 값을 x 에서 y 를 뺀 값으로 절대값을 취한다(양수로 합해서 +, - 되어 줄어드는 경우를 막기 위해) 각 값의 갯수(평균을 내기 위해) * 2 를 한 값으로 나눠주면 코스트 값이 나온다

마크다운에서 수식을 표현하려면 laTex 를 추가해야하므로 나중에 정리함

미분미분미분

중요 용어들

레이블, 코스트펑션, 에러, 피쳐

Gradient Descent

과정을 수렴할때 까지 반복

a : learning rate

cost function 의 미분값 입은 있으나 할 말이 없다. 미분도 모르는데 편미분 나왔다..gg

##차회예고 딥러닝 관련 공부…. 수식은 다음부터 점점 줄어든다

다음을 위한 실습 환경 셋팅

타이타닉 생존자 예측 spark