알고리즘과 모델

We will describe a wide variety of probabilistic models, suitable for a wide variety of data and tasks. We will also describe a wide variety of algorithms for learning and using such models.

All machine-learning algorithms consist of automatically finding such transformations that turn data into more-useful representations for a given task

Machine-learning algorithms aren’t usually creative in finding these transformations; they’re merely searching through a predefined set of operations, called ahypothesis space.

모델은 우리가 학습시키고자하는 하는 대상이고, 알고리즘은 그 모델을 학습시키는 방법입니다. ML 알고리즘은 ML모델을 만들어내는 기법이고, 모델은 그 기법을 통해서 나온 결과물이다. <의사결정트리는 모델이지만 SVM은 알고리즘이다. 아니다, 의사결정트리도 머신러닝의 관점에서 보면 알고리즘이자 모델이다. 혼용해서 사용할 수 밖에는 없다.><Linear Regression 모델이라고 하지 Linear Regression알고리즘이라고 하지 않는다>

ML의 알고리즘의 종류는 수없이 많습니다. 이런 수많은 머신 러닝 알고리즘들을 크게 세가지 분류로 나눌 수 있다. 바로, 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)이다. 컴퓨터 사이언스는 소프트웨어를 만들어서 모델을 만드는 것이라면 머신러닝은 자신이 알아서 모델을 만드는 것이다.

알고리즘 예

신경망 모델을 만드는 딥러닝 말고, 보통 많이 알고있는 머신러닝 알고리즘이라면 결정 트리가 있습니다. 예를들어 타이타닉호 탑승객의 생존 활률을 나타내는 트리를 만든다면, “남자인가 여자인가? 여자(생존확률 0.73, 탑승객이 거기에 해당한 확률 36%), 나이가 9.5세 이상인가? <위키피디아 결정트리>, 함께 탑승한 배우자와 자녀의 수가 2.5이상인가?” 라는 식으로 결정트리를 만들수 있고, 이것이 모델이 됩니다. <모델을 결정되면 알고리즘이 어느정도 결정된다는 것이 보이시죠><이렇게 보면 모델과 알고리즘은 어느정도 연관이 있다, Quora에 물어보자.>

분류

머신러닝의 세가지 타입: Supervised, Unsupervised, Reinforcement Learning

가장 널리 사용되는지도 학습 기

Supervised learning is learn- ing from examples provided by a knowledgable external supervisor.(전문가가 있다는 뜻)

  1. 일반화 선형 모델(Generalized linear models, GLM)

  2. 의사결정 트리(Decision trees)

  3. 랜덤 포레스트(Random forests)

  4. 점진적 부스팅 머신(Gradient boosting machine, GBM)

  5. 딥 러닝(Deep learning)

비지도 학습의 주요 기술

  1. 클러스터링(Clustering)

  2. 비정상 탐지(Anomaly detection)

  3. 차원 축소(Dimension reduction)

강화 학습(Reinforcement learning)은 이 다루는 문제 중에서 다음과 같이 기술되는 것을 다룬다. 어떤 환경을 탐색하는 에이전트가 현재의 상태를 인식하여

어떤 행동을 취한다. 그러면 그 에이전트는 환경으로부터 포상을 얻게 된다. 포상은 양수와 음수 둘 다 가능하다. 강화 학습의 알고리즘은 그 에이전트가 앞으로 누적될 포상을 최대화 하는 일련의 행동으로 정의되는 정책을 찾는 방법이다.

우리가 접근하는 모든 문제의 state가 Markov property라고 말할 수는 없지만 그럴 경우에도 state는 Markov라고 가정하고 강화학습으로 접근합니다.

강화학습 주요 기술: Supervised ML과 Unsupervised의 중간정도 되겠다. 왜냐면, label을 찾아나가기 때문.

Reinforcement learning is learning what to do—how to map situations to actions—so as to maximize a numerical reward signal. These two characteristics—trial-and-error search and delayed reward—are the two most important distinguishing features of reinforcement learning.

학습 방법이 아닌 학습 문제에 의해서 특징지어진다.

불확실한 상황하에서 의사결정을 하려면 "확률"에 기초하여 분석을 해야한다. 어떤 사건이 발생할 확률 값이 시간에 따라 변화해 가는 과정을 확률적 과정(Stochastic Process)라고 하며, 확률적 과정 중에서 한 가지 특별한 경우가 마코프 과정(Markov Process) 이다.

마코프 과정은 어떤 상태가 일정한 간격으로 변하고, 다음 상태는 현재상태에만 의존하며 확률적으로 변하는 경우의 상태의 변화를 뜻한다. 즉, 현재 상태에 대해서만 다음 상태가 결정되며, 현재 상태에 이르기까지의 과정은 전혀 고려할 필요가 없다.

마코프 과정에서 연속적인 시간 변화를 고려하지 않고, 이산적인 경우만 고려한 경우를 마코프 연쇄(Markov Chain) 이라고 한다. 마코프 연쇄는 각 시행의 결과가 여러개의 미리 정해진 결과 중의 하나가 되며, 각 시행의 결과는 과거의 역사와는 무관하며 오직 바로 직전 시행의 결과에만 영향을 받는 특징을 가지고 있다.

MDP란 Markov Decision Process의 약자로서 state, action, station probability matrix, reward, discounted factor로 이루어져있습니다.

In interactive problems it is often impractical to obtain examples of desired behavior that are both correct and representative of all the situa- tions in which the agent has to act. In uncharted territory—where one would expect learning to be most beneficial—an agent must be able to learn from its own experience.

  • Q-Learning

  • 다이내믹 프로그래밍

results matching ""

    No results matching ""