일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- String
- 다익스트라
- Two Points
- 그래프
- two pointer
- 스토어드 프로시저
- Dijkstra
- DP
- SQL
- Brute Force
- union find
- Hash
- Stored Procedure
- binary search
- 이진탐색
- Trie
- MYSQL
- Today
- Total
목록AI (9)
codingfarm

지금까지 훈련집합 X로부터 확률분포를 추정하는 여러가지 방법을 공부하였다. 이 절에서는 앞에서 공부한 방법에 비해 색다르게 확률 분포 추정 방법을 다룬다. 그림에서 보이듯이 혼합모델에서는 두개 이상의 서로 다른 확률 분포의 혼합으로 X를 모델링 한다. 가우시언 혼합(Gaussian Mixture) 가우시언이 여러개 혼합된 형태로 샘플이 주어질때 확률분포를 추정하는 방법이다. 주어진 값 X={x1,x2⋯xN} 추정할 값 Θ={π=(π1,⋯,πK),(μ1,Σ1),⋯,(μk,Σk)} 즉, 샘플입력 X가 주어지면 몇개(k)의 가우시언으로 샘플입..

∘ 최근접 이웃 추정과 유사하다. ∘ 훈련집합 X={(x1,t1),⋯,(xN,tN)}이 주어져 있다. 훈련샘플중에 wi에 속하는것의 개수를 Ni라 한다. 미지의 샘플 X를 분류하는 문제가 주어젔을때 X를 중심을 창을 씌우고 훈련샘플중 k개가 들어올때까지 창의 크기를 확장해 나간다. k개가 들어온 순간 창의 크기가 hx 이면 창의 부피는 hdx가 된다. 창안에 들어온 샘플중 wi에 속하는 것의 갯수를 ki라 한다. k : 창안에 들어와야 할 샘플의 수 hx : k개가 들어온 순간 창의 크기 $h_{\maths..

∘ 파젠창은 고정된 크기의 창의 중심 x를 어디에 두느냐에 따라 창안의 샘플수가 달라진다. ∘ k-최근접 이웃법은 x를 중심으로 샘플이 k개 들어올때 까지 창의 크기를 확장해나간다. k개가 들어온순간 창의 크기를 h라 한다. 파젠창 k-최근접 이웃추정 h고정, k가 x에 따라 변화 k 고정, h가 x에 따라 변화 큰 h값을 가지는 x 주위에는 샘플이 희소하게 분포함을 뜻하므로 확률이 낮아야 하고 작은 h값을 가지는 x 주위에는 샘플이 빽빽하게 분포함을 뜻하므로 확률이 높아진다. 이 원리를 바탕으로 아래식을 활용하여 확률 분포의 추정이 가능..

∘ 최대 우도 추정법에서 나온 ML과 MAP는 모수적(parametric) 방법이다. ∘ 모수적 방법은 매개변수 Θ (모수)로 표현할 수 있는 특정한 종류의 확률분포에만 사용가능하다는 한계를 지녔다. 현실에서는 특정한 확률 분포를 안따르는 경우가 매우 많음. ∘ 이 절에서는 확률 분포 추정을 위한 비모수적방법(nonparametric)으로 파젠창과 최근접이웃을 소개한다. ∘ k-NN 분리기는 확률분포 추정을 위한 방법이 아니라 분류를 위한 방법이다. 하지만 동작 원리 측면에서는 최근접 이웃과 유사하다. 파젠 창(Parzen window) ∘ 임의의 확률 분포에 적용 가능하다. 그림 3.6 (a)에서 임의의 점 x에서 확률값을 추정하고 ..

범위를 만들어 구간별로 그 안의 샘플 수를 셀 수 있도록 하는것이다. 하나의 구간은 빈(bin)이라 부른다. 히스토그램을 확률분포로 쓰기 위해서는 각 빈의 값을 N으로 나누어 정규화(normalized)해주면 된다. 표현과 연산이 단순하면서 직관적이지만 상황에 따라 그 쓰임새가 제한적이다. 이 방법은 유한한 개수의 구간에 대해 확률을 구하므로 이산확률 분포를 만들어 준다. 최대 우도 추정은 연속 확률 분포, 즉 확률 밀도 함수(pdf)를 추정하는 방법이다. 히스토그램 추정의 한계 -현실적으로 쓰기 위해서는 확률분포가 정의되는 공간의 차원이 낮고 X의 크기가 충분히 커야 한다. -특징 벡터가 d 차원이라하고 각 차원을 s개의 구간으로 나눈다면 총 sd개의 밴이 생긴다. 따라서 빈의 개수..

해당 블로그글들을 많이 참고하였다. https://medium.com/mighty-data-science-bootcamp/%EC%B5%9C%EB%8C%80-%EC%9A%B0%EB%8F%84-%EC%B6%94%EC%A0%95-maximum-likelihood-estimation-mle-5c3a80d6b25a https://ratsgo.github.io/statistics/2017/09/23/MLE/ 최대 우도 추정(ML estimation) ML 방법 샘플집합 X가 주어질때 X를 발생시켰을 확률이 가장 높은 Θ를 찾기 위해 L(Θ|X)를 최대로 하는 Θ를 찾는 방법이다. 베이즈 원리에 의해 L(Θ|X)는 P(X|Θ)에 비례하므로 $$\h..

2장 내용 정리 ∘ 관찰된 샘플에서 특징벡터 X를 추출한다. ∘ X는 제일 그럴듯한 부류로 분류되어야 하며, 분류기준은 사후확률 P(wi|X)(posterior probability)로 정의한다. 즉, 사후확률이 제일 큰 부류로 인식하면 된다. argmaxiP(wi|X) ∘ 하지만 P(wi|X)는 추정이 거의 불가능하다. 따라서 베이스정리를 이용해 사후확률을 사전확률(prior probability) p(Wi)와 우도(likehood) P(X|wi)의 곱으로 대치해서 계산한다. ∘ 2장에서 사전학률과 우도를 미리 알고있다 가정하고 베이시언 분류기를 만들었으나, 3장에서는 이득..

AI가 판단하는 방법 1.패턴에서 특징벡터 X를 추출한다. 2.X라는 조건하에 wi가 발생했을 확률을 구한다. 3.가장 큰 확률을 지닌 부류로 분류한다. 입력으로부터 특징 X를 추출했을때 부류 w1 w8중 어디로 선별해야할지를 결정해야한다. 그러기 위해선 모든 부류에 대한 p(wi|X)를 계산해서 제일 확률이 높은 결과를 선택하면 된다. p(wi|x) : x라는 조건이 주어젔을때 부류 wi가 발생할 확률(사후 확률) 즉, x를 wi로 분류할 확률이다. 2~3장의 핵심주제 사후 확률 P(wi|x)의 추정 구하기 어려운가?(그림 1.6을 보고 생각해보자.) 왜 어려운가? 어떻게 추정하나? 2.1 확률과 통계 2.1.1 확률 기초 주사위 주사위를 던졌을 때 3..

패턴 인식의 가장 간단한 관점 특징,분류 : 패턴인식에서 제일 중요한 2개의 주제 예 : 사람의 얼굴을 인식하기 얼굴이 작고, 코가 뾰족하고, 눈썹이 짙고, 눈이 작은 샘플이 있다면 특징 얼굴 크기(x1), 코의 모양(x2), 눈썹의 짙은 정도(x3), 눈의 크기(x4) 분류 x1 = 작다, x2 = 뾰족하다, x3 = 짙다, x4 = 작다 라는 패턴이 들어왔을때, 이미 알고 있는 지식에 비추어 아무개일 가능성이 높다라는 의사 결정과정. M : 부류의 갯수 wi : 각 부류 DB 수집 패턴 인식 시스템을 만들기 위해서는 pattern을 수집해야한다. sample : 인식 시스템을 만들기 위해 수집한 패턴 DB에는 아래와 같은 2개의 집합이 있다. train..