2024. 1. 30. 09:18ㆍ학습/머신러닝
목차
1. 머신러닝이란?
2. 머신러닝의 종류
1. 머신러닝이란?
✏️머신러닝이란? 상위, 하위 집합의 개념이다.
- AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템.
--- ML : 관측된 패턴(상승/하강 등)을 기반으로 이사 결정을 하기 위한 알고리즘.
------DL : "인공신경망"이라는 독특한 구조를 이용해서 더 깊게 공부하는 것.
Artificial Intelligence : AI
Machine Learning : MI
Deep Learning : DL
[사진자료]
데이터 사이언스
: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문
: 과학이기 때문에 근거과 데이터를 바탕으로 의사결정을 한다.
데이터 분석
: 데이터 집계/합계, 통계 분석, 머신러닝/딥러닝을 포함한 다양한 행위
✏️정리하자면?
: 과거와 달리 데이터 수집과 처리 기술의 발전으로,
대용량 데이터의 패턴을 인식하고
이를 바탕으로 1)예측, 2)분류하는 방법론을 말한다.
앞으로 배울 머신 러닝은 거의 대부분이 예측하거나 분류하는 방법론 중에 하나일 것이다.
머신러닝 역사가 왜 발전했을까? 새로운 학문을 배울때 역사를 배우면 이해하기 쉽더라고.
이유 : 인간은 데이터를 기반으로 한 의사결정을 내리고 싶어하기 때문이다.
인간은 내 마음이 가는대로 결정하려는 욕구가 있어서 실수하지 않기 위해 데이터를 기반으로 결정하고자 한다.
통계란?
: 모집단(전체 집단)의 성질을 표본집단으로부터 알기 위한 추론 방법. (한줄 설명)
통계가 왜 발전했을까?
대통령이 누가 될지 미리 알기위해 출구 조사를 하잖아.출구 조사를 전체 사람을 다 할 수 있을까? 아니? 상식적으로 불가능해.
전 인구의 1% 사람들을 조사하면 유사하게 당선을 유추할 수 있지 않을까? 생각하는 거지. 이것을 sample이라고 하는 거다.결국 통계학이 발전한 이유는 비용(돈/시간)의 한계 때문에.전체 모집단의 성질을 알 수 없기에 표본을 뽑아서 성질을 알아내는 것이 통계학이 발전한 이유다.
✏️결국 비용의 한계 때문에 통계가 발전한 것이다.
근데 왜 요즘은 통계도 중요하지만 ai가 발전했는가?
처리 기술의 발전이 일어났기 때문이다.
[사진 자료] 처리, 스트림(실시간), 분석, 시각화 등
서비스 多, 분석하기에 굉장히 편해졌기에 등장 배경의 하나일 수 있다.
더 근본적인 이유가 있지 않을까?
제일 큰 이유는 저장매체의 가격 하락
팩트
: SSD vs. HDD 가격 트렌드 2006년 130배에서 2016년 2.8배로 감소
저장매체가 저렴해진다.
: 데이터를 수집하려고 하면 저장공간 확보하기에 비용의 문제로모든 데이터를 수집할 수 없었다.
수집하면 처리할 수 있고 메볼링을? 할 수 있을거고 인사이트 만들기가 쉬워짐.
머신러닝, 딥러닝 모델이 발전한 것 이유는
: 데이터를 수집하기가 용이해졌기 때문이다.
아하💡
머신러닝은 기존의 제한된 데이터에서 어떤 전체 집단을 추론하던 기본 통계학의 기조와 달리
데이터를 다 넣고 처리 기능이 발달하면서 일단 데이터를 수집하고 본다. 그리고 최적화를 하고.
원래는 통계학엔 가정이란 게 많이 필요한데 그런 가정 없이 데이터를 싹 다 모아서
→ 그걸로 패턴을 발견해보자라는 것이 머신러닝의 기조이다. (= 양으로 정확도를 승부보네)
이제 우리가 머신러닝 공부해야 하는 것은 이해됐다.
저장매체가 다시 비싸질 확률은 낮다. 기술은 발전했기 때문에. 머신러닝은 발전하게 될 것이다.
지금 교육 과정이 트렌드한 끝에 있다.
2. 머신러닝의 종류
✏️머신러닝의 종류 세 가지
[사진 자료]
1. 지도 학습
2. 비지도 학습
3. 강화 학습
1. 💡지도 학습 Supervised Learning
: 지도한다=가르친다, 공부한다
: 문제와 정답을 모두 알려주고 학습시키는 것을 지도 학습이라고 한다.
: 종류 - 예측, 분류: 숫자를 맞추는 예측, 범주(코끼리 또는 기린은 둘 중 하나라는 범주) 그래서 분류하는 것도 있다.
: 가장 일반적인 종류, 학습할 때 많이 접할 것이다.
2. 비지도 학습 Unsupervised Learning
: 답을 알려주지 않고 공부시키는 방법
예를 들어, 키와 몸에 대한 그래프
: 여러 그래프 점들을 임의로 두 가지로 묶을 수 있겠다. 이걸 "군집"이라고 한다.
: 누가 건장하고 성장 가능성이 있는지 정답은 없다. 근데
: 내 임의대로 "이번에 군집을 두 개로 나눠 보겠어."
: 성장 가능성이 없는 집단(군집)/ 성장 가능성이 없는 집단(군집)으로 정의하고 묶어 본다.
: 이건 정답이 아닐 수 있다. 미묘하게 경계를 다르게 군집을 바꿔볼 수 있다.
: 하지만 뭐가 하나가 틀리거나 맞은 건 아니다. 이런 게 비지도 학습이다. (?어렵다)
: 정답은 알려주지 않고 알아서 공부해! 시키고 판단은 내가 하는 것.
: 종류 - 연관 규칙, 군집
: 연관 분석 예시 - 남편이 기저귀랑 맥주를 같이 산다. 그래서 맥주와 기저귀는 연관이 있다. 그래서 매대에 가까이 배치한다.
: 연관 분석은 조건부 확률로 인해 계산하는 방법론이다. 이커머스에서 많이 계산한다.
3. 강화 학습 Reinforcement Learing
: 보상을 통해 상은 최대하고 벌은 최소화 하는 것을 강화 학습이라고 한다.
: 어떤 것을 했을 때 점수를 더 주는 것이다.
: 기계가 계속 피드백을 통해 (상을 통해서) 학습을 주는 것을 강화 학습이라고 한다.
💡그럼 적용 하는 분야는 어디 있나요?
- 금융 : 신용 평가 모델(유명하고, 오래됨), 사기 탐지, 주식 예측
✏️신용 평가 모델 : 돈을 대출 해줬을 때 상환 능력이 있는지 봐야지!
- 헬스케어 : 질병 예측, 환자 데이터 분석
- 이커머스 : 고객 구매 패턴 분석, 추천 시스템, 가격 최적화, 장바구니 분석
✏️추천 시스템 : 머신러닝의 오래되고 큰 분야이다.
✏️장바구니 분석 : 기저귀와 맥주의 상관관계를 계산해서 같이 팔기.
이제 머신러닝 → 딥러닝으로 넘어가게 되면
- 자연어 처리 : 번역(구글번역), 챗봇(gpt), 텍스트 분석
- 이미지 & 영상처리 : 얼굴인식(snow ai), 이미지 생성
위의 둘은 머신러닝 중에서도 딥러닝으로 분류하는 게 정확하다.
왜? 딥러닝의 특이한 아키텍처인 복잡한 구조를 통해서 만들 수 밖에 없는 구조기 때문에
딥러닝이긴 하지만 머신러닝이 상위라서 이렇게 적음.
그래서 우리가 집중할 것은 머신러닝 분야이다.금융, 헬스케어, 이커머스 쪽으로
우리는 데이터 분석을 할 사람이지 딥러닝 아키텍처 혹은 머신러닝 엔지니어를지향한다기 보다는
→ 숫자기반의 머신러닝을 주로 볼 것이다. (+ 딥러닝도 배움)
가장 핫 이슈, 콜로라도 주립 박람회 대회 수상작
: 스페이스 오페라극장
: 실제로 그림을 그린게 아니고 ai로 합성한 것이다. 박람회에서 난리가 났다.
: 이미지 생성 ai 의 대표적인 Midjourney 미드저니라는 오픈 소스를 이용함.
Midjourney
: 지금은 디스코드라는 채널을 통해서 채널 추가만 하면 간단하게 텍스트만 몇개 넣으면 예쁘게 만들 수 있다.
예상 질문
Q1. 데이터 분석은 반드시 머신러닝을 해야하는가?
A. 데이터 분석은 데이터를 가치고 가치를 창출하는 포괄적인 행동. 수준 높은 알고리즘과 통계지식이 없더라도 데이터 분석은 가능하다.
Q2. 그럼 왜 머신러닝을 배워야 하는가?
A. 머신러닝 활용 업무와 밀접한 연관이 있는 직무이기 때문에 큰 그림을 볼 줄 알아야 한다.
Q3. 과목을 수강하면 머신러닝 실무자가 될 수 있는가?
A. 머신러닝은 데이터 사이언스. 통계, 컴퓨터 공학의 깊은 이해 없이 단번에 될 수는 없다. 원하 실무자가 되기 위해서 기반을 탄탄히 하고 단계적으로 기술 스택의 역량을 높여가자.
목표 학습 내용
1. 숫자(정형데이터)를 맞추는 방법: 회귀 분석의 원리
2. 범주를 맞추는 방법: 분류 분석의 원리
>>> 어떤 알고리즘이 와도 지도 학습 내에서는
>>> "회귀 분석 or 분류 분석" 2종류 중 하나이기에 다 적용할 수 있다.
3. 머신러닝 전체 프로세스 (큰 그림)
4. 자주 쓰는 머신러닝 모델
5. 딥러닝의 원리 (지도 학습에서는 회귀/분류로 나뉘지기 때문에)
강의 방식
1. (이론) 기본 지식 설명
2. (실습) 파이썬 라이브러리를 활용한 모델링
'학습 > 머신러닝' 카테고리의 다른 글
Machine Learning 6 : 로지스틱회귀 (0) | 2024.02.01 |
---|---|
Machine Learning 5 : 다중선형회귀, 실습 (0) | 2024.02.01 |
Machine Learning 4 : R-Square (0) | 2024.02.01 |
Machine Learning 3 : 선형회귀 (0) | 2024.01.30 |
Machine Learning 2 : 주피터 노트북 (0) | 2024.01.30 |