[기술] 머신러닝 기초 (feat. Deep Learning)

2021. 1. 3. 02:19IT용어 아는척 하기

반응형
IT 업계에서 날이 갈수록 Hot해 지고 있는 기술을 고르자면 바로 머신러닝일 것이다.
정말 이제는 안쓰는 곳을 찾기 힘들정도로 많은 곳에 뿌리를 내리고 있다.

 

 

들어가기

 

머신러닝, A.I., 딥러닝, 빅데이터, 모델링 등등등등

 

요즘 우리를 괴롭게 하는 용어들이다. 이것들을 수학을 모르면서 아는 척 했다가 먼지 나게 털릴 듯한 느낌이 든다.

 

하지만 그렇지 않다!

 

머신러닝 분야가 학계에서 연구하는 분야에만 머물러 있다가 산업계에서 쓰이기 시작한 이유는 쉬워져서 이다.

 

산업계에서 가장 중요한 것은 무엇인가? 바로 효율이다. 머신러닝이 수학 개념을 모두 알아가는 시간이 들고 적용하기 어려웠다면 절대 산업계에서 수용하지 않았을 것이다. 차라리 머신러닝을 대신할 알바를 더 썼겠지.

 

고로 우리도 머신러닝을 아는척 해볼 수 있다.

 

 

 

개요

 

어린아이들은 무언가를 하다가 잘 안되면 부모를 찾아 처리해 달라고 한다.

 

예로부터 인간은 도구의 자식들이였다.

 

 

 

 

 

인간 사회가 발전하면서 더이상 걷기만으로는 이동의 효율이 나지 않아 바퀴달린 이동수단들을 만들기 시작했고, 발전을 거듭할 수록 가야할 거리는 늘어나 급기야 비행기를 만들어 하늘을 날기 시작했다.

 

 

머신러닝도 마찬가지다.

 

인간 사회가 정보화 시대에 접어들면서 인간들을 데이터라는 것을 쌓기 시작했다.

데이터를 기반으로 결정을 내리면 더 객관적이고 안정적이며 최적화된 결론에 도달할 수 있다는 것을 알았기 때문이다.

 

그 결과 데이터는 미친듯이 많아지고 더이상 수량을 셀 수 없어 빅데이터라는 용어를 만들어 내고

비교 및 분석해야할 데이터가 너무 많아져 이것도 기계에게 부탁하기 위해 만든 것이 바로 '머신러닝' 되겠다.

 

 

 

용어 정리

 

일단 효율적인 아는척을 위해 잠시 혼재되어 있는 단어를 세척해 보자

 

일단 제일 큰 개념은 AI다. 그 아래 머신러닝이 있고 그 아래 딥러닝이 있는 것이다.

 

유식하게 고1 수학 수준 정도로 부분집합 관계라고 말하면 되겠다.

 

 

<터미네이터 명장명과 알파고>

 

AI가 무엇인지는 아놀드 형이 "아윌비백"을 외칠 때부터 우리에게 친숙한 소재가 되어있었다.

 

최근 구글이라는 IT 아이언맨이 만든 자비스... 아니 알파고도 AI를 점점 더 친숙한 존재로 인식하게 했다.

 

 

 

그래서 우리가 주목해야할 부분은 머신러닝 부터이다.

 

마치 구글 번역기를 읽어 주는 듯한 기계가 학습하는 것이라고 말해서는 안된다.

 

앞서 머신러닝이 나오게 된 배경에서 말했듯이 겁나게 많은 데이터들을 가지고 먼가 결정을 하는 체계를 만드는 것이 머신러닝이다.

 

체계라는 단어를 좀 더 멋있게 모델이라고도 한다.

 

 

 

 

내가 갑자기 랩을 하고 싶어 쇼미더 머니에 지원한다고 해보자

 

과연 이게 잘하는 짓인지 알고 싶어( 정상적인 사고를 한다면 결과를 당연히 알지만 꿈에 취하면 답도 없다. )

 

머신러닝을 이용한다.

 

기계는 수많은 데이터를 보고 이를 판단할 것이다. 내가 초딩때 음악경진대회 수상경력만 보고 쇼미더 머니에 나가라고 판단하진 않는다는 것이다.

 

음색, 성량, 생긴 꼬라지 등등을 모두 분석해 나가지 말라는 결론을 내려줄 것이다.

 

이렇게 다양한 데이터들을 가지고 판단의 근거를 만들어 내는 과정 때문에 러닝(학습)이란 단어가 붙은 것이다.

 

 

딥러닝은 머신러닝을 하기 위한 하나의 방법이다.

 

서울에서 여수를 가는 방법은 자동차도 있고, 기차도 있고, 비행기도 있고, 걸어서도 있다.

 

머신러닝에도 다양한 기법이 존재한다.

 

딥러닝은 그 중 하나인 것이다. 이는 인공신경망이라는 기술을 써서 학습의 효과를 높이는 방식으로

 

요즘 Hot 하기 때문에 머신러닝과 많이 혼재되서 쓰이고 있다.

 

 

 

머신러닝의 어려움

 

머신러닝에는 매우 치명적인 약점이 있다.

 

그 근본은 보면 답은 간단하다. 바로 데이터가 후지면 모델도 후져진다는 것이다.

 

이 때문에 데이터 과학은 점차 더 성행하고 있고 라벨링이란 이름의 노가다 작업을 알바들을 고용해서 기업들이 하고 있는 것이다.

 

 

여기까지다.

 

우리는 이제 회의시간에 혼재되고 있는 단어를 정리해 줄 수 있고 머신러닝을 하려면 결국 데이터가 중요하다는 것까지

 

아는 척할 수 있다.

 

다음에는 머신러닝의 종류와 그 기법

 

그리고 이 분야에서 제일 핫한 라이브러리인 Tensorflow도 다뤄보겠다.

반응형