머신러닝 데이터분석 차이 - meosinleoning deiteobunseog chai

머신러닝은 인공 지능의 한 분야로 컴퓨터가 데이터를 통해 학습하고 사람처럼 어떤 대상 혹은 상황을 이해할 수 있게 하는 기술이다. 스스로 학습할 수 있는 컴퓨터가 사용자를 이해한다면 이전에 할 수 없었던 방식의 서비스가 가능해진다는게 업계 설명이다. 머신러닝은 컴퓨터가 데이터를 분석할 수 있게 하는 알고리즘을 짜는 것이 핵심이다. 데이터를 활용하는 알고리즘을 정교하게 만들면 컴퓨터가 스스로 학습해가며 사용자들에게 의미있는 결과물을 제공할 수 있다는 것이다.

머신러닝에 잘 붙어다니는 말 중 하나가 바로 빅데이터다. 머신러닝과 빅데이터 모두 데이터 분석이란 의미가 버무려져 있어, 얼핏 비슷한 의미로도 들린다. 그러나 빅데이터와 머신러닝은 연관성은 있지만 각자의 길을 걷는 기술이다. 빅데이터는 대규모 데이터를 처리하는 기술이고, 머신러닝은 빅데이터를 잘 활용할 수 있는 분야 중 하나로 보면 된다. 데이터를 이용하기 위해선 모델링이 필요한데, 이걸 사람이 아니라 컴퓨터가 알아서 하게 하는 것이 머신러닝이다.

컴퓨터가 학습을 하고 데이터에서 스스로 패턴을 찾아낸다고 하니 인공지능과 머신러닝이 같은 기술인지도 헷갈린다. 결론부터 말하면 머신러닝은 인공지능의 한 부분이다. 한국MS 관계자는 "인공지능은 워낙 광범위한 범위를 포함하고 있고 그 중 머신러닝은 예측에 대한 부분을 주로 맡는다"고 설명했다.

머신러닝 데이터분석 차이 - meosinleoning deiteobunseog chai
머신러닝 기술이 적용된 사례. (시계방향)넷플릭스 영화추천, 마이크로소프트 음성비서 코타나, 아마존 홈 IoT 디바이스 에코, 구글 셀프드라브카

그는 또 "기존 IT 시스템은 학습이란 과정이 배제돼 있었다. 정확한 길을 만들어 주고 따라가게만 했다면 머신러닝은 뭔가 잘못 된 부분이 있으면 다음엔 그러지 말라고 하는 학습과정이 있다. 이렇게 시스템 이 계속 발전하는 건데 사람이 교정해 주는 것이 아니라 시스템이 갈수록 스스로 발전하는 것이 머신러닝”이라고 덧붙였다.

머신러닝도 어려운데, 요즘에는 딥러닝이라는 말까지 등장했다. 역시나 머신러닝과 딥러닝이 같은건지 다른 것이 헷갈리기 시작한다. 네이버랩스 김정희 수석연구원은 ” 딥러닝은 머신러닝의 방법 중 하나로 아주 복잡한 모델링까지 가능하면서 인기를 끌고 있다” 며 "딥러닝은 컴퓨터 공학자들이 사람 뇌가 어떻게 작동하고 있나를 단순하게 모델링한 것이다”고 말했다.

관련기사

  • 구글, 머신러닝 보물 왜 공짜로 풀었나2015.11.11
  • 인간지능 대체할 머신러닝의 현재와 미래2015.11.11
  • 슈미트 “경쟁사도 구글 머신러닝 쓸 것”2015.11.11
  • 구글이 말하는 미래 기술 ‘머신러닝’이란?2015.11.11

머신러닝이라는 말때문에, 분석에 사람은 필요 없을 것 같은 생각도 든다. 그러나 머신러닝에서 데이터사이언티스트의 역할은 절대적이란게 대다수 전문가들의 견해다. 데이터, 그리고 수요에 맞는 데이터를 명확히 이해하는 인력을 갖추지 못하면, 머신러닝을 제대로 활용하기는 어렵다는 지적이다.

빅데이터 플랫폼 업체 피보탈의 그레그 월렌 디렉터는 헬스케어 분야를 예로 들며 "데이터사이언티스트는 환자가 추가적인 치료가 필요할 경우 언제 해야 하는지, 어떻게 해야 하는지 예측하고 이를 애플리케이션에서 활용할 수 있는 기능으로 제공하는 일을 한다"고 말했다.

데이터 과학 분야에 쓰이는 많은 단어들의 뜻을 정리해보자

데이터 과학, 인공지능, 머신러닝, 빅데이터는 요즘 가장 뜨거운 단어 중 몇 개라고 생각한다. 새로 나온 단어들일 뿐만 아니라 새로운 개념에 관한 단어들이라 잘못 쓰이는 경우도 많고, 단어의 정의를 한마디로 설명하기 어려운 부분들도 많다. 이러한 부분들 때문에 때에 따라 각기 다른 단어를 같은 의미로 잘못 사용하는 때도 있다. 단어마다 차이점이 있는 것은 분명하지만, 어떤 점들이 다른 것일까? 그럼 지금부터 데이터 과학 분야에 관해 널리 쓰이는 단어들의 차이점을 알아보자.

인공지능 분야에서 쓰이는 단어들이 많은 사람을 헷갈리게 하는 데에는 크게 2가지 이유가 있을 것이다. 첫째는 뜻이 비슷한 단어들이 존재하기 때문이고 사람에 따라 같은 단어를 다른 의미로 사용하기 때문이다.

비슷한 여러 가지 단어들이 존재하는 가장 큰 이유는 데이터 과학이 여러 분야의 합작품이기 때문이다. 데이터 과학은 통계, 컴공, 물리, 언어학, 비즈니스 등 여러 분야가 같이 이루어낸 하나의 새로운 분야이기에 분야별로 선호하거나 이전부터 사용되었던 단어들이 따로 존재해왔다. 그리고 개념을 표현하는 단어들과 특정기술을 표현하는 단어들 또한 나누어져 있지만, 인공지능에 관한 이해 없이는 이러한 기술적 용어와 개념적 용어의 차이를 알기가 쉽지 않기 때문에 단어 사용이 헷갈리는 상황이 많이 있다.

또한, 새로운 분야라는 특성상 단어들의 정의가 아직 완전하게 규합되지 않았기에 사용하는 이 또한 혼동해서 많이 사용하고 정보를 얻는 견해에서 또한 각기 다른 단어의 뜻을 온전히 이해하기가 힘든 상황이 된 거 같다.

이러한 현재 상황에서 각각 단어의 대략적인 뜻을 풀어서 앞으로 잘못 사용되는 경우가 적게 하려고 단어별로 대략적인 설명을 붙여 보았다.

개념적으로 사용되는 단어

- 인공지능

일반 사람들에게 인공지능이란 SF 영화나 책에서 나오는 막연한 것이었다. 너무나 막연한 개념이었기에 어떤 이들한테는 두려운 존재로 다가왔고 또 다른 이들에게는 모든 것을 해결할 수 있는 기계처럼 보였다. 대부분은 인공지능이라고 불리는 큰 틀의 원리와 작동 방식이 어떠한지, 또한 현재의 기술로서 가능한 정도가 어디까지인지에 관해 몰랐을 뿐 아니라 관심 또한 없었다. 이러한 상황 속에서 알파고의 등장과 이세돌 9단과 대결에서의 승리는 많은 이들에게 적지 않은 충격을 주었고 이 충격은 관심으로 이어졌다. 하지만 이러한 상황 속에서도 인공지능이 어떠한 방식으로 기능할 수 있는지와 지금 기술로 가능한 선이 어딘지에 관해서는 아는 사람이 적다. 이러한 상황속에서 인공지능의 대략적인 정의를 표현하자면

인공지능이라는 개념은 아주 오래전부터 존재해왔다. 1960년에 엘런 튜닝의 논문에서 사람과 흡사하게 생각할 수 있는 존재에 관한 연구 이후에 일반인들 사이에서도 지속해서 사용됐던 단어이다. 인공지능이라는 단어는 사람에 의해 인위적으로 창조되었지만, 지식을 가지고 있는 것에 사용되는 아주 넓은 의미가 있다. 처음에 이 단어가 나왔을 때는 온라인을 채팅을 통해서 1/3 이상의 심사 위원을 사람이라고 속일 수 있는 기계에 한하여 사용되었지만, 현재에 와서는 언어적인 부분이 아닌 스스로 운전을 할 수 있는 시스템, 사진을 인식할 수 있는 알고리즘 등 많은 부분에서 사용된다.

- 데이터 과학

머신러닝 데이터분석 차이 - meosinleoning deiteobunseog chai

데이터 과학이란 말 그대로 정보와 데이터를 과학적인 방법으로 사용해서 유용한 정보나 기능을 만들어 내는 분야이다. 데이터 과학을 인공지능과 같은 것이라고 보기에는 첫 출발 선상이 다르지만, 현재 우리가 보고 있는 대부분 인공지능은 데이터 과학을 뼈대로 지어진 것들이다.

과거에는 정보의 양이 한정적이고 컴퓨터의 성능에 한계가 있었기 때문에 웹과 컴퓨터 상에 있는 정보들로 할수 있는 일은 굉장히 적었고 그렇기에 한 명의 사람이 데이터를 만들고 찾아내는 것에서부터 유용한 것을 뽑아내는 것까지 전부다 할수 있었다. 하지만 오늘에 와서는 상황이 많이 바뀌었다. 데이터의 양이 급속도로 늘어나면서 할수있는 일이 늘어났고 복잡해졌다. 다른 말로 말하자면 데이터 과학이라는 분야가 고도화되었고 발전했다는 것이다. 이렇게 되면서 데이터 과학이라는 큰 개념 속에 데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 조금 더 세분화시켜서 부른다.

활용(어플리케이션)에 관한 단어들

- 빅데이터

우리나라에서는 데이터 마이닝, 머신러닝과 같은 의미로 사용되는 경우가 많지만, 사실은 다른 의미가 있다. 데이터 과학 밑에 있는 하위 개념 중 하나이며 많은 양의 데이터를 다루는 기술의 의미가 있다. 많은 양의 데이터란 일반적인 컴퓨터에서 정해진 시간에 처리할 수 없는 양의 데이터를 뜻하며 그런 많은 양의 데이터를 효율적으로 다룰 수 있는 구현체를 의미한다.

- 데이터 마이닝

머신 러닝과 같은 의미로 많이 사용되지만, 출발점이 다른 언어이다. 머신 러닝은 컴공에서 출발한 단어이고 데이터 마이닝은 통계, 산업공학, 비즈니스 분야에서 생성된 단어이다. 서로 출발점이 다르다 보니 데이터 마이닝은 머신러닝을 이용해서 만들어진 애플리케이션을 지칭할 때 많이 사용된다.

빅데이터 기술

- 분산처리

많은 양의 데이터를 처리해야 할 때 한 대의 컴퓨터에서 처리하는 것이 아닌 여러 대의 컴퓨터를 병렬로 연결하여 처리하는 기술이다. 하둡등의 프로그램을 이용하여 실행하고, 많은 양의 데이터를 효율적으로 처리할 수 있는 방법이다.

- DB(데이터베이스)

웹상에서 보이는 대부분 정보는 데이터베이스에 저장되어있다고 생각하면 된다. 엑셀과 비슷하게 표로 정보를 저장하는 SQL 방식의 DB에 저장되는 것이 일반적이었지만, 최근에는 다른 방식으로 정보를 저장할 수 있는 NoSQL을 사용하는 때도 생겨나고 있고 NoSQL의 대표주자는 MongoDB 가 있다. 전통적으로 SQL을 사용하는 DB 시스템에서는 MySQL, 오라클 등이 있다.

데이터 마이닝 기술

- 머신러닝

들어온 데이터를 만들어진 알고리즘을 통과하여 기계가 스스로 학습할 수 있도록 하는 기술이다. 여러 가지 수학적인 알고리즘을 사용하여 구현되며 머신러닝을 구동시키기 위한 프로그램으로는 구글사의 Tensorflow가 가장 많이 사용되고 있다. 

- 딥 러닝

머신러닝의 한 종류며 인공신경망을 사용하여 머신러닝을 할 때에 딥러닝이라고 불린다. 이미지 인식 등의 분야에서 널리 사용되며 알파고 또한 딥러닝 기법으로 만들어졌다. 최근에 매우 많은 분야에서 사용되면서 머신러닝과 구별해서 인식해야 한다고 주장하는 사람들도 있지만, 아직 까지는 머신러닝 속의 한 부분으로 보는 시각이 대부분이다.

그림으로 보는 인공지능 단어별 상관관계

소개와 데이터 분석 강의의 목적

데이터 분석 Basic 강의 사용 방법

저는 전공자도 아니고 이쪽 분야에 있는 사람도 아닙니다. 단지 추후에 이 분야에서 일하고 싶고 관심이 많은 한 명의 사람입니다. 그렇기에 틀린 부분이 있을 수도 있고 부족한 부분들도 많습니다. 저의 의견에 반대되는 의견이 있으시거나 제가 잘못된 말을 하는 것을 찾으시면 제 이메일  이나 댓글로 알려주시면 감사하겠습니다.