
융합학부
김승재 교수
최근 4차 산업혁명시대가 도래하면서 AI(인공지능), 빅데이터(Big-data), 사물인터넷(IOT) 등 4차 산업혁명을 이끌어 갈 핵심 기술들이 일반 대중의 화두에서도 중심을 이루고 있다. 이 의미는 4차 산업혁명의 핵심 기술이 대기업, 관공서, 에볼루션 바카라사이트 및 연구소 등에서만 연구되고 사용되어지는 것이 아니라 개인, 소상공인과 개업을 하려는 상공인 및 취업을 준비하는 사람들까지 4차 산업의 핵심 기술들을 이용하여 소득과 이윤 및 자기역량 강화를 극대화시키려고 노력한다. 가령, 인공지능 기술력을 바탕으로 공업용 로봇을 사용하여 고용비용을 줄이고 생산량을 늘려 이윤을 확대하며, 물건을 파는 곳에서는 소비자의 특성을 파악하기 위해 빅데이터분석 기법을 도입하여 소비자의 성별, 연령층, 나이 등을 분류하여 각각의 소비 형태를 분석함으로써 소비자를 위한 정확한 판매를 할 수 있다.
이것은 소비자를 위한 것이라고는 하지만 결국은 상점을 운영하는 상점 주인을 위한 것이라고 볼 수 있다. 정확한 판매량과 판매 시간대를 알 수 있다면, 또한 정확한 수요층을 빅데이터 분석을 통해 알 수 있다면 재고물품 혹은 재고음식 등이 발생하지 알을 수 있다. 특히 재고음식은 보관할 수 없이 폐기처분되어야하기 때문에 상점 주인으로서는 가게 지출이 될 수밖에 없을 것이다. AI를 도입한 공장도 AI로봇이 원래의 동작을 하지 않는다면 제품에 많은 손상을 줄 것이며 이 또한 공장 입장에서는 손해를 보게 될 것이다. 이러한 AI기술과 빅데이터 분석기술은 오차가 발생하지 않을 정도로 정교한 결과를 보여주어야 한다. 이를 위해서는 단연 데이터의 중요성을 빼놓을 수 없다. 하나의 정보가 가지는 그 의미에 대해 얼마나 많은(양적) 데이터를 가지고 있는지, 그 의미에 대해 얼마나 다양한(정형데이터, 비정형데이터) 데이터를 가지고 있는지 등이 정교한 결과를 반영하는 답이 될 수 있을 것이다.
오늘날 이러한 데이터는 사물인터넷(IOT)을 통해 무수히 많이 발생하고 있으며, 이 순간에도 상상조차 할 수 없을 정도의 양으로 데이터가 어딘가에 모여지고 있다. 이제 이렇게 모여진 데이터를 잘 사용만하면 된다. 하지만 데이터를 무작정 막연하게 사용해서는 안 된다. 특정한 데이터가 많이 모아졌다고 해서 그 데이터를 쉽고 편하게 사용할 수 있는 것은 아니다. 모아진 데이터를 사용하여 정교한 결과를 얻으려면 통계학에서 다루는 빅데이터 분석기법을 적절히 활용하여 각각의 변수가 가지고 있는 의미와 변수와 변수 사이에 존재하고 상관관계(두 변수의 관련성)와 그에 따른 다중공선성(독립변수들간 관련성) 존재여부 등을 정확히 파악해야만 정확한 분석 결과를 얻을 수 있을 것이다.
하지만 데이터를 잘 분석하기 위해 각 데이터에 따른 분석기법을 설정하고 분석한다고 해도 애초부터 데이터의 분류가 잘 못 되었다면 아무리 분석한들 정교한 결과를 얻을 수는 없을 것이며, 이는 정교한 데이터뿐만아니라 분석 자체에서 나오는 결과를 신뢰할 수 없게 된다. 즉, 힘들고 어렵게 모아진 데이터가 신뢰할 수 있는 가용데이터로 사용되어지기 위해서는 모아진 데이터가 분석 목적의 가설검정에 맞게 매우 잘 분류가 되어야 한다. 그렇다면 어떻게 해야 모아진 방대한 양의 데이터를 잘 분류할 수 있을까라는 의문을 던져봐야 한다. 데이터 분류란 같은 목적의 데이터들끼리 군집을 이루게 한 후 분석기법을 적용하여 원하는 분석결과를 온전히 얻기 위한 것이다. 이러한 데이터 분류는 막연히 사용자의 눈 또는 손으로 하나하나 분류하여 완성하는 게 아니라 모아진 데이터에 대해 통계학에서 다루는 데이터 판별분석 또는 데이터 분류분석 기법을 사용하여 데이터의 분류정도를 파악 및 검증해야 한다.
AI시대 우리가 추구하는 완벽한 ‘자동화’, 완벽한 ‘AI(인공지능)’가 구축되기 위해서는 최초의 데이터 분류가 매우 잘 되어야 이후의 머신러닝(ML) 또는 딥러닝(DL)이라는 심오한 기술에서 시너지(Synergy) 효과를 낼 수 있을 것이다. 따라서 각기 적용되는 AI분야의 데이터가 올바르게 분류되어야 하는 것은 매우 중요하다.