일상다반사

빅 데이터의 의미와 빅 데이터 분석을 가능하게 하는 정보기술

뿌레도 2018. 12. 13. 14:30
728x90

2018년 12월 13일 14시 30분

Big-Data & 3 Infromation Technology for Big-Data Analysis






빅 데이터(Big Data)?

 빅 데이터는 두 가지의 의미가 동시에 존재한다고 볼 수 있다. 첫 번째는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집, 저장, 분석 등이 어려운 정형 및 비정형 데이터들을 의미이다. 두 번째는 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 데이터베이스 형태가 아닌 비정형의 데이터 집합을 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.

 대량의 데이터가 발생하고 빅 데이터라는 용어가 만들어져 중요시되기까지 가장 큰 기여를 한 것은 단연 인터넷과 스마트폰이다. World Economic Forum에 올라온 글에 따르면 2017년에는 1분에 410만 개의 유투브 영상 시청, 350만 개의 구글 검색, 34만 개의 어플 다운로드가 이루어지고 매분 75만 달러, 85천만원이 거래되고 있다고 한다. 또한 비행기가 30분 비행할 때마다 10테라바이트의 데이터를 만들고 내가 운전을 하면서 자동차가 보내는 정보, 우리가 보는 네비게이션, 찍히는 CCTV 등이 모두 데이터가 된다. 이에 2012년 세계 경제 포럼 10대 기술로 빅 데이터 기술을 선정했고, 우리나라의 지식경제부 전략기획단 또한 IT 10대 핵심기술로 선정했을 만큼 중요도가 높다.

 


빅 데이터 분석 기술


1.    Apache Hadoop MapReduce

 Hadoop은 간단한 프로그래밍 모델을 사용하여 분산된 환경에서 큰 규모의 데이터를 저장하고 처리할 수 있는 오픈소스 프레임워크이다. 단일 서버에서 수천대로 확장할 수 있도록 설계되었으며 각 기계는 로컬 계산 및 스토리지를 제공한다. Hadoop MapReduce는 방대한 양의 데이터를 처리할 수 있으며 계산 노드의 대형 클러스터에서 병렬로 실행된다. MapReduce모델에서 데이터 처리의 기초요소는 ‘Mappers’‘Reducers’라고 불린다. 데이터 처리 응용 프로그램을 ‘Mappers’‘Reducers’로 분해하는 것은 중요하지 않을 수 있지만 MapReduce 양식에 응용 프로그램을 작성한 후에는 클러스터에서 수 백, 수천 또는 심지어 수만 대의 시스템으로 실행되도록 응용 프로그램을 확장하면 구성이 변경된다. 이는 Hadoop MapReduce가 여러 컴퓨팅 노드로 데이터 처리과정을 쉽게 확장할 수 있다는 뜻이고 이는 프로그래머들을 끌어들이기에 충분한 요소였다고 한다.

 Hadoop이 예전에 비해 시장 지배율은 낮지만 빅 데이터 세트를 분산 처리하기 위해 Hadoop이라는 오픈 소스 프레임 워크를 언급하지 않고 빅 데이터에 관해 이야기하는 것은 거의 불가능하다. Forrester "향후 2년 내에 대기업 100%가 대형 데이터 분석하기 위해 Hadoop Spark와 같은 관련 기술을 채택할 것이다"라고 예측했다. 수년 동안 Hadoop은 관련 소프트웨어의 전체 생태계를 포함할 수 있게 성장했으며 현재의 많은 상용 빅 데이터 솔루션은 Hadoop이 기반이다.

 

2.    R

 R 시스템은 주로 GUI 인터페이스와 같은 반응형 모드의 데이터 분석을 위해 단일 멀티 코어 시스템에 중점을 둔다. 기존의 R의 코드가 프로세서 간 통신을 대형 고성능 컴퓨팅에서 쉽게 사용되는 MPI 기반으로 둔 것과 달리 R의 빅 데이터 프로그래밍 (pbdR) 코드는 데이터가 여러 프로세서에 분산되어 배치모드로 분석되는 분산메모리 시스템에 주로 초점을 뒀다. 이는 고성능 통계 계산을 사용하여 큰 데이터를 사용하는 통계 컴퓨팅을 위한 일련의 R 패키지 및 환경이다. 이는 통계 소프트웨어를 개발하기 위해 통계학자와 데이터 마이너 사이에서 사용되는 S3 / S4 클래스와 메소드가 있는 R과 동일한 프로그래밍 언어를 사용한다.

 

3.    Artificial Intelligence (AI)

 인공지능의 개념은 컴퓨터가 존재하고 난 이후부터 오랫동안 사용된 단어지만, 이 기술은 지난 2년동안 진정으로 유용하게 됐다. 여러 분야에서 빅 데이터의 추세는 인공지능, 특히 머신 러닝과 딥 러닝이라는 두 가지 분야에서 발전을 주도했다. 첫 번째로 머신 러닝의 표준 정의는 "컴퓨터가 명시적으로 프로그래밍 되지 않고 학습할 수 있는 능력"을 제공하는 기술이라는 것이다. 대형 데이터 분석에서 기계가 스스로 학습 기술을 통해 시스템은 과거 데이터를 보고 패턴을 인식하여 모델을 작성하고 미래 결과를 예측할 수 있다. 두 번째로 딥 러닝 (deep learning)은 인공 신경망에 의존하는 기계 학습 기술의 일종으로, 데이터를 분석하기 위해 여러 계층의 알고리즘을 사용한다. 분석 툴이 이미지 및 비디오의 컨텐츠를 인식하고 그에 따라 처리하도록 허용하는 등의 많은 가능성이 있다.

 집고 넘어가야할 부분이 있다면 머신 러닝과 딥 러닝은 빅 데이터를 기반으로 한다는 것이다. 예를 들어 집에서 동국대까지 가는 길에 대한 정보가 없고, 그 외에 길이나 지도에 대한 정보 또한 없다고 하자. 그러면 내가 집에서 컴퓨터 검색을 통해 등교하는 방법을 찾을 수 있을까? 전혀 불가능하다. 즉 학교를 가는 방법이 A 혹은 B, C, D 어디를 거쳐서 가던지 상관없이 길에 대한 정보가 있어야 그 길에 대해 학습을 하고 최단시간에 가는 방법을 알 수 있을 것이다. 이처럼 인공지능은 빅 데이터가 있음으로 가능하는 것을 알 수 있다.

 


 정보통신기기의 발달에 따라 빅 데이터가 생기면서 이점도 많지만 문제점도 생기고 있고 이를 인식하는 국민의 수도 늘어나는 추세이다. 과학기술정보통신부의 정보보호실태조사에서 빅 데이터 서비스 확산 시 우려되는 문제점에 대해 설문을 했다. 과도한 개인정보의 수집이 33.3%(2015)에서 55.0%(2017), 수집된 개인정보의 무단 활용(홍보, 판촉 등)27.6%에서 49.8%, 수집된 정보의 분석을 통한 개인 특성 분석 및 차별(고객 분류, 고객 차별 등)16.8%에서 42.0%, 빅 데이터 해킹 및 그로 인한 개인정보 누출/유출 피해(보이스 피싱, 스미싱 등)16.8%에서 36.2%로 약 20% 상승하면서 과거보다 더 많은 사람이 빅 데이터에 대한 우려를 표출했다.


 소설 《1984년》을 보면 빅 브라더는 텔레스크린을 통해 소설 속의 사회를 끊임없이 감시한다. 이는 사회 곳곳에, 심지어는 화장실에까지 설치되어 있어 사생활 침해를 보여준다. 사회의 희망적 권력체제가 아닌 독점권력의 관리자들이 민중을 유혹하고 정보를 왜곡하여 얻는 강력한 권력의 주체가 바로 빅 브라더의 정보수집으로 완성된다고 할 수도 있다.

 빅 데이터를 분석하고 활용하는 것은 좋지만 그것이 소설 속 빅 브라더를 만들거나 이와 같이 악용된다면 없는 것이 낫지 않을까? 도덕과 윤리를 바탕으로 기술을 이용하기를 바라며, 우리들도 또한 빅 데이터에 의한 편리를 누리는 것과 동시에 스스로 정보를 보호하고 지키는 법을 배운다면 보다 나은 미래가 될 것이라고 생각된다.





 주제에 대해 개인적인 생각을 기술한 문서입니다.

300x250