전 세계의 데이터 규모가 매년 59% 증가하는 것으로 조사 되었습니다. 늘어나는 데이터의 대부분은 비정형 데이터, 즉 이미지, 동영상, 지도 등인데, 늘어나느 이유는 입력장치, 즉 센서, 디바이스, 인터넷상의 bots 및 crawlers 등이 늘어나기 때문입니다.
그렇다면 이런 데이터를 모두 저장하는 것이 맞는 해법일까요? "Garbage in, Garbage Out"
난지도 종합처리장을 생각해보면 일부 재활용 쓰레기 분리를 통해 활용은 가능하겠지만, 본질적으로 쓰레기 더미에서는 쓰레기만 나올 것입니다.
현재 데이터 관련된 현황은 다음과 같습니다.
1. 데이터와 분석의 복잡도 증가: 비구조적 데이터의 증가, 80% 이상의 비구조적 데이터는 가치가 없습니다. 정형/비정형 데이터를 어떻게 저장, 분석, 축적할 것인가가 주목되고 있습니다.
2. 경제학, 새로운 기술: 클라우드 컴퓨팅과 commodity hardward가 연산 및 저장 비용을 획기적으로 줄이고 있고, 데이터 처리의 경제학 개념을 바꾸고 있습니다. 새로운 분산 처리 프레임웍 (하둡), 풍부한 생태계와 도구가 대용량 데이터 처리를 가능하게 합니다.
이를 대응하기 위한 마이크로소프트의 빅데이타 접근 전략 입니다.
1. 하둡을 더 많은 IT Pro와 개발자가 접할 수 있게 함
. 하둡을 윈도우에서 사용 가능하도록 한다. 하둡 클러스터를 쉽게 획득, 배포, 설정하여 구동하는데 소요되는 시간을 단축합니다 .NET, 자바스크립트 등의 범용 언어와 통합하여 하둡을 통해 빅데이터를 수백만 개발자가 이용할 수 있게 합니다.
2. 하둡을 엔터프라이즈에서 사용 가능하도록 함
. 하둡과 SQL 서버간 데이터 이동이 가능하고, 분산된 환경의 하둡을 기존 윈도우, 시스템 센터, 액티브 디렉토리 등의 IT 인프라와 통합할 수 있게 하면서 엔터프라이즈가 원하는 보안, 예측된 성능을 제공할 수 있게 합니다. 또한, 하이브리드 클라우드 시나리오로 하둡을 배포할 수 있습니다. (온프레미스와 클라우드)
3. 빅데이터로 얻을 수 있는 통찰력을 모든 사용자가 활용할 수 있게 함
. SQL 서버 Analysis, Reporting Service, Sharepoint를 포함한 BI 플랫폼에 통합하여 셀프서비스 BI 도구 (엑셀 파워피봇, 디바이스 상의 파워뷰등을 통한 접근성을 제공하여 더 많은 사용자들이 빅데이터를 통해 통찰력을 얻을 수 있게 합니다.
즉, 빅데이터는 정형, 비정형 데이터로부터 조직의 모든 구성원이 통찰력을 얻어 데이터 자원을 통해 비즈니스 및 경제적인 가치를 얻을 수 있도록 하는데 목적이 있습니다.