우아한 백조의 발
겉으로 보이는 우아한 백조의 물밑 발은 우리가 상상하는 것만큼 우아하진 않다. 우리가 아는 데이터 분석, 데이터 시각화는 업계의 힙한 키워드가 된지 오래 되었지만 그 과정은 잘 알려지지 않았다.
하버드 비지니스 리뷰에 따르면 수 많은 기업들이 제대로 된 데이터 분석과 머신러닝을 업무에 활용하지 못하고 있다고 전했다. 의사결정에 사용되는 정형 데이터는 50% 미만이며 비정형 데이터는 1% 미만에 불과했다는 사실은 데이터 분석가들이라면 어느 정도 동의할 수 밖에 없는 불편한 진실 일것이다. 특히 데이터 과학자들은 그들의 업무 시간의 80%를 데이터 분석이 아닌 데이터 분석을 준비하는데 사용하고 있다고 말하고 있다.
이렇듯 분석가들은 분석이 아닌 준비 과정에 더 오랜 시간을 할애하고 있는 이유는 다양하다. 왜냐하면 데이터 기획, 데이터수집, 분석에 적합한 형태로 정제와 가공 그리고 디자인까지 수많은 유관부서와 협업을 해야하며 a/b테스트와 같은 가설을 입증해야하는 과정을 거쳐야 하기 때문이다.
데이터 분석이란 존재하지만 보이지 않는 것을 발견하는 일이다.
데이터 분석 과정
1. 데이터 이해
회사가 DB를 클라우드에 적재하고 있다고 가정하면, DB내 테이블의 구조를 명확하게 이해하고 있어야 한다. 이때 내려 받은 원본 데이터를 이해하기 위해 엑셀에서 필터를 사용하기도 하며, BI 툴 등을 통해 다양한 시각화를 해보기도 한다.
2. 기획
데이터를 이해하고 방향성을 잡았다면 어떤 것들을 보여줄 것인지 기획을 해야한다. 대략 5가지를 생각해 볼 수 있다.
- 어떤 데이터를 보여줄 것인가?
- 누구에게 보여 줄 것인가?
- 어디까지 구현할 수 있는가? 구현해줄수 있는 리소스가 있는가?
- 지속적으로 보여줘야 하면 자동화가 가능하도록 기획을 할 것인가?
- 어떤 형태로 보고할 것이고 보는 사람이 원하는 특정 기능이 있는가?
3. 데이터 가공
여기서 말하는 데이터 가공은 무의미한 더미 데이터속에서 유의미한 인사이트를 찾는 정제와는 다르다. 대부분의 원본 데이터의 경우 수많은 정보를 함유하고 있기 때문에 우리가 원하는 데이터만을 추출하기 위해 최적화된 형태로 치환하는 단계를 말한다. 대부분 SQL 언어를 사용하여 서버에 붙어 가지고 오는데, 인터넷에서 크롤링을 할 경우 아래 자료를 참고하길 바란다.
Data Scraping from Myounghun Kang
4. 데이터 퍼블리싱
적합한 데이터 원본으로 가지고 왔으면 BI 툴 등을 이용해서 시각화를 하여 데이터를 보고자 하는 사람들에게 쉽게 보여줄 수 있도록 퍼블리싱을 하게 된다. 퍼블링싱을 하는 곳을 다양하겠지만 기업에선 대부분 사내에 있는 서버에 올려 권한을 받는 특정 인원만 볼 수 있게 한다.
5. 피드백
피드백은 다다익선이다. 다만 꼭 데이터를 보는 사람들에게만 받기로 하자, 사공이 많으면 배가 산으로 가니까. 완성이 되기 전까지 다양한 피드백을 받게 되는데 퍼블리싱을 한 후에도 지속적인 피드백은 데이터 분석과 고객 만족을 극대화 시켜주기 때문에 피드백을 잔소리라 생각지말자.
6. 복기
데이터 분석은 중간에 하나가 바뀌게 될 경우 기존에 했던 파운데이션까지 바꿔야 하는 경우도 많다. 해서 최대한 다양한 피드백을 많이 받아 이런 불상사가 생기지 않도록 하는 것이 중요한다. 한번 데이터 분석을 A-Z를 해보면 숙련도가 쌓여 보고를 받는 사람들에게 반대로 제안까지 할 수 있는 멋쟁이가 될 수 있다. 참고로 본인이 만든 코드에 네이밍과 코멘트로 시간이 지나도 알아 볼 수 있는 습관을 들여놓는다면 나중에 스스로 대견해하는 본인의 모습을 발견할 수 있을 것이다.
'직장생활' 카테고리의 다른 글
완곡한 거절 방법 (0) | 2018.08.25 |
---|---|
빅데이터 미국에선 되는데 한국에서는 안되는 이유? (0) | 2018.08.21 |
구글은 어떻게 망할까? (0) | 2018.08.18 |
"문송합니다" (0) | 2018.08.18 |
최저임금에 대한 단상 (1) | 2018.08.18 |