2021. 10. 17. 21:22
728x90

 

어느 매체나 데이터 사이언스가 난리다.

회사에서도 파이썬과 R을 배우라고들 난리를 피우고 있고 심지어 데이터 사이언스 시험도 관련 없는 부서에서 무조건 몇 명 이상 응시를 하고 합격을 하라고 압박을 하고 있다. 물론 관계가 없는 부서는 없을 것이다. 데이터는 어디에나 쌓여가고 있고 그것을 실질적으로 활용을 해야 하는 입장에서 좀 더 과학적으로 접근할 수 있다면 그보다 좋을 수 없을 거 같긴 한데 이제 와서 자꾸 중요하다고 배우라고 하니 처음에는 호기심이 생기더라도 무슨 말인지 이해를 못해서 포기를 하게 되기 마련이다. 나 역시 동일한 상황이다. 그러면 조금 바꿔서 교양이라는 측면에서 데이터 과학은 어떤 것인지 알아보는 것은 어떨까?

 

4차 산업 혁명은 무슨 의미를 뜻하는가?

단순히 데이터 과학으로만은 아무것도 할 수 없다(이건 심지어 책 제일 마지막 표지에도 나오는 내용이다) 데이터 과학이 유기적으로 흘러가게 되려면 데이터 과학자 혼자서 고군분투를 하는 것이 아니라 모든 사람들이 그런 데이터를 활용할 수 있는 능력을 길러야만 한다. 아무리 좋은 툴을 만들더라도 사용할 줄 아는 사람이 없으면 아무런 의미가 없다는 것이다. 실제로 회사에서 사용하는 많은 툴들이 간단한 조작을 통해서도 충분히 많은 데이터를 수집하고 가공할 수 있지만 애초에 과거의 모습에서 변하지 않으려는 문제 때문에 제대로 진행이 안 되는 경우가 왕왕 있다. 그럴수록 우리는 이러한 책을 읽음으로 인해 부담을 줄여서 다가갈 수 있어야 한다.

 

데이터 과학은 초기 구상이 중요하다.

어떠한 결과를 혹은 어떠한 과정을 해야하는가에 대한 구상이 있어야 데이터 모델을 만들 수 있다. 대학원에서 배웠던 각종 모델링 작업을 생각해 보면 단순하면서도 답이 여러 가지로 퍼지지 않도록 하는 것이 중요하기도 하다. 이후에는 성과를 제대로 낼 수 있도록 PDCA 작업 등을 해야 하는데 대부분의 사람들이 이러한 과정에서 많이 지쳐 떨어져 나가기도 한다. 실제로 회사에서 10년 전부터 각종 모델링 작업(기억으로는 6 시그마도 비슷한 모델링을 진행하는 것으로 알고 있다) 진행하였으나 현업에서 사용에 필요성을 많이 느끼지 못한 나머지 그냥 흐지부지 된 상태이다. 하지만 현업에서 이제 쌓여있는 데이터를 바로바로 찾을 수가 없는 상황이 되어서 점차 데이터 사이언스가 필요한 상황이다.

 

가끔 생각과 데이터가 일치하지 않는 것을 알 수 있다.

과거 '머니볼' 이라는 영화가 있었는데 이 영화가 바로 데이터 사이언스의 힘을 보여주는 최고의 영화라고 할 수 있다. 슈퍼스타를 포섭할 수 없는 상황에서 가장 효율적인 것은 타율이 아니라 출루율, 그리고 팀이 점수를 낼 수 있을 때 때려낼 수 있는 타율이 중요하다는 것을 여실히 보여준 내용이다. 실제로 월드시리즈에서 우승까지 했으니 충분한 효과를 보지 않았던가? 실제로 생각했던 슈퍼스타들이 필요했던 것이 아니라 가장 적절한 위치에 맞는 인원이 필요했던 것이다. 우리가 상상했던 것과 실제 데이터는 이렇게 맞지 않지만 그 간극을 줄여주는 것이 데이터 사이언스이다.

 

이제는 기계 스스로 학습까지 하는 세상이 되었다.

머신러닝이라고 하여 동일한 작업은 물론이거니와 번외로 할 수 있는 것도 배울 수 있는 능력이 생기고 있다. 많은 기사들이 자동으로 쓰이고 있고 AI를 통한 각종 산업들도 발전이 되고 있다. 과거와 같이 주먹구구 식으로만 일을 하게 된다면 이러한 시스템을 활용하는 사람들에게 뒤쳐지게 될 수밖에 없다. 교양이지만 이제는 필수가 되어 가고 있는 데이터 과학이 필요하다면 한 번 꼭 읽어봐야 할 책이라고 생각을 한다. 적어도 기본기는 충실해야 하지 않은가?

728x90
Posted by 오르뎅