'데이터사이언스'에 해당되는 글 2건

  1. 2022.04.03 데이터 천재들은 어떻게 기획하고 분석할까?
  2. 2021.10.17 직장인의 교양 데이터 과학
2022. 4. 3. 09:46
300x250

 

이제는 진짜 데이터의 시대이다.

미국에서도 향후 가장 높은 몸값을 받을 수 있는 업종으로 데이터 사이언티스트를 꼽았으며 한국에서도 솔직히 일정 이상의 수준만 된다면 정말 없어서 뽑을 수 없는 인재가 바로 데이터 관련 인재이다. 내가 왜 산업공학과를 가지 못했을까 정말 한탄스럽긴 하지만 그때는 그게 유행하지는 않았었으니 조금 아쉬운 감이 있다. 어찌 됐건 지금은 데이터를 얼마나 잘 가공하고, 효율적으로 활용할 수 있는가가 기업의 경쟁력으로 떠오르고 있다. 가끔 나오는 마케팅 방안들 중에 이러한 데이터를 연동하여 사람이 이동경로, 카드 사용 내역, 스마트폰 GPS 사용 등과 같은 다양한 비정형 데이터로 이런 데이터를 만들 수 있다는 게 너무 놀랍기도 하다.

 

데이터는 왜 중요할까?

사자가 가죽을 남기듯 우리는 뭐든 남기게 된다. 과거에 범죄현장에서 보면 발자국을 찾거나 지문을 찾는 등의 다양한 조사를 하는 경우가 많이 있는데 이러한 것이 다 데이터화 될 수 있다는 의미이다. 우리가 아무 생각없이 지하철을 광고판을 보고 있다고 생각을 하더라도 누군가는 그 광고판을 더 집중해서 볼 수 있고 위치 상 어쩔 수 없어 그 광고판을 볼 수밖에 없는 경우가 발생이 되면서 그 제품에 대해서 이해를 하거나 더 호감을 갖게 되는 경우가 있다(나 같은 경우 아이유가 광고하면 진짜 다 좋아 보인다) 그것을 전부 수치화하여 활용할 수 있다면 얼마나 효율적일까? 그래서 데이터는 현대 사회에 이르러 굉장히 중요한 역할을 한다고 생각이 된다. 왜냐고? 대체품이 너무나 많으니까!

 

나이팅게일은 이미 그 시절에 다이어그램을 활용하였다.

2차 감염이 사실은 개개인의 습관에 의해 발생되는 것을 간파한 나이팅게일은 장미 다이어그램이라는 것을 통하여 시계열로 보여주고 효과적인 시각화를 이미 그 시절에 달성하였다. 우리는 지금도 너무나 많은 PPT 화면을 보고 있는데 그 안에 너무나 많은 것을 말하고 싶은 나머지 글만 주렁주렁 달려놓는 경우가 많다. 과연 그렇게 반대 입장이 되면 그 장표를 보고 싶기나 할까? 시각화에 효율적이라고 만들어진 PPT인데 시각화를 제대로 활용하지 않는다면 워드와 다를바가 없다. 사실 시각화만큼 데이터를 가공함에 있어서 효율적으로 상대방에게 보여주는 것은 없다.

 

AI가 모든 것을 다 해줄까?

사실 우리가 알고 있는 컴퓨터는 우리가 무엇인가 데이터를 넣고 명령을 내리기 전까지는 정말 '바보' 에 불과하다고 한다. 바로 '의지'라는 것이 존재하지 않기 때문인데, 그렇기 때문에 머신러닝과 같은 것을 활용하여 목적을 사전에 준비하게 하는 과정을 거치게 된다. 우리가 사용하는 데이터 중에 비정형 데이터가 80%가 넘는다고 하는데 이것을 어떻게 활용하는 가에 따라서 우리의 능력이 달라지게 된다. AI가 우리 삶을 많이 바꿔놓기는 하겠지만 그것을 활용하고자 하는 목적과 의지를 가진 것은 사람이다. 나 스스로도 그것을 어떻게 활용해야 하는지를 인지해야 한다는 의미다.

 

모든 분야에서 활용이 될 것이다.

미래학자인 레이 커즈와일은 2045년이면 사람보다 뛰어난 두뇌를 가진 컴퓨터가 등장한다고 했다. 사실 '절대' 불가능하다는 말은 하지 않겠다. 미래는 항상 내가 생각한 것 이상으로 바뀌었기 때문이다. 감정에 대한 것도 과연 이렇게 데이터 화하여 사람의 말만 듣고도 어떤 기분인지 이해할 수 있는 그런 세상이 올까? 언젠가는 오지 않을까 조심스레 생각도 해 본다. 아직도 발전될 여지가 충분한 데이터 사이언스 분야에서 나의 아이가 이 분야로 진출하기를 원한다면 난 두 팔 들고 환영해야 할 것 같은 분위기이다. 돈 벌자 아들아!

300x250
Posted by 오르뎅
2021. 10. 17. 21:22
300x250

 

어느 매체나 데이터 사이언스가 난리다.

회사에서도 파이썬과 R을 배우라고들 난리를 피우고 있고 심지어 데이터 사이언스 시험도 관련 없는 부서에서 무조건 몇 명 이상 응시를 하고 합격을 하라고 압박을 하고 있다. 물론 관계가 없는 부서는 없을 것이다. 데이터는 어디에나 쌓여가고 있고 그것을 실질적으로 활용을 해야 하는 입장에서 좀 더 과학적으로 접근할 수 있다면 그보다 좋을 수 없을 거 같긴 한데 이제 와서 자꾸 중요하다고 배우라고 하니 처음에는 호기심이 생기더라도 무슨 말인지 이해를 못해서 포기를 하게 되기 마련이다. 나 역시 동일한 상황이다. 그러면 조금 바꿔서 교양이라는 측면에서 데이터 과학은 어떤 것인지 알아보는 것은 어떨까?

 

4차 산업 혁명은 무슨 의미를 뜻하는가?

단순히 데이터 과학으로만은 아무것도 할 수 없다(이건 심지어 책 제일 마지막 표지에도 나오는 내용이다) 데이터 과학이 유기적으로 흘러가게 되려면 데이터 과학자 혼자서 고군분투를 하는 것이 아니라 모든 사람들이 그런 데이터를 활용할 수 있는 능력을 길러야만 한다. 아무리 좋은 툴을 만들더라도 사용할 줄 아는 사람이 없으면 아무런 의미가 없다는 것이다. 실제로 회사에서 사용하는 많은 툴들이 간단한 조작을 통해서도 충분히 많은 데이터를 수집하고 가공할 수 있지만 애초에 과거의 모습에서 변하지 않으려는 문제 때문에 제대로 진행이 안 되는 경우가 왕왕 있다. 그럴수록 우리는 이러한 책을 읽음으로 인해 부담을 줄여서 다가갈 수 있어야 한다.

 

데이터 과학은 초기 구상이 중요하다.

어떠한 결과를 혹은 어떠한 과정을 해야하는가에 대한 구상이 있어야 데이터 모델을 만들 수 있다. 대학원에서 배웠던 각종 모델링 작업을 생각해 보면 단순하면서도 답이 여러 가지로 퍼지지 않도록 하는 것이 중요하기도 하다. 이후에는 성과를 제대로 낼 수 있도록 PDCA 작업 등을 해야 하는데 대부분의 사람들이 이러한 과정에서 많이 지쳐 떨어져 나가기도 한다. 실제로 회사에서 10년 전부터 각종 모델링 작업(기억으로는 6 시그마도 비슷한 모델링을 진행하는 것으로 알고 있다) 진행하였으나 현업에서 사용에 필요성을 많이 느끼지 못한 나머지 그냥 흐지부지 된 상태이다. 하지만 현업에서 이제 쌓여있는 데이터를 바로바로 찾을 수가 없는 상황이 되어서 점차 데이터 사이언스가 필요한 상황이다.

 

가끔 생각과 데이터가 일치하지 않는 것을 알 수 있다.

과거 '머니볼' 이라는 영화가 있었는데 이 영화가 바로 데이터 사이언스의 힘을 보여주는 최고의 영화라고 할 수 있다. 슈퍼스타를 포섭할 수 없는 상황에서 가장 효율적인 것은 타율이 아니라 출루율, 그리고 팀이 점수를 낼 수 있을 때 때려낼 수 있는 타율이 중요하다는 것을 여실히 보여준 내용이다. 실제로 월드시리즈에서 우승까지 했으니 충분한 효과를 보지 않았던가? 실제로 생각했던 슈퍼스타들이 필요했던 것이 아니라 가장 적절한 위치에 맞는 인원이 필요했던 것이다. 우리가 상상했던 것과 실제 데이터는 이렇게 맞지 않지만 그 간극을 줄여주는 것이 데이터 사이언스이다.

 

이제는 기계 스스로 학습까지 하는 세상이 되었다.

머신러닝이라고 하여 동일한 작업은 물론이거니와 번외로 할 수 있는 것도 배울 수 있는 능력이 생기고 있다. 많은 기사들이 자동으로 쓰이고 있고 AI를 통한 각종 산업들도 발전이 되고 있다. 과거와 같이 주먹구구 식으로만 일을 하게 된다면 이러한 시스템을 활용하는 사람들에게 뒤쳐지게 될 수밖에 없다. 교양이지만 이제는 필수가 되어 가고 있는 데이터 과학이 필요하다면 한 번 꼭 읽어봐야 할 책이라고 생각을 한다. 적어도 기본기는 충실해야 하지 않은가?

300x250
Posted by 오르뎅