데이터가 뛰어노는 AI 놀이터, 캐글

데이터가 뛰어노는 AI 놀이터, 캐글

1. 표지

2. 책 정보

A. 분류

  • 국내도서
    • IT 모바일
      • 프로그래밍 언어
        • 파이썬
      • 컴퓨터 공학
        • 인공지능
      • OS/데이터베이스
        • 클라우드/빅데이터

B. 책소개

줄거리

데이터 분석 무한 경쟁 ‘캐글’에서 살아남기 위한 비결

세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다. 특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다.

3. 책에 대한 느낌

캐글에 대해 알게 된 후로 캐글에 도전하고 싶은 생각이 종종 머릿속에 맴돌았다. 하지만 관련 책들도 마땅히 찾기 힘들었고, 작년과 올해 초에는 너무 바빴다. 그래서 차일피일 미루게 되었다. 그런데 마침 한빛미디어에서 진행하는 <나는 리뷰어다> 활동을 통해 이 책을 만나게 되었다.

흥미 있던 분야이기도 하고 기존에 인공지능을 공부했기도 해서 수월하게 책이 읽힐 것으로 생각하고 책을 읽어나갔다. 그래도 아직 많이 부족한지 생소한 용어들이 종종 나타났다. 첫 회독은 가볍게 읽으려고 했기에 체크만 하고 넘어가려 했다. 그런데 생소했던 용어들을 바로 다음에 설명하거나 주석을 달아서 설명하는 것이 가장 인상 깊었다.

나는 올해 초에 졸업작품으로 헬스케어 관련 주제로 딥러닝을 이용한 적이 있다. 그 당시를 되돌아보면 이렇게 하니까 더 좋아지던데?, 이렇게 하니까 모델이 좀 더 개선되던데? 와 같이 느낌적인 감각에 의존했다. 그냥 하다 보니까 되더라라는 말이 어울릴 정도로 얕게 공부하고 모델을 만들었다. 그래서 이렇게 하면 더 좋아지는지는 알지 못했다. 짧은 시간 안에 유의미한 결과를 내야 한다는 부담이 수박 겉핥기식으로 공부를 진행하게 한 듯하다. 이 책에서는 이런 방식은 왜 사용하였고, 다른 방식은 어떤 것이 있는지에 대해 잘 설명해준다.

책의 구성은 O'Reilly와 유사하다고 느꼈다. 개발자를 꿈꾸기에 O'Reilly 책을 많이 가지고 있는데, 이런 책들은 목차에들어가기에 앞서 이 책에서 다루는 내용을 간략히 설명하고 대상 독자와 다루지 않는 내용에 대해 언급하고 넘어간다. 나는 이런 부분이 좋다고 생각한다.

이 책은 캐글 대회에 유용한 내용이지만 다른 책에서 다루지 않는 내용을 상세하게 설명한다. 특히 모델의 성능을 올리는 데 중요한 각 기법의 장단점 및 특성을 최대한 설명하고자 한다. 이미지, 음성, 자연어 등의 기술의 세부사항은 다루지 않는다.

맨날 코드만 잔뜩 써진 책들을 봐서 그런지 코드 부분이 부족하다고 느낀다. 그래서 한빛출판네트워크 홈페이지나 깃헙을 찾아보니 저자가 올려둔 소스코드를 찾을 수 있었다. [1] 그러니 책을 한번 읽고 소스코드를 따로 실행해보면서 여러 번 반복 학습하는 것도 좋은 방법이라 생각한다.

나는 이 책을 캐글에 도전해보고 싶은 초보자에게 매우 추천한다.




"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."




[1] LDJWJ. "kagglebook". Github. LDJWJ/kagglebook: 데이터가 뛰어노는 AI 놀이터 소스코드 (github.com). (accessed Jun 16, 2021)

이 글이 도움이 되었나요?

신고하기
0분 전
작성된 댓글이 없습니다. 첫 댓글을 달아보세요!
    댓글을 작성하려면 로그인이 필요합니다.