객체 탐지에 있어 'YOLO' 알고리즘을 주목해야 하는 이유

객체 탐지에 있어 'YOLO' 알고리즘을 주목해야 하는 이유

intro

그 이전부터 인공지능 기술은 크게 관심을 받았지만, 솔직히 비전공자들한테는 크게 와닿는 분야는 아니었다. 챗GPT가 나오기 전까지는 말이다. 하지만 ChatGPT와 같은 생성형 AI가 대거 쏟아지고 언론과 미디어의 주목을 받게 되면서 비전공자들도 해당 AI를 많이 생성하게 되었고, 오히여 전공자들보다 예상치 못한 분야에서 다양하게 활용하고 있다는 내용의 글과 영상들도 자주 접해볼 수 있다.

이번 글에서는 AI분야에서 좀 생소할 수도 있지만, 컴퓨터비전 분야에서는 매우 주목하는 알고리즘이면서, '객체 감지 알고리즘'이라 불리는 모델인 <YOLO> 에 대해서 알아보도록 하겠다.

이 글은 '패스트캠퍼스'에서 [가장 빨리 도달하는 객체 감지 알고리즘 YOLO!]강의를 맡고 있으면서, [Daddy Makers]라는 블로거를 운영중인 블로거분의 인터뷰를 기반으로 한 글이다.

강사님의 블로그부터 소개하자면

해당 블로그에 대해 간략히 말하자면, 인공지능 분야에서 꽤 이름있는 블로그이다.

블로거님께서는 테크트리를 주로 정리하는 목적으로 개설한 블로그인데, 값진 테크트리 지식을 무료로 공개하자는 취지에서 모두 오픈소스를 이용한 기술개발만 다루고 있다는 특징이 돋보인다. 특히, IoT, 딥러닝, 로보틱스 기술 구현 관련하여 한국어로 된 내용이 많이 없는데 해당 블로그가 이 분야에서 선구자 역할을 하고 있다고 봐도 될 것 같다.

YOLO의 중요성에 대해

YOLO는 가성비 있는 비전 객체 탐색 기술이라 볼 수 있다. YOLO보다 정확도가 높은 모델도 많지만, 실무적인 측면에서는, 즉 나처럼 아직 배우고 성장하고 있는 대학생한테는 이것만한 프레임워크가 없다고 생각한다. YOLO는 빠른 속도와 상대적으로 높은 정확도로 비디오 등에 포함된 객체를 탐색할 수 있다. 스마트 CCTV등에 사용되는 딥러닝 모델은 다수 YOLO나 YOLO의 아키텍처를 재활용해서 개발된 것이 상당수이다.

YOLO의 빠른 속도와 상대적으로 높은 정확도라는 장점은 물류 소포 객체 분류, 지능형 교통제어, 건설 현장 안전 관리, 농작물 분류, 병충해 감지, 자율주행로봇, 병원 보안시설 보안 감지 등 전세계적으로 다양한 산업분야에서 많이 활용되고 각광받는 주된 이유이다. 쉽게 말해서 우리가 눈으로 객체 종류, 위치나 갯수를 확인하는 데 필요한 모든 분야에서 사용된다고 보면 될 것이다.

R-CNN vs YOLO

기존에 있던 객체 감지 모델인 "R-CNN" 같은 경우,이미지 안에 객체가 있을 만한 부분을 미리 얻어, 컨볼루션 넷을 이용해 특징을 추출하는 등의 여러 과정을 거쳤었다. 하지만 'YOLO'에서는 이 과정을 간략화 시켜주어, 이미지를 한번 제대로 스캔하고 객체의 특징과 경계선을 계산하는 부분만 신경쓰면 된다. 더 나가아 YOLO v5 의 경우, 실시간으로 82 ~158 FPS까지 객체들을 탐지하여 더 많은 객체식별을 처리할 수 있게 되었다. 기존에 쓰던 많은 기업들이 기존에 쓰던 R-CNN모델에서 욜로모델로 같아타게 된 것도, 이러한 이유가 큰 작용을 하였다.

R-CNN과의 성능비교

YOLO v3 기준으로 보았을때 가장 최신 R-CNN모델과 성능비교를 해보면, YOLO가 5배 이상 더 높은 처리속도를 보이는 것을 알수가 있다. 하당 이미지를 참고하자.

연구과정 및 칼럼니스트 활동 기간 동안 깨달은 인사이트 및 러닝포인트가 있다면?

강사님의 인터뷰 답변으로는, 자신이 종사하고 있는 현업 분야의 현주소(business domain)가 위험한 현장이 많은 건설분야라 YOLO를 이용하면 중대재해 방지에 필요한 안전 문제 등 다양한 유스케이스에 적용될 수 있다고 생각하였고, 이 모델을 이용해 해외 연구자들과 함께 교통 시설물 유지관리 분야 기술 연구 결과를 해외 유명 저널에 출판하기도 하여, 개인적으로 많은 도움을 받은 딥러닝 모델 중 하나라고 말씀하셨다. 강사님이 다루고 계시는 BIM에 대해서도 간단히 언급하자면, 도시나 건축물을 가상의 디지털 모델로 표현한 데이터베이스로, 요즘에는 디지털 트윈으로 자주 언급된다고 한다. 그래서, 건설정보모델의 약자인 BIM으로 불린다. 스마티시티를 관제할 때 BIM 기술이 포함된다고 한다. 더 나아가 이런 얘기를 하셨다.

현재는 하나의 지식만으로는 가치를 만들기 쉽지 않습니다. 만약, 딥러닝과 같은 소프트웨어 도구를 이해하여 잘 다룰 수 있고, 의학, 건설, 교통, 물류와 같은 다른 전공분야에 이를 사용할 수 있다면, 큰 가치를 얻을 수 있다고 생각합니다.

마지막으로, 딥러닝 엔지니어로서 실무역량을 쌓고자 하는 이들에게 하고 싶은 조언

대부분의 유명한 딥러닝 모델은 대부분 케라스나 파이토치로 구현되어 깃허브에서 오픈소스로 내려받을 수 있습니다. 더 나아가 Colab 같은 클라우드 기반 딥러닝 코드 실행 서비스를 이용하면, 별도로 GPU 드라이버 구축하여, 개발환경 구축해야 하는 환경도 이제는 크게 필요없어졌습니다. 그래서 일단은 콜랩 같은 걸로 구현된 환경에서 간단한 서비스를 구현해보고, 더 나아가서는 직접 리눅스를 설치해보고, GPU 등 개발 환경을 설정하는 등의 작업을 해보고, 더 나아가 다른 복잡한 모델도 구현해보고, 최종적으로는 딥러닝 서비스 환경도 직접 만들어보는 것이 좋을 것 같습니다. 모든 딥러닝 모델을 다 해보려 하는 것이 아니라, 하나의 모델을 정해서, 처음부터 끝까지 구현해보는 과정을 통해 전반적으로 절차지식을 얻어가는 것이 좋을 것 같습니다.

출처: https://fastcampus.co.kr/media_data_yolointerview220914

참고: https://ganghee-lee.tistory.com/34

이 글이 도움이 되었나요?

신고하기
0분 전
작성된 댓글이 없습니다. 첫 댓글을 달아보세요!
    댓글을 작성하려면 로그인이 필요합니다.