Machine Learning 20

Activation Function 이란 무엇인가?

Activation FunctionNeural Network의 각 layer는 Activation Function을 사용하여 layer를 통과한 output을 변환하고,이 변환된 output을 다음 layer로 전달합니다. Activation Function은 비선형성을 추가하여 Neural Network가 복잡한 패턴과 관계를 학습할 수 있도록 해줍니다.  Activation Function을 사용하는 이유Activation Function이 없으면 Neural Network의 모든 layer는 선형 변환만을 수행하게 되며, 이는 Linear Regression과 같은 단순한 모델과 다른 점이 없습니다. 결과적으로, DNN을 구성하더라도 복잡한 문제를 해결할 수 없습니다.즉, layer를 겹겹히 쌓더..

ResNet 이란 무엇인가?

요약ResNet(Residual Network)은 2015년 He et al.에 의해 제안된 Deep Learning 모델로,Deep Neural Network 에서의 학습 문제를 해결하기 위해 도입되었습니다.ResNet은 전통적인 CNN(Convolutional Neural Network)에서 residual connection이라는 개념을 사용하여매우 깊은 네트워크에서도 효과적으로 학습할 수 있습니다.ResNet은 Object Detection, Classification 등 다양한 Computer Vision Task에서 널리 사용됩니다.말이 어려워 보이지만, Output에 Input을 Short cut으로 연결하여 학습을 수행하는 간단한 구조를 가집니다.기존 CNN의 문제점CNN은 깊이가 깊어질수..

이미지로부터 실제 좌표를 얻기 위한 Camera Transformation 수행

이번 글에서는 Camera Transformation 개념에 대해서 간단히 언급하겠습니다. 우선 Camera Transformation 은 카메라에 보인 물체를 실제 좌표계의 위치로 옮기는 작업입니다. 카메라 상에서 물체의 x, y pixel 좌표와 Depth 를 이용하여물체의 Camera coordinate를 얻고,Camera의 x, y, z 좌표와 w, x, y, z 쿼터니언을 이용해 Camera Transformation Matrix를 획득해Camera Coordinate를 Real World Coordinate로 변환하게 됩니다.  잠시 넘어가기 전에 쿼터니언에 대해서 간단하게만 설명하겠습니다.쿼터니언은 굉장히 비직관적인 개념입니다.대부분의 회전은 Roll Pitch Yaw라고 하는 방식으로 설명..

Intel RealSense 를 활용한 YOLOv8 RealTime Object Segmentation

지난 글에서는 YOLOv8 을 이용하여RGB camera input을 Realtime Object Segmentation 수행하였습니다. YOLOv8 으로 RealTime Object Segmentation 수행하기YOLOv8 을 이용하여 간단하게 RGB Webcam의 Realtime Segmentation을 수행해보았습니다. 기존의 boundary box를 쳐주는 YOLO 는 많이 익숙하실 것이라 생각이 듭니다. Segmentation은 그에 더해 인식된 Object가 실제cobang.tistory.com 이제 어떤 물체를 segmentation 하는 것과 동시에전체 pixel에 대한 평균 Depth를 계산하여 거리 정보를 추출하도록 만들어보겠습니다. 저는 Intel RealSense D435 Dept..

YOLOv8 으로 RealTime Object Segmentation 수행하기

YOLOv8 을 이용하여 간단하게 RGB Webcam의 Realtime Segmentation을 수행해보았습니다.기존의 boundary box를 쳐주는 YOLO 는 많이 익숙하실 것이라 생각이 듭니다.Segmentation은 그에 더해 인식된 Object가 실제로 존재하는 영역에 대해서 구분하게 됩니다. 일단 물체의 경계를 구분한다는 것 자체가 굉장히 의미가 있는 것 같습니다.물체와 배경의 차이를 모델이 정확히 인지한다는 것입니다. 속도는 GeForce RTX 2080 Ti 에서 yolov8n-seg.pt 모델을 사용한 결과약 150fps 정도의 추론 속도가 나왔습니다.Segmentation인데도 속도가 어마어마한 것 같습니다.저는 예전에 가상환경을 만들어두었기에해당 가상환경에서 yolov8을 구동시켰습..

BundleSDF (3D Pose Estimation & Reconstruction) Example 수행

BundleSDF는 RGB-D video input과 Camera Intrinsic Matrix, XMem의 Object Segmentation을 이용하여 Segment Object의 3D Pose Estimation 과 3D reconstruction 을 수행할 수 있는 방식입니다. 추가 정보는 아래 글들에서 확인하시기 바랍니다. [논문 리뷰] BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown ObjectsUnknown object에 대해 3D Pose Estimation 과 Object SLAM 기술이 동시에 가능한 BundleSDF에 대해서 살짝 찍먹해보았는데요. 저도 완전히 이해하진 못했지만 간단하게 Input과 Output의 흐..

[논문 리뷰] BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects

Unknown object에 대해 3D Pose Estimation 과 Object SLAM 기술이 동시에 가능한BundleSDF에 대해서 살짝 찍먹해보았는데요.CVPR 2023 에서 발표된 논문입니다.저도 완전히 이해하진 못했지만 간단하게 Input과 Output의 흐름과 사용된 방식들을 이해해보려고 했습니다. 생각보다 아직은 적용하기에는 무리가 있어보였습니다. 물론 제 실력은 훨씬 열등하지만...  그래도 아래 링크를 눌러 확인해보시면 그 기술은 굉장하다는 생각이 들었습니다. BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown ObjectsWe present a near real-time method for 6-DoF tracking ..

Python3 에서 Intel RealSense Camera Intrinsic Matrix 얻기

Camera Intrinsic Matrix? Camera Intrinsic Matrix는 카메라의 내부 매개변수를 나타내는 행렬로,컴퓨터 비전에서 카메라의 기하학적 및 광학적 특성을 정의하는 데 사용됩니다.이 행렬은 카메라가 3차원 세계를 2차원 이미지로 어떻게 투영하는지에 대한 정보를 제공합니다. Depth Camera의 Camera Intrinsic Matrix 는 다음과 같은 형태를 가집니다.여기서,( f_x, f_y ): 카메라의 초점 거리(focal length).  f_x 와  f_y는 각각 x축과 y축 방향의 카메라 렌즈의 초점 거리를 나타냅니다. 이 값들은 픽셀 단위로 표현되며, 카메라 렌즈의 확대 능력을 나타냅니다.( c_x, c_y ): 주점(principal point). 이는 카메라..

CenterPose 환경 구성 및 shoes 예제 수행

Object Pose Optimization 방식 중 하나인 CenterPose 예제 구동을 위해 환경 구성 및 구현을 수행하는 글입니다.CenterPose는 Category에 존재하는 Monocular RGB Input Source 만으로도Object의 3D Object Bounding Box를 Output으로 도출할 수 있습니다. 2022년 ICRA에 등재된 논문이고 해당 논문에 대한 소개는 아래 글을 참조하시기 바랍니다. [논문 리뷰] CenterPose - Single-Stage Keypoint-Based Category-Level Object Pose Estimation from an RGB Image (2022 ICRA)최근 Object Pose Estimation 에 관해 연구를 하게 되어 ..

728x90
반응형