4.1) 物体認識とは?

物体認識とは、コンピューターに画像上の物体を認識させる技術です。
例えば、犬を認識させるには、大量の犬の画像をコンピューターに学習させます。 コンピューターは、大量の画像から犬の特徴を学習していき、画像上の物体が犬であると認識できるようになります。
物体認識は、物体の領域を学習させる方法によって、 「画像分類」、「物体検出」、「セグメンテーション」の3種類の手法に分けられます(図1)。
../_images/41_1_object_detection_type.png

図1 物体認識手法の種類

画像分類

「画像分類」は、画像に映っている物体の種類を判別して、画像を分類する手法です。 この手法では、画像に映っている物体が何かを教えてくれるだけなので、 その物体が写真のどの位置にあるかまではわかりません。

画像分類の代表的なアルゴリズムには、ResNetやVGGがあります。

物体検出

「物体検出」は、画像に映っている物体の種類に加えて、 その物体の位置(物体を囲った矩形の領域)まで予測する手法です。 この手法では、物体の名前とその位置までは教えてくれますが、 物体の正確な境界まではわかりません。

物体検出の代表的なアルゴリズムには、YoloやSSDなどがあります。

物体検出については、 4.2節 で詳しく説明します。

セグメンテーション

「セグメンテーション」(正確にはセマンティックセグメンテーションと言います)は、 画像に映っている物体の種類に加えて、 その物体の境界領域まで予測する手法です。

セグメンテーションの代表的なアルゴリズムには、FCNやDeeplabv3+などがあります。