2026.06.27 お知らせ

CNNで猫を判別:3×3畳み込みと32×32画像の読み解き

CNNで猫を判別:3×3畳み込みと32×32画像の読み解き

いまの検索トレンドに「cnn」が入っています。ここではニュース局ではなく、機械学習のCNN(Convolutional Neural Network/畳み込みニューラルネットワーク)を取り上げます。2026年現在でも、画像認識の土台として使われ続けています。今日は「3×3のフィルタをどう動かすの?」という一点にキュッと絞り、手を動かす前に“頭の中で動かせる”ようになることを目指します。

目次

  1. CNNの芯:3×3フィルタは何をしている?
  2. 形の変わり方:32×32からのサイズ計算
  3. プーリングとストライドのちがい
  4. ミニ実験メモ:小さなモデルを頭の中で動かす

1. CNNの芯:3×3フィルタは何をしている?

3×3の小さな窓(カーネル/フィルタ)を画像の上でスーッと滑らせ、重ね合わせた結果を足し算します。 – エッジ検出: 左右の明るさの差に反応(縦線ピン!) – 模様検出: 点々や格子に反応(トントン) – 複数のフィルタを重ねると、輪郭→パーツ→物体へと“見る力”が育ちます。 活性化関数(たとえばReLU)は、暗いところは0にして明るい反応だけを残すスイッチの役目。ノイズを「バサッ」と落として学習を安定させます。

2. 形の変わり方:32×32からのサイズ計算

サイズがどう縮むかは式で一発です。 出力サイズ = floor((入力 − カーネル + 2×パディング) / ストライド) + 1

具体例で手触りをつかみます。 – 入力: 32×32(白黒1チャンネルを想定) – カーネル: 3×3 – パディング: 1(周りに1マスふちどり) – ストライド: 1(1マスずつ移動) このとき出力の高さ・幅は floor((32−3+2)/1)+1 = 32。つまり、形は変わらず情報だけが「切り取り強調」されます。 一方、ストライドを2にすると floor((32−3+2)/2)+1 = 16。半分の大きさに「ギュッ」と詰められ、計算量も減ります。 さらにフィルタを例えば64枚用意すると、出力は「16×16×64」。チャンネル数が増えるのは「いろんな見方の写真」を束ねるイメージです。

3. プーリングとストライドのちがい

どちらも縮める手ですが、役割が少し違います。 – 畳み込みのストライド2: 見る窓を動かす間隔を広げて、特徴を抽出しながら圧縮。学習する重みがある。 – プーリング(例:2×2, ストライド2): 4マスのうち最大や平均だけを残す固定操作。位置ズレに強くなる「ゆるし」を与えます。 実務では「畳み込み(S=1)→ReLU→プーリング」か、「畳み込み(S=2)→ReLU」を積み木のように重ねます。目的が「精度最優先」なら情報を落としにくいS=1派、「軽さ最優先」ならS=2派、という選び分けが直感的です。

4. ミニ実験メモ:小さなモデルを頭の中で動かす

猫と犬の小さな写真で想像実験をします。 – 入力を32×32×3(カラー)に統一。 – 畳み込み1: 3×3, パディング1, ストライド1, フィルタ32 → 出力は32×32×32。輪郭と色の変化にピクッと反応。 – プーリング: 2×2, S=2 → 16×16×32 に圧縮(情報は濃縮、位置は少し曖昧に)。 – 畳み込み2: 3×3, P=1, S=1, フィルタ64 → 16×16×64。耳や目のパーツに強く反応。 – 全体を平均するGlobal Average Poolingで1×1×64へ。最後に全結合で猫/犬の2クラスに変換。 ここまでで「どこが反応しているか」を可視化すると、猫の耳の先や目の縁が光ります。つまり、3×3の“のぞき窓”がパーツ単位で手がかりを拾っている証拠です。

まとめ

検索トレンドに上がる「cnn」を、機械学習のCNNとして、3×3ストライドに焦点を当てて説明しました。式でサイズがスッと計算できれば、モデル設計は怖くありません。2026年時点でも、軽量化が要るモバイルやエッジでは畳み込みが主力です。まずは紙に「32→16→16」と形の変化を書き出し、頭の中でフィルタを“ぺたぺた”動かしてみてください。理解がグッと深まります。

一覧に戻る

CONTACT

お電話にてお気軽にご相談ください

はじめての方も安心して通えるよう、
スタッフが丁寧にご案内いたします。

電話する