2026.06.27 お知らせ

CNNで猫を判別：3×3畳み込みと32×32画像の読み解き

いまの検索トレンドに「cnn」が入っています。ここではニュース局ではなく、機械学習のCNN（Convolutional Neural Network／畳み込みニューラルネットワーク）を取り上げます。2026年現在でも、画像認識の土台として使われ続けています。今日は「3×3のフィルタをどう動かすの？」という一点にキュッと絞り、手を動かす前に“頭の中で動かせる”ようになることを目指します。

1. CNNの芯：3×3フィルタは何をしている？

3×3の小さな窓（カーネル／フィルタ）を画像の上でスーッと滑らせ、重ね合わせた結果を足し算します。 – エッジ検出: 左右の明るさの差に反応（縦線ピン！） – 模様検出: 点々や格子に反応（トントン） – 複数のフィルタを重ねると、輪郭→パーツ→物体へと“見る力”が育ちます。活性化関数（たとえばReLU）は、暗いところは0にして明るい反応だけを残すスイッチの役目。ノイズを「バサッ」と落として学習を安定させます。

2. 形の変わり方：32×32からのサイズ計算

サイズがどう縮むかは式で一発です。出力サイズ = floor((入力 − カーネル + 2×パディング) / ストライド) + 1

具体例で手触りをつかみます。 – 入力: 32×32（白黒1チャンネルを想定） – カーネル: 3×3 – パディング: 1（周りに1マスふちどり） – ストライド: 1（1マスずつ移動）このとき出力の高さ・幅は floor((32−3+2)/1)+1 = 32。つまり、形は変わらず情報だけが「切り取り強調」されます。一方、ストライドを2にすると floor((32−3+2)/2)+1 = 16。半分の大きさに「ギュッ」と詰められ、計算量も減ります。さらにフィルタを例えば64枚用意すると、出力は「16×16×64」。チャンネル数が増えるのは「いろんな見方の写真」を束ねるイメージです。

3. プーリングとストライドのちがい

どちらも縮める手ですが、役割が少し違います。 – 畳み込みのストライド2: 見る窓を動かす間隔を広げて、特徴を抽出しながら圧縮。学習する重みがある。 – プーリング（例：2×2, ストライド2）: 4マスのうち最大や平均だけを残す固定操作。位置ズレに強くなる「ゆるし」を与えます。実務では「畳み込み（S=1）→ReLU→プーリング」か、「畳み込み（S=2）→ReLU」を積み木のように重ねます。目的が「精度最優先」なら情報を落としにくいS=1派、「軽さ最優先」ならS=2派、という選び分けが直感的です。

4. ミニ実験メモ：小さなモデルを頭の中で動かす

猫と犬の小さな写真で想像実験をします。 – 入力を32×32×3（カラー）に統一。 – 畳み込み1: 3×3, パディング1, ストライド1, フィルタ32 → 出力は32×32×32。輪郭と色の変化にピクッと反応。 – プーリング: 2×2, S=2 → 16×16×32 に圧縮（情報は濃縮、位置は少し曖昧に）。 – 畳み込み2: 3×3, P=1, S=1, フィルタ64 → 16×16×64。耳や目のパーツに強く反応。 – 全体を平均するGlobal Average Poolingで1×1×64へ。最後に全結合で猫/犬の2クラスに変換。ここまでで「どこが反応しているか」を可視化すると、猫の耳の先や目の縁が光ります。つまり、3×3の“のぞき窓”がパーツ単位で手がかりを拾っている証拠です。

まとめ

検索トレンドに上がる「cnn」を、機械学習のCNNとして、3×3とストライドに焦点を当てて説明しました。式でサイズがスッと計算できれば、モデル設計は怖くありません。2026年時点でも、軽量化が要るモバイルやエッジでは畳み込みが主力です。まずは紙に「32→16→16」と形の変化を書き出し、頭の中でフィルタを“ぺたぺた”動かしてみてください。理解がグッと深まります。

X FB LN

CNNで猫を判別：3×3畳み込みと32×32画像の読み解き

CNNで猫を判別：3×3畳み込みと32×32画像の読み解き

目次

1. CNNの芯：3×3フィルタは何をしている？

2. 形の変わり方：32×32からのサイズ計算

3. プーリングとストライドのちがい

4. ミニ実験メモ：小さなモデルを頭の中で動かす

まとめ

お電話にてお気軽にご相談ください