本文へスキップ
AI通信
Geminiは画像・PDF・動画・音声を1つのAIで理解し、テキスト以外の情報もそのまま渡せる。比較型のインフォグラフィックで、つの入力タイプを同じチャットで扱える、名刺・契約書・議事録・文字起こしに直結、まず画像1枚から手軽に試せるを図解。

Geminiで画像・動画・音声を扱う方法と実用例

Geminiのマルチモーダル機能を徹底解説。画像・PDF・動画・音声をGeminiに入力する具体的な手順と、日常業務で使える実用例を入力タイプ別に紹介します。テキスト以外の活用法を知りたい方に最適な2026年3月最新ガイドです。

| 約13分

この記事は「Google Gemini入門ガイド2026年版」の関連記事です。Geminiの全体像を先に把握したい方は、入門ガイドをご覧ください。

Geminiはテキストだけのツールではありません。画像、PDF、動画、音声といったさまざまな形式の入力を受け取り、内容を理解して回答を生成できます。この能力は「マルチモーダル」と呼ばれ、Geminiの大きな特長の一つです。

テキストでの質問には慣れたけれど、画像や動画を使ったことはない。そんな方は少なくないでしょう。この記事では、各入力タイプの具体的な操作手順と、業務で役立つ活用例を紹介します。

マルチモーダルとは何か

マルチモーダル(multimodal)とは、テキスト・画像・音声・動画など、複数の種類の情報を同時に処理できる能力を指します。従来のAIチャットボットはテキストの入出力に限定されていましたが、Geminiは「見る」「聞く」「読む」を組み合わせた理解が可能です。

たとえば、グラフの画像を見せて「この売上推移の傾向を分析して」と指示したり、会議の録音を渡して「要点を箇条書きにまとめて」と依頼したりできます。テキストだけでは伝えにくい情報を、そのままの形でGeminiに渡せる点がマルチモーダルの価値です。

Geminiが対応する入力タイプ

2026年3月現在、Geminiは以下の入力タイプに対応しています。

入力タイプ対応形式の例入力方法
画像JPEG, PNG, WebP, GIFアップロード、貼り付け、カメラ撮影
PDF・ドキュメントPDF, Google ドキュメントアップロード、Google ドライブ連携
動画MP4, MOV, YouTube URLアップロード、YouTube URL貼り付け
音声MP3, WAV, M4Aアップロード、マイク入力

対応するモデルや機能は、FlashとProで共通しています。モデルの違いについては「Gemini FlashとProの違いと選び方を徹底比較」で詳しく解説しています。

画像を使った活用法

画像入力は、Geminiのマルチモーダル機能の中で最も手軽に試せる機能です。写真やスクリーンショットをアップロードするだけで、内容の説明、分析、テキスト抽出などを行えます。

画像をGeminiに渡す手順

Web版(gemini.google.com)の場合:

  1. チャット入力欄の左にある「+」(添付)アイコンをクリックする
  2. 「ファイルをアップロード」を選択し、画像ファイルを指定する
  3. 画像がサムネイルとして表示されたことを確認する
  4. テキスト入力欄に指示を入力して送信する

スマホアプリの場合:

  1. チャット画面でカメラアイコンまたは画像アイコンをタップする
  2. 「カメラで撮影」または「ギャラリーから選択」を選ぶ
  3. 画像が添付されたことを確認し、指示を入力して送信する

一度に複数の画像をアップロードすることも可能です。比較分析をしたい場合は、2枚以上の画像を同時に添付してください。

画像入力の実用例

例1: 名刺の情報をテキスト化する

名刺の写真を撮影してGeminiに渡し、「この名刺の情報を以下の項目に整理してください:氏名、会社名、部署・役職、電話番号、メールアドレス」と指示します。手入力に比べて正確で素早く、CRM(顧客管理システム)への登録作業を効率化できます。

例2: グラフや図表の内容を分析する

プレゼン資料に含まれるグラフのスクリーンショットを渡し、「このグラフから読み取れる3つの重要なポイントを教えてください」と指示します。数値の読み取りだけでなく、傾向や異常値の指摘も行ってくれます。

例3: 外国語の看板やメニューを翻訳する

海外旅行先で撮影した看板やレストランのメニュー写真を渡し、「この内容を日本語に翻訳してください」と依頼します。手書き文字やデザインフォントにもある程度対応可能です。

例4: 商品写真から仕様を調べる

型番がわからない機器や部品の写真を撮影し、「この製品の名称と主な仕様を教えてください」と質問します。Geminiが画像から製品を特定し、関連情報を提示してくれます。

画像入力のコツ

画像から精度の高い回答を得るためのポイントをまとめます。

  • 解像度を確保する: 文字を含む画像は、文字が読み取れる程度の解像度で撮影する
  • 対象を明確にする: 「右側のグラフについて」のように、複数の要素がある場合は対象を指定する
  • 指示を具体的にする: 「この画像について教えて」ではなく、「この画像の植物の名前と育て方を教えて」のように目的を明示する

プロンプトの書き方全般については「Geminiで成果を出すプロンプトの書き方と日本語のコツ」も参考にしてください。

PDFとドキュメントの活用法

PDFやドキュメントファイルをGeminiに渡すと、長文の要約、特定情報の抽出、内容に基づく質疑応答が行えます。数十ページの報告書も、アップロードするだけで全体を把握できます。

PDFをGeminiに渡す手順

  1. チャット入力欄の「+」アイコンからPDFファイルをアップロードする
  2. ファイルが添付されたことを確認する
  3. 「このPDFの内容を3行で要約してください」などの指示を入力して送信する

Google ドライブに保存されたファイルは、ドライブ連携機能を使って直接参照することもできます(Gemini Advanced利用時)。

PDF入力の実用例

例1: 契約書のポイントを抽出する

取引先から届いた契約書PDFをアップロードし、「この契約書の中で、解約条件と損害賠償に関する条項を抜き出してください」と指示します。全文を読まなくても、重要な条項をすばやく把握できます。

なお、法的判断はGeminiの回答のみに依拠せず、専門家に確認してください。

例2: 調査レポートを要約する

業界レポートや行政の調査資料をアップロードし、「この報告書の主な発見を5つの箇条書きで要約してください」と依頼します。50ページを超える資料でも、数秒で概要を得られます。

例3: 英語論文の内容を日本語で把握する

英語のPDF論文をアップロードし、「この論文の研究目的、手法、結論を日本語で簡潔に説明してください」と指示します。翻訳ツールでは失われがちな文脈やニュアンスも含めて理解できます。

PDF入力の注意点

  • スキャン画像のPDF(テキストが画像として埋め込まれたもの)も処理可能ですが、OCR精度に依存するため、テキスト埋め込み型のPDFより精度が下がる場合があります
  • 機密性の高い文書をアップロードする場合は、組織のセキュリティポリシーを確認してください
  • ファイルサイズの上限は、2026年3月現在で1ファイルあたり100MBです

動画の活用法

Geminiは動画の内容を理解し、場面の説明、要約、特定シーンの検索などを行えます。動画ファイルのアップロードに加え、YouTube動画のURLを貼り付ける方法も利用可能です。

動画をGeminiに渡す手順

動画ファイルをアップロードする場合:

  1. チャット入力欄の「+」アイコンから動画ファイルを選択する
  2. アップロードが完了するまで待つ(ファイルサイズにより数秒から数分)
  3. テキスト入力欄に指示を入力して送信する

YouTube動画のURLを使う場合:

  1. YouTubeで対象の動画を開き、URLをコピーする
  2. チャット入力欄にURLを貼り付ける
  3. 「この動画の内容を要約してください」などの指示を入力して送信する

YouTube URLを使う方法はファイルのアップロードが不要なため、手軽に試せます。

動画入力の実用例

例1: 会議録画の議事録を作成する

社内会議の録画ファイルをアップロードし、「この会議の議題、主な発言内容、決定事項をまとめてください」と指示します。議事録作成の工数を大幅に削減できます。

例2: 製品デモ動画の手順を文書化する

ソフトウェアの操作デモ動画を渡し、「この動画で行われている操作手順をステップバイステップで書き出してください」と依頼します。マニュアル作成の下書きとして活用できます。

例3: YouTube動画の内容を素早く把握する

1時間を超えるセミナー動画のURLを貼り付け、「この動画の要点を10個の箇条書きにまとめてください」と指示します。動画を全編視聴する時間がないときに便利です。

例4: 動画内の特定情報を検索する

研修動画のURLを渡し、「この動画の中で『セキュリティポリシー』について言及しているのは何分ごろですか」と質問します。タイムスタンプ付きで該当箇所を教えてくれます。

動画入力の注意点

  • 長時間の動画は処理に時間がかかる場合があります。まずは短い動画で機能を試してみてください
  • 動画内の音声と映像の両方が分析対象になります。音声のない動画では、映像のみに基づく回答になります
  • アップロードできる動画のファイルサイズには上限があります(2026年3月現在、2GBまで)

音声の活用法

音声ファイルをGeminiにアップロードすると、文字起こし(トランスクリプション)、要約、翻訳などを実行できます。また、スマホアプリではマイクからの音声入力にも対応しています。

音声をGeminiに渡す手順

音声ファイルをアップロードする場合:

  1. チャット入力欄の「+」アイコンから音声ファイルを選択する
  2. アップロードが完了したことを確認する
  3. 「この音声の内容を文字に起こしてください」などの指示を入力して送信する

スマホアプリでマイク入力を使う場合:

  1. チャット画面でマイクアイコンをタップする
  2. 話しかけると音声がリアルタイムで認識される
  3. 追加の指示をテキストで入力することも可能

音声入力の実用例

例1: インタビュー音声を文字起こしする

取材やヒアリングの録音ファイルをアップロードし、「この音声を文字起こしし、話者を区別して記録してください」と指示します。専用の文字起こしツールを使わなくても、高精度なテキスト変換が可能です。

例2: 外国語の音声を翻訳する

英語のポッドキャストや講演の音声をアップロードし、「この音声の内容を日本語に翻訳して要約してください」と依頼します。リスニングが苦手な言語でも内容を把握できます。

例3: 会議の音声から決定事項を抽出する

会議の録音ファイルを渡し、「この会議で決定された事項と、各担当者のアクションアイテムを一覧にしてください」と指示します。聞き返す手間なく、すぐに次のアクションに移れます。

音声入力の注意点

  • 背景雑音が多い音声は認識精度が下がることがあります。録音時にはできるだけ静かな環境を確保してください
  • 複数人が同時に話している部分は、話者の区別が難しい場合があります
  • 音声ファイルの長さによっては処理時間が長くなります。1時間を超える音声は、分割してアップロードすると安定します

入力タイプを組み合わせる

Geminiのマルチモーダル機能は、複数の入力タイプを組み合わせることで、さらに実用的になります。

組み合わせの例

画像 + テキスト指示: 製品の写真と仕様書のテキストを同時に渡し、「この写真の製品が仕様を満たしているか確認してください」と依頼します。

PDF + 画像: 企業の財務報告書PDFとプレゼン用のグラフ画像を同時にアップロードし、「グラフの数値が報告書の記載と一致しているか確認してください」と指示します。

動画 + テキスト: 作業手順の動画をアップロードしつつ、テキストでチェックリストを渡し、「この動画の作業がチェックリストのすべての項目を満たしているか確認してください」と依頼します。

組み合わせ次第で、検品、ファクトチェック、翻訳確認など、従来は人手で行っていた作業の効率化が期待できます。

無料版と有料版の違い

マルチモーダル機能は無料版のGeminiでも利用可能ですが、一部に制限があります。

機能無料版Gemini Advanced(有料版)
画像入力利用可能利用可能
PDF入力利用可能(サイズ制限あり)利用可能(大容量対応)
動画入力YouTube URLのみファイルアップロードも対応
音声入力マイク入力のみファイルアップロードも対応
Google ドライブ連携非対応対応
処理速度標準高速

日常的にマルチモーダル機能を業務で使う場合は、ファイルアップロードや大容量対応が含まれるGemini Advancedの利用を検討する価値があります。Geminiのアプリ導入がまだの方は「Geminiアプリの始め方 — 登録・設定・初回操作の全手順」を参照してください。

よくある質問

アップロードした画像やファイルはGoogleに保存されますか

Geminiにアップロードされたファイルは、処理のために一時的にGoogleのサーバーに送信されます。アクティビティ設定でGeminiアプリアクティビティをオフにしている場合、ファイルは最大72時間で削除されるとGoogleは説明しています。機密性の高い情報を扱う場合は、組織のセキュリティポリシーと照らし合わせて判断してください。

日本語の手書き文字も認識できますか

Geminiは日本語の手書き文字にも対応していますが、認識精度は文字の読みやすさに大きく依存します。丁寧に書かれたメモであれば高い精度で認識できますが、走り書きや崩し字は誤認識が増える傾向があります。重要な情報は認識結果を目視で確認してください。

動画の長さに制限はありますか

2026年3月現在、Gemini Advancedでアップロード可能な動画ファイルは2GBまでです。YouTube URLを使う場合は、公開されている動画であれば基本的に長さの制限なく内容を分析できます。ただし、非常に長い動画では回答の網羅性が下がることがあるため、「15分から30分の部分について」のように範囲を指定すると精度が上がります。

まとめ

Geminiのマルチモーダル機能は、テキスト入力だけでは伝えにくかった情報をそのままの形でAIに渡せる実用的な機能です。入力タイプごとのポイントを振り返ります。

  • 画像: アップロードや撮影で手軽に試せる。名刺のテキスト化、グラフ分析、翻訳に便利
  • PDF: 長文ドキュメントの要約・情報抽出に効果的。契約書チェックや論文把握に活用
  • 動画: ファイルアップロードとYouTube URLの2通りで利用可能。議事録作成やマニュアル化に有用
  • 音声: 文字起こしと要約が中心。インタビュー記録や会議のアクションアイテム抽出に役立つ

まずは手元にある画像を1枚、Geminiにアップロードするところから始めてみてください。テキストだけでは得られなかった回答が返ってくるはずです。

AI通信 編集部

AIが社会・ビジネス・日常へ浸透する構造を、官公庁・調査機関・一次論文のデータで追っています。速報より文脈、感覚より数字——変化の「なぜ」を理解することで、次の動きが読める記事を目指しています。

この記事をシェア

  • Gemini Code Assistの始め方 -- VS Codeで使うAIコーディング

    Gemini Code AssistをVS Codeにインストールしてコード補完・チャット・コードレビュー機能を使う方法をステップバイステップで解説。無料枠の内容やGitHub Copilotとの違いも紹介します。

  • Gemini FlashとProの違いと選び方を徹底比較【2026年最新版】

    GeminiのFlashとProの違いを、世代をまたいで通用する「速度・コスト重視」と「精度・推論重視」の軸で徹底解説。コンテキストや料金の考え方、用途別の選び方を比較表で整理し、現行のGemini 3世代の最新ラインナップも紹介します。

  • Google AI Studioの使い方 -- 無料でGemini APIを試す方法

    Google AI Studioの始め方を初心者向けに解説。アカウント登録からプロンプトテスト、APIキー発行、PythonでのAPI呼び出しまで、コードを書かない人にもわかるPlayground的な使い方とAPI活用法を2026年3月最新情報で紹介します。