近年、医療の分野においても AI(人工知能)を活用した製品やサービスが増えています。それらの多くはニューラルネットワークによる機械学習の技術を応用したものです。ここでは、ニューラルネットワークによる機械学習と、その医療分野への応用について解説します。
ニューラルネットワークとは
ニューラルネットワークとは脳内の神経細胞による情報処理の仕組みをモデル化したものです。このネットワークに、あるデータ(画像、音声データ、テキストなど)を入力すると、別のデータ(数値、ラベル、テキストなど)が出力されます。
例
- スナップ写真の画像を入力すると、そこに写っている物のラベル(花、鳥、など)を出力する。
- X線画像を入力すると、それが腫瘍の画像である確率(数値)を出力する。
- 日本語のテキストを入力すると、英語のテキストを出力する。
ニューラルネットワークは複数の層からなり、各層ではパラメーターによって振る舞いが変化する非線形変換がおこなわれます。
学習の仕組み
ニューラルネットワークの「学習」とは、入力に対して、常に望ましい出力が得られるよう、ネットワークを「調整」することをいいます。学習には学習用データが必要です。これは、入力サンプルと、それに対する「正解」(望ましい出力)を、多数集めたものです。学習においては、ニューラルネットワークに順番に入力サンプルを与え、その出力が「正解」に近づくよう、各層のパラメーターを少しずつ調整していきます。これを多数の入力サンプルに対して繰り返しおこなうことにより、最終的にはどの入力サンプルに対しても正しい出力が得られるようになるだけでなく、学習用データにはない初めての入力に対しても、多くの場合で「正しい」出力が得られるようになります。
深層学習とは
2010年ごろから、コンピューターの計算能力の向上などを背景に、多層からなるニューラルネットワークの学習が可能となりました。多層からなるニューラルネットワークは、画像・音声・テキストの認識や、チェスなどのゲームでの対戦において、高い成績をあげるようになりました。これらの多層からなるニューラルネットワークによる学習は、深層学習と呼ばれています。
大規模言語モデル(LLM)とは
言語モデルとは、自然言語をその単語や文章の出現確率に注目してモデル化したものを意味しますが、最近よく耳にする大規模言語モデル(LLM:Large language Models)とは主に、ある文章が与えられたときにそのあとに続く文章を推測するプログラムのことを指します。2017年に発表された「トランスフォーマー」という技術により、実用的なLLMを比較的効率良く学習させられるようになりました。その可能性に注目したアメリカの大手IT企業数社が大量のデータと莫大な計算力を投入することにより、一挙にLLMの能力は高まりました。
「あとに続く文章を予測する」というだけではあまり実用性がないようにも思えますが、例えば、日本語のあとにその英語への翻訳が続く文章を学習させれば、あとに続く文章を予測することにより翻訳が可能になります。質問のあとに答えが続く文章を学習させれば、質問への回答を生成することができます。同様にして、指示に対してプログラムを書くLLMも実用化されています。
トランスフォーマーとは
従来、テキスト・データをニューラルネットワークで処理する場合には、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が使われてきました。これは、ニューラルネットワークの「内部状態」に入力テキストの単語を一つずつ「織り込んで」いくことでテキスト全体に対応する内部状態を作成し、次にこの内部状態から単語を一つずつ「引き出す」ことで出力を得る仕組みです。
しかし、RNNには逐次的に単語を処理するがゆえに学習時に並列処理ができないという大きな欠点がありました。
トランスフォーマーはRNNを使わず、入力テキスト中の単語間の(複数の基準による)関係の強さを数値化したもの(アテンション)から一気に内部状態を作成します。この内部状態から出力テキストの単語を一つずつ「引き出す」ところはRNNと同じです。
生成AIとは
生成AIとは、テキストや画像、音楽、動画など様々な種類のデータを自律的に生成するプログラムのことを指します。LLMはテキストのみを扱う生成AIとして使用できますが、そこで使われる技術はテキスト以外の種類のデータにも応用できることが分かってきました。
現在、主なテキスト生成AIシステムとしては、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどがあります。これらは現在、テキスト以外の種類のデータ(主に画像)の入出力にも対応した「マルチモーダル」な生成AIとなっています。
以下はテキスト以外のデータを生成する代表的な生成AIサービスをまとめたものです。これらはすべて一般ユーザーでも利用可能です。
- 画像生成サービス
- Nano Banana (Google):テキストから画像を生成します。
- DALL-E (OpenAI):テキストから画像を生成します。
- Midjourney (Midjourney):AIアーティスト向けの画像生成サービス。
- Stable Diffusion (Stability AI):オープンソース画像生成モデル。
- Adobe Firefly (Adobe):Creative Cloud統合の画像生成サービス。
- Ideogram (Ideogram):テキスト埋め込み画像を生成します。
- 動画生成サービス
- Sora (OpenAI):テキストまたは画像から動画を生成します。
- Veo (Google):テキストから高品質動画を生成します。
- Runway (Runway):画像やテキストから動画を作成します。
- Kaiber (Kaiber):テキストから動画を作成します。
- GliaCloud (GliaCloud):ニュース記事や統計データから動画を生成します。
- 音声生成サービス
- GPT-4o audio (OpenAI):テキスト↔音声のマルチモーダル処理をおこないます。
- Amazon Polly (Amazon):テキストから自然な読み上げ音声を合成します。
- VALL-E (Microsoft):テキストから多言語音声を合成します。
- OpenAI TTS (OpenAI):ChatGPT連携の音声合成サービスです。
- Google Cloud Text-to-Speech (Google):テキストから高品質音声を生成します。
- 音楽生成サービス
- Suno AI (Suno):歌詞や曲調を指示して音楽を生成します。
- Udio (Udio):ジャンルや雰囲気で音楽を生成します。
- OpenAI Jukebox (OpenAI):アーティスト・ジャンル・歌詞で音楽を生成します。

Nano Banana Proにより生成された画像の例。
生成AIの規模は、しばしばその学習時に調整されるパラメーターの数により表されます。以下は現在さまざまな生成AIシステムで使われている代表的なLLMのパラメーター数です。ちなみに、人間の脳には約2000億個の神経細胞があり、それらは数百兆個の接合部位(シナプス)によってつながっていると言われています。
| モデル名 | 企業名 | パラメーター数 | リリース時期 | 主な特徴 |
|---|---|---|---|---|
| GPT-5 | OpenAI | 非公開(推定1兆以上) | 2025年8月 | 4段階推論レベル、テキスト+画像処理、感情理解 |
| GPT OSS 120B | OpenAI | 1200億 | 2024年11月 | オープンソース版 |
| Claude Opus 4.5 | Anthropic | 推定2兆 | 2025年3月 | 200K トークンコンテキスト、64K出力 |
| Claude Sonnet 4.5 | Anthropic | 推定1兆 | 2025年1月 | バランス型、高精度 |
| Llama 4 Maverick | Meta | 170億 | 2024年12月 | 1M トークンコンテキスト、マルチモーダル |
| Phi-3-medium | Microsoft | 140億 | 2024年04月 | 医療向けファインチューニング対応、複雑推論 |
| Gemini 3.0-pro | 非公開 | 2025年1月 | 高性能推論、拡張コンテキスト対応 | |
| Gemma 3-12B | 120億 | 2024年12月 | 医療応用可能 | |
| Med-PaLM-2 | 5,400億 | 2023年12月 | 医療特化、86.5% 医学知識精度 | |
| DeepSeek-v3 | DeepSeek | 推定6710億 | 2024年12月 | 128Kトークンコンテキスト、多言語対応 |
| Qwen3-Next 80B | Alibaba | 800億 | 2025年1月 | 中国語・日本語対応 |
| Grok-4 | xAI | 非公開 | 2024年11月 | Elon Muskが開発 |
医療現場におけるAI活用
医療現場におけるAIの活用は、診断、治療、臨床ワークフロー支援の三つに大別されます。中でも画像診断支援AIは、CT、MRI、内視鏡など多様なモダリティに対応し、PMDA(医薬品医療機器総合機構)の承認事例が最も多く、規制科学的な検証プロセスが確立されている分野です。
日本には、AIの性能改善を迅速に市場に反映させるための「医療機器の特性に応じた変更計画の事前確認制度」(IDATEN制度)が存在します。AIの臨床的有用性については技術的な精度だけでなく、医師の意思決定への影響や、診断時間の短縮などの臨床ワークフローへの適合性も総合的に評価されています。
医療の各分野におけるAI活用に向けた試みを、いくつかご紹介します。
■ 画像診断AI(放射線科・内視鏡)
画像診断AIは、医療AIの領域で臨床導入が最も先行しています。
例
- 放射線科:富士フイルム株式会社の胸部X線画像病変検出(CAD)プログラムは胸部X線画像から病変を検出し、病院全体の読影水準の均てん化を支援します。
- 内視鏡検査:サイバネットシステム株式会社と名古屋大学によるEndoBRAIN-EYEは大腸内視鏡画像からポリープなどをリアルタイムで検出し、医師による病変発見を補助します。AIエンジン開発のため、昭和大学病院、国立がん研究センター中央病院など国内5施設が学習画像を提供しています。
■ 疾患診断支援とゲノム解析
AIは、電子カルテ(EHR)や遺伝情報など多様なデータを統合し、患者一人ひとりに最適化された精密医療の実現を強力に推進しています。
例
- 診療録からの疾患診断:米国企業Aitiaによる診療録からの疾患診断自動化ツールは数千のデータポイントや遺伝情報を処理し、データ駆動型の最適な治療パスを瞬時に絞り込み、治療効果向上や副作用リスク低減に貢献します。
- 説明可能なAI:東京大学医科学研究所による、がんゲノムにおける構造異常の病原性を予測し根拠を説明するAIは、融合遺伝子の病原性を高精度に予測し、その予測根拠を、医師が納得できる生物学的な機序に基づいた説明文として自動生成します。
■ 臨床ワークフローの変革と救命医療への応用
AIは、医療現場の働き方改革に直結するワークフローの効率化を支援しています。
例
- 生成AIによる診断支援と臨床ワークフロー支援:Ubie株式会社による「ユビーメディカルナビ」は、文章生成・要約機能と音声認識機能により、退院時サマリ、診療情報提供書、内服指示書などのドキュメント作成を支援し、事務作業を効率化します。
- 救急搬送支援:TXP Medical株式会社のNSER mobileは救急隊アプリです。モバイル端末からの情報(文字、現場写真)を病院にリアルタイムで送信し、情報伝達の精度とスピードを向上させます。
- 集中治療室:TXP Medical株式会社のICU Bridgeは、バイタルサインモニターなどの画像を撮影するだけで、AI-OCR技術によりデータを自動で電子システムに反映し、記録作業を大幅に短縮します。
■ 研究開発と治療分野におけるAIの最先端
例
- 創薬・薬剤開発(国内):日本医療研究開発機構(AMED)と日本製薬工業協会によるDAIIA(次世代創薬AI開発)プロジェクトでは、生体分子親和性予測AIなどのプラットフォーム構築を目指し、AI学習に必要なデータ基盤を国内製薬企業が連携して強化しています。国内の製薬企業18社が参加しています。
- 創薬・薬剤開発(国外):ヨーロッパの企業や学術機関が参加するMELLODDY projectでは、世界最大級の化合物データコレクションを基盤とした化合物予測プラットフォーム開発を通じ、機械学習の効率化を図っています。
- 手術支援:アナウト株式会社のEureka αはAI視覚支援手術システムです。術中の視覚と認識を強く補完し、安全で正確な手技を支援します。
■ 大規模言語モデル(LLM)の医療への応用
LLMは、医療知識の質問応答やドキュメント自動生成への応用が期待される一方、安全性、公平性、倫理面での慎重な検証が求められています。
例
- 医療用LLM:GoogleのMed-PaLM 2は医療用大規模言語モデル(LLM)として、安全性と公平性の確保を重視して開発が進められています。
- 国内のLLM開発:株式会社ELYZAによるELYZA-LLM-Medは日本語特化の医療LLM基盤であり、医療関連コーパスを用いた継続事前学習により、日本語医療分野での応用基盤を目指します。
- 国内のLLM開発(安全性検証):NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)による「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」は、AIの安全性確保に関する研究開発・検証を推進し、倫理的、規制的な課題をクリアするための公的な取り組みです。
■ まとめ
医療AIの成功は、技術的な性能だけでなく、診断時間の短縮や業務負担の軽減といった臨床現場での「有用性」にかかっています。日本のIDATEN制度やXAI(説明可能なAI)技術の開発は、信頼性を確保しながら迅速な社会実装を目指す戦略を示しています。
今後のAI技術の発展の鍵は、規制環境が確立された画像診断AIの水平展開に加え、現場の生産性を高めるワークフロー効率化AI(例:ICU Bridge)と、安全性検証を経た日本語LLM基盤の構築(例:NEDOプロジェクト)にあると考えられます。
最終更新日: