用語・技術解説

医療AIとは?

近年、医療の分野においても AI(人工知能)を活用した製品やサービスが増えています。それらの多くはニューラルネットワークによる機械学習の技術を応用したものです。ここでは、ニューラルネットワークによる機械学習と、その医療分野への応用について解説します。

ニューラルネットワークとは

ニューラルネットワークとは脳内の神経細胞による情報処理の仕組みをモデル化したものです。このネットワークに、あるデータ(画像、音声データ、テキストなど)を入力すると、別のデータ(数値、ラベル、テキストなど)が出力されます。

  • スナップ写真の画像を入力すると、そこに写っている物のラベル(花、鳥、など)を出力する。
  • X線画像を入力すると、それが腫瘍の画像である確率(数値)を出力する。
  • 日本語のテキストを入力すると、英語のテキストを出力する。

ニューラルネットワークは複数の層からなり、各層ではパラメーターによって振る舞いが変化する非線形変換がおこなわれます。

学習の仕組み

ニューラルネットワークの「学習」とは、入力に対して、常に望ましい出力が得られるよう、ネットワークを「調整」することをいいます。学習には学習用データが必要です。これは、入力サンプルと、それに対する「正解」(望ましい出力)を、多数集めたものです。学習においては、ニューラルネットワークに順番に入力サンプルを与え、その出力が「正解」に近づくよう、各層のパラメーターを少しずつ調整していきます。これを多数の入力サンプルに対して繰り返しおこなうことにより、最終的にはどの入力サンプルに対しても正しい出力が得られるようになるだけでなく、学習用データにはない初めての入力に対しても、多くの場合で「正しい」出力が得られるようになります。

深層学習とは

2010年ごろから、コンピューターの計算能力の向上などを背景に、多層からなるニューラルネットワークの学習が可能となりました。多層からなるニューラルネットワークは、画像・音声・テキストの認識や、チェスなどのゲームでの対戦において、高い成績をあげるようになりました。これらの多層からなるニューラルネットワークによる学習は、深層学習と呼ばれています。

大規模言語モデル(LLM)とは

言語モデルとは、自然言語をその単語や文章の出現確率に注目してモデル化したものを意味しますが、最近よく耳にする大規模言語モデル(LLM:Large language Models)とは主に、ある文章が与えられたときにそのあとに続く文章を推測するプログラムのことを指します。2017年に発表された「トランスフォーマー」という技術により、実用的なLLMを比較的効率良く学習させられるようになりました。その可能性に注目したアメリカの大手IT企業数社が大量のデータと莫大な計算力を投入することにより、一挙にLLMの能力は高まりました。
「あとに続く文章を予測する」というだけではあまり実用性がないようにも思えますが、例えば、日本語のあとにその英語への翻訳が続く文章を学習させれば、あとに続く文章を予測することにより翻訳が可能になります。質問のあとに答えが続く文章を学習させれば、質問への回答を生成することができます。同様にして、指示に対してプログラムを書くLLMも実用化されています。

トランスフォーマーとは

従来、テキスト・データをニューラルネットワークで処理する場合には、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が使われてきました。これは、ニューラルネットワークの「内部状態」に入力テキストの単語を一つずつ「織り込んで」いくことでテキスト全体に対応する内部状態を作成し、次にこの内部状態から単語を一つずつ「引き出す」ことで出力を得る仕組みです。
しかし、RNNには逐次的に単語を処理するがゆえに学習時に並列処理ができないという大きな欠点がありました。
トランスフォーマーはRNNを使わず、入力テキスト中の単語間の(複数の基準による)関係の強さを数値化したもの(アテンション)から一気に内部状態を作成します。この内部状態から出力テキストの単語を一つずつ「引き出す」ところはRNNと同じです。

<図1>
トランスフォーマーのモデル構成図。段数Nは論文では6だが、これを増やすほど能力が向上することが知られている。
出典:Vaswani, A. et al. “Attention Is All You Need”. https://arxiv.org/abs/1706.03762. 2017, p.3.

生成AIとは

生成AIとは、テキストや画像、音楽、動画など様々な種類のデータを自律的に生成するプログラムのことを指します。LLMはテキストのみを扱う生成AIとして使用できますが、そこで使われる技術はテキスト以外の種類のデータにも応用できることが分かってきました。
現在、主なテキスト生成AIシステムとしては、OpenAIのChatGPT、マイクロソフトのCopilot、GoogleのGeminiなどがあります。これらは現在、テキスト以外の種類のデータ(主に画像)の入出力にも対応した「マルチモーダル」な生成AIとなっています。
また、画像生成に特化したものとしては、OpenAIのDALL-E(ダリ)や、Stability AI社によるStable Diffusionなどが有名です。DALL-Eに「アボカドのような形をした椅子」と指示を出すと、図2のような画像が生成されます。DALL-Eは、テキストから圧縮された画像を推論するGPT-3と、変分オートエンコーダー(VAE:Variational Autoencoder)という技術を利用した画像復元モジュールの組み合わせにより実現されています。















<図2>
DALL-Eにより生成された画像の例。
出典:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray. “DALL·E: Creating images from text”. openai.com. 2021. https://openai.com/index/dall-e/, (参照日 2024-07-04).

テキストと画像以外のデータを生成する代表的な生成AIサービスをまとめたものが以下になります。これらもすべて一般ユーザーでも利用可能です。

  • 動画
    • Runway Gen-2:画像やテキストから動画を作成するサービスです。
    • Kaiber:テキストから動画を作成します。
    • GliaCloud:ニュース記事や統計データから動画を生成します。動画にしたい内容が記載されたURLを入力すると、AIがテキストを読み取りビデオに落とし込みます。
  • 音声
    • Amazon Polly:テキストから自然な声による読み上げ音声を合成します。幅広い言語に対応した多数のリアルな音声に対応しています。
    • VALL-E:テキストから、英語、中国語または日本語の読み上げ音声を合成します。また自分が用意した数秒の音声データとテキストを与えることで、指定した音声でテキストを読ませることができます。
  • 作曲
    • Suno AI:歌詞や曲調を文章で指示すると、音楽を生成するサービスです。
    • udio:ジャンルや雰囲気、曲調を文章で指定すると、音楽を生成するサービスです。
    • OpenAI Jukebox:「アーティスト」「ジャンル」「歌詞」「音楽サンプルの長さ」を指定すると音楽を生成するツールです。

生成AIの規模は、しばしばその学習時に調整されるパラメーターの数により表されます。以下は現在さまざまな生成AIシステムで使われている代表的なLLMのパラメーター数です。ちなみに、人間の脳には約2000億個の神経細胞があり、それらは数百兆個の接合部位(シナプス)によってつながっていると言われています。

名称 企業名 パラメーター数
LLaMa2 Meta 650億
GPT-3 OpenAI 1750億
GPT-4 OpenAI 1.8兆?(非公開)
PaLM2 Google 5400億
Claude-3 OPUS Anthropic 2兆

医療現場におけるAI活用

現在、多くの研究機関や企業において、医療現場向けのAIを活用した装置やサービスの開発が進められています。また、スクリーニング、医師の支援、業務の効率化などをおこなうAI製品が、実際に医療の現場に導入され始めています。
医療の各分野におけるAI活用に向けた試みを、開発・研究中のものを含め、いくつかご紹介します。

■放射線科
放射線画像診断では、CTやMRIなどで大量の画像が取得される一方、画像診断医は不足していて、 読影負担の増加や地域的な診断格差の増大が懸念されています。AIによる画像診断の精度向上や効率化など、画像診断支援への期待が高まっており、各社によるソリューションが実用段階を迎えています。

  • 富士フイルムによる医療AIソリューション。読影のためのAIプラットフォームや、胸部X線画像・CT画像・MRI画像をクラウド上で解析して問題が疑われる領域を検出しマーキングするサービスなど。
  • シーメンス AI-Rad Companion。胸部CT画像・頭部MR画像のAI解析サービス、MR画像・CT画像からセグメンテーションを自動的に行うサービスなど。
  • エルピクセルによる読影診断支援ソフトウェア EIRL。胸部CT線画像・胸部X線画像・脳MRA画像・大腸内視鏡画像などから関心領域を抽出し、問題が疑われる領域を検出する。

■検診
検診では、スクリーニングにAIを使用し、確定診断は個別の精密検査でおこなう、という使い方が想定されます。人手やコストの観点からも、検診へのAIの応用が進むことが期待されます。

  • 北京の病院における眼科疾患のAIによるスクリーニング
  • 医療法人社団葵会の歯科検診AIシステム

■診療録からの疾患診断
自然言語処理技術によって、カルテ解析による疾患診断AIの精度が向上しています。
カルテには、医師の所見、検査結果、処方記録などが混在し、かつ病歴に従って膨大になるので全体の把握が困難ですが、AIによりそれらの情報の整理・分析を支援します。

  • 中国広州における、小児科の電子カルテから臨床的に重要な情報を見つけ出すためのAIフレームワーク。
  • 診療記録を分析・標準化するサービス(Amazon AI)

■AI搭載新医療機器
主に識別が比較的容易でデータも集めやすい分野において、さまざまなデバイスが開発されています。

  • 乳がんの特定と分類をおこなうAIツールつき超音波検査装置
  • インフルエンザを識別する咽頭カメラ
  • AI聴診器
  • 不整脈の自宅用モニタリングデバイスと組み合わせたAI解析サービス

■生成AIによる診断
生成AIの医療分野における活用をめざした研究が、様々な研究機関や企業の主導により現在活発に進められています。ChatGPTのような汎用LLMを使う試みがある一方、以下のような医療に特化した生成AIへの取り組みも進んでいます。

  • グーグルとディープマインドの共同研究グループによるMed-PaLM
  • マイクロソフトによるBioGPT
  • 米国スタンフォード大学の研究者らによるPubMedGPT
  • 中国の成都医雲科技(Medlinker)によるMedGPT

国内でもいろいろな研究機関や企業がLLMの開発に取り組んでいますが、現時点ではその規模はいずれも100億パラメータ(数億円規模)程度であり、GPT-4に匹敵するような汎用LLMも、特定領域に特化したものも登場していません。GPT-4の学習には数百億円の費用がかかったとも言われています。国内における今後の生成AIやLLMの発展においては、いかに投資をAIに回していく構造を作れるかどうかが鍵になると思われます。

生成AIの医学的な知識の正確さについては、すでに日米の医師資格試験の合格レベルに達しつつあります。2023年度の日本の医師国家試験をChatGPT-4に解かせたところ、日本語のままでは正答率は52.8%にとどまりましたが、ChatGPT自身に問題文を語に翻訳させてから回答させたところ、正答率は82.8%にまで上昇し、合格ラインを突破しました。

人に対する応対力という面では、医学的アドバイスの質や共感力という点において、医師に比べて生成AIの方が高評価であったという研究もあります。スタッフ不足の解決策として、また、電子カルテから情報を探し出したり、長く専門的になりがちな説明を要約して患者に伝えるといった作業において、生成AIへの期待が高まっています。

その一方で、

  • 医師が生成 AI にだまされたり、ずさんな回答をされたりした場合、誤診や不適切な治療計画の作成につながりかねない。
  • 生成AIは引用した情報の日付を明らかにしないことがある。模範的な治療法を提示するが、それが最新の情報なのか、すでに時代遅れになっているのかはわからない。
  • 生成AIはときとして人を惑わすような情報を捏造し、うわべだけの流暢さで語ることがある。

などの問題点や懸念も指摘されています。

生成AIはその医学的な判断の正確さや人に対する応対力をこれからもますます高めていくものと考えられます。生成AIに特有の性質や限界を見据えながらも、この技術を利用した医療用システムは今後も開発が進められていくでしょう。医療現場や患者のニーズをうまくとらえる生成AIシステムが開発されれば、一気に導入が進んでいくかもしれません。

■創薬
薬の候補となる物質を探すためには、疾患に関わる標的分子(通常はタンパク質)の三次元構造を知ることが欠かせません。
タンパク質を形作るアミノ酸の配列(一次元構造)から、折りたたまれたあとの実際の形(三次元構造)を推測するために、AIが活用されています。このAIを用いて、タンパク質の三次元構造のデータベースが構築されつつあります。

  • ディープマインドによるタンパク質構造予測AI「AlphaFold v2.0」
  • 富士通が理化学研究所と共同で開発した、タンパク質の構造変化を予測する技術

■その他の例

  • 米フロリダ大学による集中治療室での医学的判断をサポートするAIシステム
  • 救急需要が集中する地域を事前にAIで予測するシステムを株式会社Smart119が山梨県、川崎市、札幌市で実証実験
  • オラコンによる白内障手術支援AI、ARシステム「V-Lynk」

最終更新日:

back to page top