機械学習は医学研究ではトレンドになっているのに、私たちの診療所ではトレンドになっていないのはなぜですか?
科学技術
機械学習 (ML) は、データの継続的な評価と過去の結果に基づくパターンの特定を通じて、コンピューターが人間のやり方を学習するようにプログラムします。 ML は、大きなデータセットの傾向を迅速に特定し、人間の介入をほとんどまたはまったく行わずに動作し、時間の経過とともに予測を向上させることができます。 これらの能力により、医学研究への利用が急速に進んでいます。
乳がん患者は、間もなく、ML によって生検よりも早く診断されるようになるかもしれません。 ML は、脳スキャンデータで特定されたパターンによって制御される義肢を使用して、麻痺した人々が自律性を取り戻すのにも役立つ可能性があります。 ML 研究は、人々がより健康的な生活を送るのに役立つ、これらおよびその他の多くの可能性を約束します。 しかし、ML 研究の数は増加していますが、診療所での実際の使用は拡大していません。
限界は、医学研究のサンプルサイズが小さいことと独自のデータセットにあります。 この小さなデータにより、マシンが意味のあるパターンを識別することが困難になります。 データが多いほど、ML の診断と予測の精度が高くなります。 多くの診断用途では、数千人という膨大な数の被験者が必要ですが、ほとんどの研究では、数十人の被験者というより少ない数が使用されています。
しかし、数値を操作する方法を知っていれば、小さなデータセットから重要な結果を見つける方法があります。 データのさまざまなサブセットを使用して統計テストを何度も繰り返し実行すると、実際には単なるランダムな外れ値である可能性があるデータセットの重要性を示すことができます。
ML では P ハッキングまたは機能ハッキングとして知られるこの戦術は、現実の世界で役に立たないほど限定的な予測モデルの作成につながります。 紙の上では良いように見えても、それが医師の診断や治療の能力につながるわけではありません。 こうした統計上の間違いは、多くの場合無意識のうちに行われ、危険な結論につながる可能性があります。
科学者がこれらの間違いを回避し、ML アプリケーションを推進できるようにするために、ペレルマン医学部の神経科学部門と、医学部の生物工学部門およびコンピューター情報科学部門に任命されているペンシルバニア州インテグレーツ ナレッジ大学教授のコンラッド コーディング氏は、次のように述べています。工学と応用科学は、「センター – 実験的厳密さのトレーニングのための教育的つながりの作成」として知られる、NIH が資金提供する大規模なプログラムの一面を主導しています。 コーディング氏は、健全な科学の実施に関するオープンアクセスのリソースを提供するコミュニティ・フォー・リガーを創設してペン氏の仲間を率いることになる。 この包括的な科学コミュニティのメンバーは、ML シミュレーションやディスカッションベースのコースに参加できるようになります。
「現実世界のシナリオに ML が存在しない理由は、ツール自体の制限ではなく、統計的な誤用によるものです」と Kording 氏は言います。 「ある研究が真実ではなさすぎると思われる主張を発表する場合、通常はその通りであり、多くの場合、それは統計の使用に遡って追跡できます。」
生物医学研究における ML の分野で有意義な進歩を遂げるためには、これらの問題に対する意識を高め、研究者が問題を特定して制限する方法を理解できるように支援し、研究コミュニティで科学的厳密性を中心としたより強力な文化を作り出す必要があります。
コーディング氏は、機械学習を生物医学研究に組み込むと偏見が入り込む可能性があるからといって、科学者がそれを避けるべきだというわけではない、ということを伝えたいと考えている。 彼らはそれを有意義な方法で使用する方法を理解する必要があるだけです。
Community for Rigor は、生物医学研究における機械学習に関するモジュールを作成するという具体的な計画を立てて、この分野の課題に対処することを目指しています。このモジュールは、データセットと統計テストを通じて参加者をガイドし、バイアスが一般的に導入されている正確な場所を特定します。
この物語はメリッサ・パパスによるものです。 詳細については、Penn Engineering Today をご覧ください。