久しぶりの投稿になってしまいました。
目新しいことでもないのですし、今更なのですが、Chatgptを始めとする言語モデル系AIの性能が上がってきて、ブログをやり始めた2020年よりもWEB検索をすることが少なくなってきた。そこで今回は、バイオインフォマティクスやってる人と言語モデルとの関係について、自分の考えを述べたい(需要があるのか知りませんが)。
BERTを少し動かしたことがあるくらいで、各言語モデルのバージョンを比較したわけでも中身を理解しているわけでもない1ユーザーの意見ですが、簡単なbashスクリプト、Pythonプログラムなら一発で動くことが多くなってきて明らかに性能が上がってきている印象。ここ何年間もすごいすごいと騒がれていたけど、2025年になってようやく万人が使用できるレベルに到達したと思うし、人に勧めたいと思えている。ただ、バイオインフォマティクス関連だと、WEB上の情報が少ないためか、マイナーどころのプログラムを使うとエラーが頻発する傾向にあるのは間違いないと思う。だからと言ってITが専門ではない生物系の人が1から書くよりもよっぽど早いし、キレイ。周りの研究に従事している人をみると、生物系に限らず、若手の研究者は今後のことを考えて何となくAIとか機械学習とかやらなきゃって思ってる人が多いので、その一歩を助けるツールとして、とりあえずChatgptを使うのはあり。というよりも、研究室なり、施設で禁止されていない限り、使った方が良いと思う。
バイオインフォマティクスにおける言語モデル系AIの比較
チラ裏話だけだと、誰のためにもならないので実際の活用例とモデルによる違いを検証したい
条件
- 使用する言語モデル系AIはGemini, ChatGPT, Claude(クロード)の3種類
- どれも無料で使用できるものの中で一番高性能であろうもの(2025年4月時点)
- 文章は「FASTAファイルを結合してマルチFASTAファイルにするbashスクリプトをワンライナーで書いて」
結果
Gemini

ChatGPT

Claude(クロード)

考察
示して欲しかったコマンドは
cat *.fasta > merged.fasta
であるが、これはどのモデルでも一番最初に回答されて、ある意味想定通りであった。
興味深いのは次の行から各モデルで個性が出たこと。
Geminiは初学者と判断したのか、コマンドの説明をしてから、少し応用的なコマンドを2種類示している。
ChatGPTとClaudeはすぐに、応用的なコマンドを2種類示している
色の付け方も異なっていて、どちらかというとGeminiは色が少なめで、ChatGPTとClaudeは色が多い
少し意外だったのは、どのモデルもマルチFASTAに関する説明等がなかったことか。
まとめ
今回の検証以外でも日常的に色々な目的で使用しているが、回答の精度や見やすさなどを総合的に評価し、あえて1番を決めるとしたら、個人的にはChatGPTかなと思っている。ただし、どのモデルもそうだが、無料でできる回数が決まっているので、3種類(もしくはもっと多くのモデル)を適当に使い分けるのが賢いかもしれない。少なくともコマンドを1から検索するよりも早く結果は得られる。
ちなみに、存在しないコマンドや、オプションを指定されることもあるので、結局のところ、動作しない場合は、マニュアル等を調べる必要がある。
結語
研究者として、信用してもいいし、信頼してもいいけど、信じない心が重要です。


コメント