前からものすごく気になっていたChatGPTの有料版「GPT-4」。迷った末思い切って登録したよ。いやー何だか大きな買い物をした気分だよ。

GPT-4では、様々なファイルを読み込ませて内容を説明させることが出来ると言われている。これ、場合によってはめっちゃ便利なんじゃね?

というわけで、今回はGPTさんに色んなファイルを読み込ませて検証していくよ!

・検証方法

方法は簡単、ChatGPTではアップロードできるファイルの種類に制限がないから、今回はパソコンにあるファイルを片っ端から読み込ませる

そんで読み込ませたら、「このファイルを説明して」と命令する。返ってきた答えと実際のファイルの内容を照らし合わせて、精度を検証していく。


・画像

まずは、チャットのスクリーンショット。

画像内の文字はおそらく簡単に「読んで」くれるだろう。試してみると……


正確に言葉使いを判別し、文章の要点をまとめて答えてくれる。良いね。英語のメッセージが来て訳分からんくなったら、スクショしてGPTさんに説明してもらうという使い方が出来そうだ。



適当に描いた手描きのイラストはどうだろう? 


文字はあるが、さすがにこれは難しすぎるか? 結果は……



「進行方向」の文字をなぜか「運行方向」、「我」をなぜか「押」と読み間違えてる。漢字は苦手なのか(共感できるぞ)? 

そんで、GPTさんによると、これは「チケットの選択や操作を指示するためのガイド」だと。

正解は前の記事で使った列車の座席の向きを表すイラストだけど、うーんやっぱりこれじゃ分かりにくすぎるか(コンテクスト無しじゃ人間でも難しいよこれ)。

ちなみに、赤い丸や矢印が使われてるってのはちゃんと理解できている。もうちょっと良いイラストだったら精度が上がるんじゃないか?



ってことで頑張って棒人間を描いたよ。僕の傑作だ


これならGPTさんもわかってくれるだろう。どうだ!



なんで英語なんだよ。訳すと……


「この画像は、シンプルな赤い線で描かれた棒人間の絵のようです。この図は、大きな丸い頭と、基本的な線で描かれた2本の腕と2本の足を持つ体を持っています。スタイルは非常に子供っぽく抽象的で、子供のスケッチブックや何気ない落書きに見られる種類の絵に似ています」


おおおお! さすがGPTさん! 僕の傑作をちゃんとわかっているではないか!!!!!



それで、検証してて気づいたんだけど、命令を英語でするか日本語でするかによって答えがちょっと違うんだよね。例えば、前の記事で使った駅の写真。


日本語で命令するともちろん日本語で答えが戻ってくるが、


英語で命令すると答えが少し違ってくるんだ。


違う点だけを挙げると「伝統的な服装をした女性が立っています」が「紫色の長いドレスとヘッドスカーフを被った人が」。「Satpam(警備員)」という言葉は英語バージョンのほうがしっかり認識できてる。

使っている言語やタイミング(?)で答えが微妙に違ってくるのはなかなか面白い。他にも色々な画像で試してみたけど、GPTさんは画像のトーンまで認識できていたよ。



・PDF

んで、次はPDFだ。文章だけのPDFと画像付きのPDF2種類用意したので、それをGPTさんに与えて検証していきたいと思う。

まずは文章だけのPDF。これは期末テストの課題用に作ったプログラミングコードが書かれてあるPDF、2ページ目にはコードの説明がインドネシア語で書かれている。


なぜか英語で返って来た。


訳すとこんな感じ(これもGPTさんを使ったよ)。


「このドキュメントはC言語でのプログラミング課題のようです。「TUGAS PENGANGGANTI UAS – OOP」というタイトルで、Aqil Gama Rahmansyahさんによって提出されたもので、学生IDは【略】です。

コードには、与えられた文字列の中で括弧の正しいペアリングをチェックするメイン関数が含まれています。ユーザーからの文字列を読み取り、開いた括弧と閉じた括弧の数を数え、括弧が正しくマッチしているかどうかを判断します。

括弧の数がバランスが取れていて、エラーがなければ、ペアリングが正しいと印刷され、そうでなければエラーを示します。このドキュメントには、コードの論理に関する説明も箇条書きで含まれています」


説明がない数字を「学生ID」と完璧に当てたことに加えて、コードの仕様、そしてコードの説明を箇条書きで含んだのもちゃんと述べている。GPTさんはプログラミング言語を理解する能力がとてつもなく高いのでこれは朝飯前ってところか。



次はこれ、キリスト教の『主の祈り』を自分の人工言語に訳したもの。


果たしてGPTさんは「人工言語」だってことがわかるのか?


こっちもなぜか英語だけど、訳すと……


「Adnaunon plad (Lord’s Prayer).pdf」というタイトルの文書は、「主の祈り」を架空または創作された言語で表現したものであり、それに音声ガイドと英語訳が添えられているようです。

祈りの各行は、創作された言語での表現、その音声発音、そして英語訳の3部分から成り立っています。この文書は、教育的、言語学的、または娯楽目的で、他言語における祈りの理解を容易にするために構成されています。

翻訳されたフレーズは、主の祈りの伝統的な構造に従っており、名前の神聖さ、王国の来臨、日々の糧、赦し、邪悪からの救済を扱っています」


──ちゃんと人工言語だってことを認識できているぞ!

あと、試しに画像付きのPDFで検証してみたんだけど、GPTさんはドキュメント内の画像を「見る」ことができなかった。画像ファイルならOKだけど、ドキュメント内の画像はアカンのか……。



・DOCX

ドキュメント内の文章を理解できるってことがわかったところで、Microsoft Office Wordのファイル形式 DOCXファイルはどうだろう?

検証に使うファイルはこれ。期末テストの課題としてグループで書いたAIのレポートだ。レポートでは、AIがどのようにして機能するかがインドネシア語と英語で書かれている。


GPTさんに読み込ませてみると……



おおお、細かく解説してくれるではないか……ってあれ? 「文章全体の内容を把握するには、さらに詳細な分析が必要ですが、初めの部分から……」ってドキュメント全体を「読んでいない?」

内容からして、序論部分までしか解説していない感じだが。



──と、返ってきた解説内容を読んでいると、文章の最後にコマンドアイコンがあることに気付いた。


クリックできるらしいからクリックしてみると……



なんと解析に使ったコードがコメント付きで書いてあるではないか! 読んだところ、GPTさんはドキュメントの最初の1000文字を抜き取って、そこから解説しているらしい。

言い換えれば、GPTさんはドキュメント全体を「見ていない」のだ! なにー!

まぁ、たしかにドキュメントの最初の1000文字だけでどんな内容かは見当がつくが、長いドキュメントを与えて内容を要約させるって運用はできなさそうか……。



・PPTX

ではでは、プレゼンテーションに使うファイルはどうだろうか? PDFやDOCXと違って文章が少ないことが多いので、これはちょっと難しいんじゃないか? そもそも読み込めるかな?


ってことで検証に使うファイルはこれ、「遺伝的アルゴリズム」に関する資料。すまない、パソコンに転がってるファイルってこんなのしかないんだよ……。とにかく、やってみよう。



と、ここでエラー。「PPT」ってファイルはバージョンが古いようで、新しいバージョンの「PPTX」しかサポートしていないようだ。困ったなぁ。



というわけで、ファイルを変えて「電気エネルギー技術」に関する資料。


前のファイルと違ってこいつは画像多め。PDFの検証でドキュメント内の画像は「見られない」とわかったので、これはどうだろうか?



おお! ちゃんと認識できてるし、解析もできている! 実はこいつもワードのファイルと同じく、最初の1000文字を抜き取って解析している。でもまぁワードのファイルよりは文字数が少ないことが多いので、もっと広い範囲をカバーできるってこと。

ちなみに、このファイルでは5ページ目の半分のところ(赤で塗った部分は読まれていない)まで解析している。


全体で57ページもあるけど、5ページしか解析してないかぁ……。



・ソースコードファイル

上で記した通り、GPTさんはプログラミング言語を理解する能力が高い。てか何度GPTさんにプログラミングを助けてもらったのやら……。では、ファイルをまるごと与えるとどうだろうか。


これは先程のPDFであった「文字列の中で括弧の正しいペアリングをチェック」するプログラムのコード。検証してみると……



うんうん、思った通りの答えが返ってきた。しかし、細かく解説してくれるなぁ。コードを理解するのにめっちゃ便利だよマジで。

が、これも他のファイルと同じく最初の1000文字を抜き取って解析しているので、メッチャクチャ長いコードを解説してもらうってのはさすがにできないんだよね……。



・音楽

ここからは不可能な領域。今までは文章や画像ファイルだったが、音楽ファイルはどうだろうか? 音楽を再生してそれを聞かせるんじゃなくて、音楽ファイルそのものを与える。もしかしたらデジタル信号を解析してどんな音楽か解説できるかも。

使うのは、魔王魂さんの『シャイニングスター』。この音楽、メッチャクチャ可愛くて好きなんだよね。ちなみに、無料ダウンロードできるぞ。


さてさてどうだろうか。



んんんんやはりねーーーー。なぜか英語で返ってきたんだけど、簡単に訳すと「音楽ファイルだと思うけど俺は聞けないからプロに聞け」とのこと。そりゃそうだよね。



・EXEファイル

最後のファイルはアプリの実行ファイル。このファイルはもう機械言語(0と1だけの言語)だ。


パソコンのOSをUSBに焼き込むアプリの実行ファイルだが、GPTさんはわかるのだろうか?



毎度謎の英語での回答。訳すと……


「rufus-4.4.exe」というファイルは、Windows用の実行可能ファイルで、一般的にRufusと関連しています。Rufusは、Microsoft Windows用の無料でオープンソースのポータブルアプリケーションで、USBフラッシュドライブやLive USBをフォーマットし、ブータブルUSBを作成するために使用されます。

バージョン番号「4.4」はソフトウェアの特定のバージョンを示しています。Rufusは、オペレーティングシステムがインストールされていないシステム上でブータブルISO(Windows、Linuxなど)からインストールメディアを作成したり、DOSからBIOSやその他のファームウェアをフラッシュしたりするためによく使用されるツールです。

システム管理者やブータブルUSBドライブを作成する必要がある個人にとって、広く使われているツールです」


──とファイル名からどういうアプリか解説してくれる。なるほどね(力尽きてしまった人間)。



・まとめ

画像ファイルか文章ファイルなら問題なく解析し、それに基づいた回答を出してくることがわかった……が、注意としてデカいファイルには基本的に向いていない(長い文のファイルとか)。

簡単に言うと精度バケモンである。画像とか特にすごくて、細かい特徴を見抜くのはもちろん、画像の「主」になるモノだけじゃなく、背景やトーンと画像全体をちゃんと「見ている」。

AIの作成に触れている者として、これは本当に本当にすごいのである。GPTさんはいかにして学習したのか。学習したデータの量はどれほどなのか……マジで知りたい。

こんな優秀なAI、正直良い買い物したと思うよ。これからはとことん使わせてもらうぞ。


──最後に、これから登録することを考えてる人に忠告がある。GPT-4には制限があって、なんと3時間毎に40メッセージしか送れない。超えるとChatGPT-4は使えなくなる。無料版のChatGPT-3.5は普通に使えることを考えたら、これどうなのよ?


まぁとにかく、楽しい検証でした! Sampai Jumpa Lagi!!


参考リンク:ChatGPT公式サイト
執筆:アキル
Photo:RocketNews24