LTSの関連会社、ビジー・ビーが開発、無償提供しているExcel用アドイン「生成AIツール for Excel」は、生成AI開発各社の機能をExcel関数として利用できるアドイン・ソフトウェアです。ビジー・ビーのテストでは〝基礎学力〟や〝論理的思考力〟は偏差値70以上(出現率2.3%)とされる就活生に相当し、複雑なタスクも人間並みにこなせるとの結果が出ています。では、実際にどのようなユースケースがあるのでしょうか。今回は一般的な業務からシステム開発まで使える①アンケート自由記入欄の集計②コンテンツの大量生成③合成データの生成―の3つを紹介します。
生成AI Tools for Excel(Microsoft AppSource)
https://appsource.microsoft.com/ja-jp/product/office/wa200006231?tab=overview
集計しようのない自由記述を分析する
フォームなどで収集しエクセルにまとめられたアンケートの自由記述。特に大量のアンケートでは定量的な集計は難しく、〝無視あるいは都合のいいところだけのつまみ食い〟をしていないでしょうか。
「生成AIツール for Excel」では、大量の自由記述も数値的な分析が可能になります。こんな関数・プロンプト(指示)を使用します。
=BB.ASK(CONCAT(“この意見の感情極性を-1.0から+1.0の実数値で分析せよ。説明不要、数値のみで出力すること: “,A2))
これだけで、良いことが書いてあるのか悪いことが書いてあるのか、数値で分析できるようになります。
「生成AIツール for Excel」は、Windows/MacOS/Web版のExcelで利用可能な無償アドインです。2024年12月現在、Officeストアで提供されているアドインでは、主要3社20モデル(GPT-4o、Gemini Pro 1.5、Claude 3.5 Sonnet等)に対応する世界で唯一のExcelアドインです。利用にはOpenAI、グーグル、アンソロピックのユーザーアカウントでAPIキーを取得する必要があります。APIの利用には別途費用が発生します。
人事部が入社2年目の社員に「職場について何か意見はありますか? 自由に書いてください」というアンケートを取ったことを想定します。参加者が100人以上となれば、人力での集計は難しいでしょう。ここで、自由記述欄を上記関数で分析すると、
「2023年入社組は2022年組に比べて職場への意見の感情極性が0.3ポイントも高い」
「X部長とY部長の部下で比べると、X部長の部下は全員、感情極性がマイナス。X部長が悪いのかと思ったら、トラブルが多いと噂のZさんが所属していた職場で上司に関係なく下がることが分かった。X部長が悪いわけではない」
といった分析を出力することができます。
感情極性はネガティブ、ポジティブの数値判定です。例えば、
=BB.CATEGORIZE(“大手町オフィスで勤務しています。ここの椅子はちょっと堅めで座り心地が悪いです”,{“人間関係”,”職場環境”,”福利厚生”})
という関数・プロンプトを使えば、何について述べているか後付けで分類もできます。
紹介した2つの関数を組み合わせると、例えば「直近5年間の2年目研修における自由記入欄の傾向」を分析し、エビデンスに則った改善策などを検討することができるでしょう。また、年ごとの回答傾向の変化を見て、採用でのアピールポイントを検討する基礎資料を作成することも可能です。
コンテンツを大量生成しよう
エクセルシートに
- A列に連載全体の方針
- B列に各回の意図
- C列に各回の概要
- D列にA、B、C列を踏まえて1600字程度の原稿を書いてください
というプロンプトを入力します。すると、何十回分もの連載記事のドラフトを数十秒で生成することができます。現段階では、そのまま外部に出すことは難しいかもしれませんが、企画や構成の参考資料として利用することができます。
システム開発に必要な合成データを生成しよう
システムを開発する際に必要なデータを「ダミー」ではなく、実際に近い合成データを生成することができます。仕様通りの動作をしているか、ユーザーが使用しやすいか、レイアウトが崩れていないか、操作性や負荷状態といったブラックボックステストを実行できます。
例えば毎日1000件のレビューが投稿されるが、エスカレーションルール(問題のある投稿を抽出してどの担当者がどんな方法でどの階層に報告するかのルール)に則って自動発報できるかテストすることができます。「発報件数のうち10件が発報、20件誤報だったので、発報ルールを厳密にした方が良さそう」といった使い方ができます。
複雑なタスクも人間並み/人間以上に
ビジー・ビーは、各生成AIの業務適正をテストするため、企業の採用試験で使われるSPI型テストで性能を比較しました。その結果、OpenAIのo1(オーワン)の正答率が95%を超え「最も優秀な就活生と同等以上の能力」となりました。特に、これまで生成AIが不得意だった文章整序(言語)、特殊計算(非言語)の正答率がOpenAI o1では初めて80%に達しました。この結果は、AIには複雑なタスクでも人間並みにこなせる能力があると考えられます。
人間が設定した目的へ向け自ら必要なデータを収集してタスクを決定、機械学習や自然言語処理といった技術を駆使して目的を達成するエージェントAIの登場が現実味を帯びています。背景には、上述のOpenAI o1のように、AIが平均的な人間以上の〝論理的思考力〟を獲得していることがあります。また、SPI型テストでは正答率が100%に達した単元が多く、もはやSPI型試験ではAIの能力を測れなくなっています。さらに米オープンAIは12月、新たな基盤モデル「o3(オースリー)」を発表しました。o3はo1よりコーディングや数学での性能がさらに改善されたといいます。1月以降に一般公開される予定です。
数年後には、〝人間より賢い〟AIの判断の妥当性を人間がどう評価するべきか、課題となるかもしれません。また、人間を凌駕し始めたAIの出現により、人件費とAIコストの比較が迫られる場面が増えるかもしれません。
例えば、SPI型試験の制限時間は1問1分が目安とされますので、295問の所用時間は約5時間となります。一方で、295問のSPI型テストを解くのにかかったo1-previewの費用は34.24ドル(約5,239円)、時間当たり1,066円でした。人件費とAIを使う費用は同等であり「AIを導入すれば人件費が下がる」とは一概には言えない状況となっています。
AIの導入には、基盤モデルの得意/不得意領域、低コストな代替手法の有無、雇用や人材育成計画への影響など検討課題が多くあります。また、AIより人間の方がコスト安な用途もあり得ます。「生成AIツール for Excel」は、AIを業務に導入した実際の使用感やコストを検討、確認する有用なツールとなりえます。