【初心者向け】Browser Useの仕組みと構築方法をお教えします(ChatGPT研究所勉強会より）

blueです。

今回ChatGPT研究所さんのBrowser Use勉強会に参加してきました。

一からのハンズオンで教えてもらったこともあり、とても勉強になりましたので自分なりにまとめました。

勉強会後にGemini API Keyを使った方法も確認しましたので参考になれば幸いです。

今回の勉強会のもとになったChatGPT研究所さんの記事です。Browser Useの基本的な部分と安全性について書かれています。AGIラボ会員になると設定方法も見ることができます。

【徹底解説】Browser Useの仕組みや安全性、設定方法までまるっと解説！｜ChatGPT研究所

はじめに今、Xなどで話題になっている「Browser Use」は、AIがローカル環境のブラウザを自動操作できるようにするPythonライブラリです。具体的に…

ChatGPT研究所

Browser Useの仕組みについてわかりやすく書かれているDr.ハジメさんの記事です。図解でもわかりやすいですが動画のシーケンス図を見るとより理解できると思います。

2025年トレンド！AIエージェント「Browser Use」徹底解説｜酒井駿 (製造業x生成AI)

はじめに近年は生成AI技術が飛躍的に進化し、あらゆる業界でAIによる業務効率化が注目を集めています。そんな中、AIエージェントがブラウザを自動操…

note（ノート）

Browser Useとは
Browser useのインストール方法
Browser Use用ファイルの作成
1. .envファイルの作成
2. Pythonファイルの作成①
コードの実行
1. Pythonファイルの作成②
Gemini APIを使用するには
1. .envファイルの修正
2. Pythonファイルの作成(Gemini用)
最後に

Browser Useとは

Browser Useは、Pythonで作られたブラウザ自動操作用のライブラリです。
-ライブラリとは、プログラム言語において、ある特定の機能を持つプログラムを定型化して、他のプログラムが引用できる状態にしたものを、複数集めてまとめたファイルのことである。[Weblio辞書]

Browser Useは以下の機能を持っています。

AIエージェントの機能を持ち、LLMと対話することができます。
-AIエージェントは、環境と対話し、データを収集し、そのデータを使用して自己決定タスクを実行するソフトウェアです。これにより、事前に決められた目標を達成することができます。[AWS]
ブラウザを解析したり、実行できる操作を管理できます。
Playwrightというツールを入れることで実際にブラウザを操作できます。

Browser useのインストール方法

Browser useをインストールするには以下が必要になります。

Python(3.11以上が必要とのこと）・・・Browser Useを動かすのに必須
Browser Use・・・本体。Pythonのライブラリ
Playwright・・・ブラウザ操作ツール

ひとつずつやっていきます。

Pythonのインストール

1.Microsoft StoreやGoogle検索などからPythonをインストールする（以下は3.13)

2.コマンドプロンプトを開き、以下のコマンドを入力する

/python --version

以下のようにPythonのバージョンが出てくればOK(以下は3.12.8)

仮想環境の実装

1. 任意の場所にBrowser Useフォルダを作成する
以下ではドキュメントフォルダの下に作成しています（どこでもOK)。

2.フォルダを開いた状態でアドレスバーに「cmd」と入力してEnterを押す。コマンドプロンプトが立ち上がる(Pathが～\browser useになっていることを確認）。

3.以下のコマンドを入力して実行する。処理が終わってPathが表示されればOK。

python -m venv myenv

処理前

処理が終わった状態

4.以下のコマンドを入力して実行する。処理が終わって(myenv)が頭につけばOKです。

.\myenv\Scripts\activate

処理前

処理後

Browser Useをインストール

1. 以下のコマンドを入力して実行する。

pip install browser-use

処理前

処理後（Pathが2つ表示されていますが1つで問題ありません）

色々書かれていますが色々なパッケージがインストールされています。

Playwrightをインストール

1.以下のコマンドを入力して実行する。

playwright install

処理前

処理後　Pathが表示されればOKです。

Browser Use用ファイルの作成

以降はBrowser Useで使用するファイルを作成していきます。

.envファイルの作成

1.Broser Useフォルダ直下に新規テキストドキュメント.txtを作成する。

2.ファイル名を「.env」にする。

3.右クリック-「プログラムから開く」-「メモ帳」を選択する。

4.以下をコピーする。「あなたのAPIキー」の部分にAPIキーを入力して保存する。

OPENAI_API_KEY=あなたのAPIキー

Pythonファイルの作成①

1.Broser Useフォルダ直下に新規テキストドキュメントを作成する。

2.ファイル名を「test_agent.py」にする。

3.右クリック-「プログラムから開く」-「メモ帳」を選択する。

4.以下をコピーして保存する。

# test_agent.py
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="今日の東京の最高気温と最低気温を教えて",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

これで準備完了です！

コードの実行

先ほどのコマンドプロンプト画面に以下を入力する。

python test_agent.py

すると、コマンドプロンプトが動き始めて・・・

Stepの最後にResultという形で結果を表示してくれます。

実際にChromeが立ち上がって操作されているのを見ると感動します！

Pythonファイルの作成②

ChatGPT研究所さんではpythonスクリプト内のtaskを外だししてコマンドプロンプトに直接書き込めるコードも紹介してくださっていました。オープンになったら公開します。

Gemini APIを使用するには

上記はOpenAIのAPIであり料金が発生します（トークン数によりますが筆者はテストで4回くらい使用,

20stepで$0.27でした）。

そこでここでは無料であるGoogle AI StudioのAPI Keyを使う方法を紹介します。。

参考にした記事

ChatGoogleGenerativeAI | 🦜️🔗 LangChain

Access Google's Generative AI models, including the Gemini family, directly via the Gemini API or experiment rapidly using Google AI Studio….

【祝・Gemini API解禁】LangChainからGeminiを使う方法を詳しく解説する【公式Quickstart】 – Qiita

はじめに本日2023年12月14日に、GeminiとGemini-Visionが、LangChainから使えるようになりました。本記事では、LangChainからGeminiを使う方法を詳…

Qiita

.envファイルの修正

1..envファイルに以下をコピーする。「あなたのAPIキー」の部分にGemini APIキーを入力して保存する(OpenAIのAPIキーと並列で可）。

GOOGLE_API_KEY=あなたのAPIキー

Pythonファイルの作成(Gemini用)

1.Broser Useフォルダ配下に新規テキストドキュメントを作成する。

2.ファイル名を「test_agent_gemini.py」にする。

3.右クリック-「プログラムから開く」-「メモ帳」を選択する。

4.以下をコピーして保存する。

# test_agent_gemini.py
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="今日の東京の最高気温と最低気温を教えて",
        llm=ChatGoogleGenerativeAI(model="gemini-1.5-pro"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

あとはコマンドプロンプト画面に以下を入力すると実行できます。