blueです。
今回ChatGPT研究所さんのBrowser Use勉強会に参加してきました。
一からのハンズオンで教えてもらったこともあり、とても勉強になりましたので自分なりにまとめました。
勉強会後にGemini API Keyを使った方法も確認しましたので参考になれば幸いです。
今回の勉強会のもとになったChatGPT研究所さんの記事です。Browser Useの基本的な部分と安全性について書かれています。AGIラボ会員になると設定方法も見ることができます。
data:image/s3,"s3://crabby-images/21876/21876d8c757efd015f9bd1145ebc723d00366a04" alt=""
Browser Useの仕組みについてわかりやすく書かれているDr.ハジメさんの記事です。図解でもわかりやすいですが動画のシーケンス図を見るとより理解できると思います。
data:image/s3,"s3://crabby-images/efd8a/efd8a5ca79981dcc3c38e8565b1c5f99bb073d8a" alt=""
Browser Useとは
Browser Useは、Pythonで作られたブラウザ自動操作用のライブラリです。
-ライブラリとは、プログラム言語において、ある特定の機能を持つプログラムを定型化して、他のプログラムが引用できる状態にしたものを、複数集めてまとめたファイルのことである。[Weblio辞書]
Browser Useは以下の機能を持っています。
- AIエージェントの機能を持ち、LLMと対話することができます。
-AIエージェントは、環境と対話し、データを収集し、そのデータを使用して自己決定タスクを実行するソフトウェアです。これにより、事前に決められた目標を達成することができます。[AWS] - ブラウザを解析したり、実行できる操作を管理できます。
- Playwrightというツールを入れることで実際にブラウザを操作できます。
Browser useのインストール方法
Browser useをインストールするには以下が必要になります。
- Python(3.11以上が必要とのこと)・・・Browser Useを動かすのに必須
- Browser Use・・・本体。Pythonのライブラリ
- Playwright・・・ブラウザ操作ツール
ひとつずつやっていきます。
Pythonのインストール
1.Microsoft StoreやGoogle検索などからPythonをインストールする(以下は3.13)
data:image/s3,"s3://crabby-images/c7c27/c7c279530d5dca0e2170e753d24091ecfc60e880" alt=""
2.コマンドプロンプトを開き、以下のコマンドを入力する
/python --version
以下のようにPythonのバージョンが出てくればOK(以下は3.12.8)
data:image/s3,"s3://crabby-images/01533/01533d8fe3b96548f585a32d830012a0508e40d9" alt=""
仮想環境の実装
1. 任意の場所にBrowser Useフォルダを作成する
以下ではドキュメントフォルダの下に作成しています(どこでもOK)。
data:image/s3,"s3://crabby-images/85c85/85c850018a97e57e0b5c3ef4e72f810dc204598f" alt=""
2.フォルダを開いた状態でアドレスバーに「cmd」と入力してEnterを押す。コマンドプロンプトが立ち上がる(Pathが~\browser useになっていることを確認)。
data:image/s3,"s3://crabby-images/eccef/eccef08d3690d4ab2b3927634f7ce6ed4c9f387e" alt=""
data:image/s3,"s3://crabby-images/81efd/81efdfe01b221dfe68c6aff5106ec666807bfa1f" alt=""
3.以下のコマンドを入力して実行する。処理が終わってPathが表示されればOK。
python -m venv myenv
処理前
data:image/s3,"s3://crabby-images/8ad02/8ad022c68dc8e7253288b5c1376a6eec7589043a" alt=""
処理が終わった状態
data:image/s3,"s3://crabby-images/18229/1822920ae4d9d30ac5dbf2056bb9a044fbfab0be" alt=""
4.以下のコマンドを入力して実行する。処理が終わって(myenv)が頭につけばOKです。
.\myenv\Scripts\activate
処理前
data:image/s3,"s3://crabby-images/d7176/d7176cc1b3f78111af6e5a12340617b26536b4bc" alt=""
処理後
data:image/s3,"s3://crabby-images/9c134/9c1342fe85ab552076a7259adc9a0b88552c6d20" alt=""
Browser Useをインストール
1. 以下のコマンドを入力して実行する。
pip install browser-use
処理前
data:image/s3,"s3://crabby-images/3f8dc/3f8dc6cfabe7cbb30ce053a79798fdee6d5ce6f0" alt=""
処理後(Pathが2つ表示されていますが1つで問題ありません)
data:image/s3,"s3://crabby-images/94d6d/94d6d09af3f86494f9e9c4313b1d70a7555e7515" alt=""
色々書かれていますが色々なパッケージがインストールされています。
Playwrightをインストール
1.以下のコマンドを入力して実行する。
playwright install
処理前
data:image/s3,"s3://crabby-images/27471/27471a56a278c42ade530359a2bf9b2817b9fd10" alt=""
処理後 Pathが表示されればOKです。
data:image/s3,"s3://crabby-images/ff5c7/ff5c78b1a895f2271054c5bfac2602c8b2c6c3bb" alt=""
Browser Use用ファイルの作成
以降はBrowser Useで使用するファイルを作成していきます。
.envファイルの作成
1.Broser Useフォルダ直下に新規テキストドキュメント.txtを作成する。
data:image/s3,"s3://crabby-images/3e8e3/3e8e34faa93b6c603721cfebb809599fcdb783b2" alt=""
2.ファイル名を「.env」にする。
data:image/s3,"s3://crabby-images/4cc9c/4cc9cfe1de2ac1fa132890ff2c4febd5435008e2" alt=""
3.右クリック-「プログラムから開く」-「メモ帳」を選択する。
data:image/s3,"s3://crabby-images/2bd07/2bd078c2b986b24c33d1872c8bc6bd15926beca0" alt=""
4.以下をコピーする。「あなたのAPIキー」の部分にAPIキーを入力して保存する。
OPENAI_API_KEY=あなたのAPIキー
data:image/s3,"s3://crabby-images/9e55c/9e55c631980472f35a7db17831e8605a98e0edf2" alt=""
Pythonファイルの作成①
1.Broser Useフォルダ直下に新規テキストドキュメントを作成する。
data:image/s3,"s3://crabby-images/53c79/53c79133f4b6069283108565f3a643ded98c51c9" alt=""
2.ファイル名を「test_agent.py」にする。
3.右クリック-「プログラムから開く」-「メモ帳」を選択する。
data:image/s3,"s3://crabby-images/7e4fd/7e4fd35a7f6203c4a2985b0624036bc9c64a541a" alt=""
4.以下をコピーして保存する。
# test_agent.py
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="今日の東京の最高気温と最低気温を教えて",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
これで準備完了です!
コードの実行
先ほどのコマンドプロンプト画面に以下を入力する。
python test_agent.py
data:image/s3,"s3://crabby-images/1eade/1eade37f6a1ead51fba10a67578bd9a8df042ed1" alt=""
すると、コマンドプロンプトが動き始めて・・・
data:image/s3,"s3://crabby-images/a1ecc/a1ecc0af3eff78b20c3f16b54e40a8abccaf765d" alt=""
data:image/s3,"s3://crabby-images/cb48a/cb48ab194a1009ed40391c6443d9c8c27d1aa93b" alt=""
data:image/s3,"s3://crabby-images/47296/47296d9f2430f4029f777cf355144146ba5c3915" alt=""
Stepの最後にResultという形で結果を表示してくれます。
data:image/s3,"s3://crabby-images/1f572/1f572f0a409894393daf86a06d4c63ee8a3c4797" alt=""
実際にChromeが立ち上がって操作されているのを見ると感動します!
Pythonファイルの作成②
ChatGPT研究所さんではpythonスクリプト内のtaskを外だししてコマンドプロンプトに直接書き込めるコードも紹介してくださっていました。オープンになったら公開します。
data:image/s3,"s3://crabby-images/7d6b6/7d6b6666bb8894aaf49263500add1f072495b3fe" alt=""
Gemini APIを使用するには
上記はOpenAIのAPIであり料金が発生します(トークン数によりますが筆者はテストで4回くらい使用,
20stepで$0.27でした)。
そこでここでは無料であるGoogle AI StudioのAPI Keyを使う方法を紹介します。。
参考にした記事
data:image/s3,"s3://crabby-images/1f0a6/1f0a6454646c11d60bfa66db2928f3c6a5842085" alt=""
data:image/s3,"s3://crabby-images/4da70/4da702134e2878217d904e5afdcf4766bd19fcbe" alt=""
.envファイルの修正
1..envファイルに以下をコピーする。「あなたのAPIキー」の部分にGemini APIキーを入力して保存する(OpenAIのAPIキーと並列で可)。
GOOGLE_API_KEY=あなたのAPIキー
data:image/s3,"s3://crabby-images/f3c5b/f3c5b55780872815183ad33c920abe7fb37c67a1" alt=""
Pythonファイルの作成(Gemini用)
1.Broser Useフォルダ配下に新規テキストドキュメントを作成する。
data:image/s3,"s3://crabby-images/53c79/53c79133f4b6069283108565f3a643ded98c51c9" alt=""
2.ファイル名を「test_agent_gemini.py」にする。
3.右クリック-「プログラムから開く」-「メモ帳」を選択する。
data:image/s3,"s3://crabby-images/7e4fd/7e4fd35a7f6203c4a2985b0624036bc9c64a541a" alt=""
4.以下をコピーして保存する。
# test_agent_gemini.py
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="今日の東京の最高気温と最低気温を教えて",
llm=ChatGoogleGenerativeAI(model="gemini-1.5-pro"),
)
result = await agent.run()
print(result)
asyncio.run(main())
あとはコマンドプロンプト画面に以下を入力すると実行できます。
python test_agent_gemini.py
最後に
今回はBrowser Useの構築方法、コマンドプロンプト上での実行方法について説明しました。
ただBrowser UseをWeb上で使えるWeb UIの方法もあるようなのでこちらもわかり次第記事にしていきます。
APIを理解できると自分で作るアプリに組み込むことができます。
さらに生成AIのAPIと組み合わせることで無限大の可能性が広がります。
私の書いている書籍なども参考ください。
コメント