大規模言語モデルの基本操作

ここにいくつかの基本操作を書きます。

LLMs API Call の方法#

OpenAI API の取得方法#

OpenAI Official
https://openai.com/blog/openai-api
非 CN/HK の新しい携帯電話番号で登録すると、5 ドルの試用クレジットが得られますが、呼び出し頻度に厳しい制限があり、1 分あたり 3 回未満の呼び出しに制限されています。
その後、非 CN/HK のクレジットカードを使用してクレジットをチャージし、呼び出し頻度の制限を引き上げることができます。
闲鱼や他のプラットフォームでアカウントが販売されている可能性がありますが、試用アカウントには呼び出し頻度の制限があることに注意してください。
3rd Party
国内には OpenAI API の中継サービスを提供する業者がいくつかあります。公式よりもはるかに低価格で、呼び出し頻度の制限がない国内直結のサービスを提供できます。
例えば ohmygpt.com では、対応する base_url を変更する必要があります。

import openai
openai.base_url = "https://your-api-provider.com/v1/"

その他の API#

Google の Gemini Pro
申請先は https://ai.google.dev/
利点：無料、高い呼び出しクレジット
欠点：リスク管理が厳しく、アクセスが難しい；広く使用されておらず、中国語のパフォーマンスが良くない
Together AI
申請先：Together AI、25 ドルの無料クレジットを提供し、ほとんどのオープンソースモデルを呼び出すことができます。
利点：一定程度無料で、オープンソースモデルの検証が可能。
欠点：パフォーマンス（のみ）一定程度 gpt-3.5-turbo より劣る。
OpenRouter
オープンソースモデルとクローズドソースモデルの呼び出しを提供し、OpenAI API や Anthropic API を含み、Visa、MasterCard で支払いが可能です。

LLMs チャットサービス提供者の推薦#

ChatGPT
Claude
Poe
Coral | Cohere
HuggingChat
GroqChat

LLMs モデルのいくつかの選択#

オープンソースモデルの使用#

推論と微調整#

SOTA は HuggingFace のオープンソースライブラリ Transformers です。
huggingface.co のこのウェブサイトは「Understanding how big of a model can fit on your machine」を助けてくれます。モデルを実行できるかどうかは、一般的にそのパラメータ数に依存します。例えば Llama-2-7b は 7B パラメータのモデルです。

微調整#

SOTA は hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs です。
多くのオープンソースモデルの LoRA、QLoRA 微調整の方法を提供しています。（現在は Llava のようなマルチモーダルモデルは含まれていません）
このコンテンツは Feishu Docs でのみサポートされています。

ただ推論（量子化）#

SOTA は Ollama です。
それは 1 行のコマンドでインストールし、1 行のコマンドで LLMs を実行する指示を提供し、直接量子化されたモデルを提供します。
使用可能なモデルはライブラリを参照し、モデルの推奨は上記を参照してください。

プロジェクト（エンジニアリング）のプロセス構築#

SOTA は LangChain です。

オープンソースモデルの紹介#

GPT2
比較的小さなモデルで、RTX3090 でも簡単に微調整できる経済的な選択肢であり、多くの論文でも使用されています。
Llama-3-8b
合理的な大モデルで、RTX3090 でも Lora 微調整が可能で、多くの論文の選択肢です。
Qwen-2-7b
中国語サポートがあり、Llama3 に近いパフォーマンスです。
Phi-3-mini（3B）
3B のサイズで、軽量な微調整に使用されます。

ronpay