ronpay

ronpay

大規模言語モデルの基本操作

ここには基本的な操作が書かれています。

LLMs API Call の方法#

OpenAI API の取得方法#

  • OpenAI Official
    https://openai.com/blog/openai-api
    CN/HK 以外の新しい携帯電話番号で登録すると、5 ドルの試用クレジットを獲得することができますが、呼び出し頻度に厳しい制限があり、1 分あたりの呼び出し回数が 3 回以下になります。
    その後、CN/HK 以外のクレジットカードでクレジットを追加し、呼び出し頻度の制限を引き上げることができます。
    フリマアプリやその他のプラットフォームでアカウントが販売されている場合がありますが、試用アカウントには呼び出し頻度の制限があることに注意してください。
  • 3rd Party
    国内には OpenAI API を中継するサービスプロバイダーがいくつかあります。国内直結のサービスを提供し、公式よりも低価格で利用することができ、呼び出し頻度に制限はありません。
    例えば、ohmygpt.com は対応する base_url を変更する必要があります。
import openai
openai.base_url = "https://your-api-provider.com/v1/"

その他の API#

  • Google の Gemini Pro
    申請先は https://ai.google.dev/ です。
    利点:無料、高い呼び出しクレジット
    欠点:厳しいリスク管理によりアクセスが困難になることがあります。広く使用されておらず、中国語のパフォーマンスが低いです。
  • Together AI
    申請先:Together AI、25 ドルの無料クレジットを提供し、ほとんどのオープンソースモデルを呼び出すことができます。
    利点:一部無料で、オープンソースモデルを検証できます。
    欠点:(限定的に)gpt-3.5-turbo に劣ります。
  • OpenRouter
    OpenAI API および Anthropic API を含むオープンソースモデルとクローズドソースモデルの呼び出しを提供し、Visa、MasterCard で支払うことができます。

LLMs モデルの選択肢#

ランキング#

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
このランキングは比較的信頼性があり、価値があります。まとめると:
Claude 3 Opus > GPT-4 > Claude 3 Sonet > GPT-3.5 == Claude 3 Haiku
オープンソースモデルで、GPT-3.5 に近いパフォーマンスを示すものには以下があります
Qwen-72B、Comand R(35B)、Starling-LM(7B)、Mixtral-8x7b(MoE)
(Qwen/Qwen1.5-MoE-A2.7B-Chat は最近興味深い小さな MoE モデルです。)

オープンソースモデルの使用#

推論とファインチューニング#

SOTA は HuggingFace のオープンソースライブラリ Transformers です
huggingface.co では、「Understanding how big of a model can fit on your machine」をサポートしており、モデルの実行可能性は一般的にそのパラメータ量に依存します。例えば、Llama-2-7b は 7B パラメータのモデルです。

ファインチューニング#

SOTA は hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs です
LoRA、QLoRA のような多くのオープンソースモデルのファインチューニング方法を提供しています。(ただし、Llava などのマルチモーダルモデルはまだ含まれていません。)
このコンテンツは Feishu Docs でのみサポートされています

推論のみ(量子化)#

SOTA は Ollama です。
LLMs の実行コマンドを提供し、モデルの量子化も直接提供しています。
利用可能なモデルは library を参照し、モデルの推奨事項は上記をご覧ください。

プロジェクト(エンジニアリング)のワークフロー構築#

SOTA は LangChain です

オープンソースモデルの紹介#

  • GPT2
    比較的小さなモデルで、RTX3090 でも簡単にファインチューニングすることができ、経済的な選択肢です。多くの論文でも使用されています。
  • Llama-2-7b
    適切な大きさのモデルで、RTX3090 でも Lora のファインチューニングが可能で、多くの論文で選択されています。
  • Mixtral 8x7B
    MoE ベースのモデルで非常に強力であり、多くのランキングで GPT-3.5 を上回っています。
  • Vicuna 7B
    Llama ベースのファインチューニングモデルで、多くのモデルがこのモデルを使用してファインチューニングを行っているようです。(おそらく多くの例があるため、このモデルを使用してファインチューニングすることが容易です。)
読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。