大型語言模型的基本操作

這裡寫一些基本操作。

LLMs API Call 的方法#

OpenAI API 的獲得方式#

OpenAI Official
https://openai.com/blog/openai-api
使用非 CN/HK 的新手機號碼註冊，可獲得 5$ 的試用額度，但有嚴格的調用頻率限制，小於每分鐘 3 次調用。
然後使用非 CN/HK 的 Credit Card 可以充值額度，並且提高調用頻率限制。
閒魚或其它平台可能有售賣帳號，但注意試用帳號有調用頻率限制。
3rd Party
國內有一些提供 OpenAI API 的中轉的服務商。可以提供國內直連的服務，享受遠比官方更低的價格，調用頻率不受限制。
例如 ohmygpt.com，需要修改對應的 base_url。

import openai
openai.base_url = "https://your-api-provider.com/v1/"

其它的 API#

Google 的 Gemini Pro
申請地址在 https://ai.google.dev/
優勢：免費，高調用額度
劣勢：風控嚴格，導致難以訪問；不被廣泛使用，中文表現不佳
Together AI
申請地址：Together AI，提供 25$ 免費額度，可以調用大多數開源模型。
優勢：一定程度免費，可用開源模型驗證。
劣勢：表現（僅）一定程度不如 gpt-3.5-turbo.
OpenRouter
提供開源模型和閉源模型的調用，包括 OpenAI API 以及 Anthropic API，可以使用 Visa, MasterCard 支付。

LLMs Chat 服務提供商推薦#

ChatGPT
Claude
Poe
Coral | Cohere
HuggingChat
GroqChat

LLMs 模型的一些選擇#

排名#

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
這一排名我認為較為可信，比較有價值。總結一下：
Claude 3 Opus == GPT-4 > GPT-4o > Llama3 70B > Qwen2 72B
對於開源模型，表現接近 GPT-3.5 的有
Llama3 70B, Qwen2 72B
小模型可以考慮：
Qwen2 7B（中英文），Llama3 8B

使用開源模型#

推理與微調#

SOTA 的是 HuggingFace 的開源庫 Transformers
huggingface.co 這一網址可以幫助 “Understanding how big of a model can fit on your machine”，能否運行一個模型，一般取決於它的參數量，例如 Llama-2-7b，是一個 7B 參數的模型。

微調#

SOTA 的是 hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs
提供大量開源模型的 LoRA、QLoRA 微調的方式。（目前還不包含多模態模型如 Llava）
This content is only supported in a Feishu Docs

僅推理（量化）#

SOTA 的是 Ollama.
它提供一行命令安裝、一行命令運行 LLMs 的指令，並且直接提供量化的模型。
可用模型參考 library，模型推薦見上面。

用於項目（工程）的流程搭建#

SOTA 的是 LangChain

開源模型介紹#

GPT2
比較小的模型，RTX3090 也能簡單微調，是經濟的選擇，在不少論文上也會用這個。
Llama-3-8b
合理的大模型，RTX3090 也能用 Lora 微調，多數論文的選擇。
Qwen-2-7b
中文支持，接近於 Llama3 的表現。
Phi-3-mini（3B）
3B 的大小，用於輕量的微調。