這裡寫一些基本操作。
LLMs API Call 的方法#
OpenAI API 的獲取方式#
- OpenAI 官方
https://openai.com/blog/openai-api
使用非 CN/HK 的新手機號碼註冊,可獲得 5$ 的試用額度,但有嚴格的調用頻率限制,小於每分鐘 3 次調用。
然後使用非 CN/HK 的 Credit Card 可以充值額度,並且提高調用頻率限制。
閒魚或其它平台可能有售賣帳號,但注意試用帳號有調用頻率限制。 - 第三方
國內有一些提供 OpenAI API 的中轉的服務商。可以提供國內直連的服務,享受遠比官方更低的價格,調用頻率不受限制。
例如 ohmygpt.com,需要修改對應的 base_url。
import openai
openai.base_url = "https://your-api-provider.com/v1/"
其它的 API#
- Google 的 Gemini Pro
申請地址在 https://ai.google.dev/
優勢:免費,高調用額度
劣勢:風控嚴格,導致難以訪問;不被廣泛使用,中文表現不佳 - Together AI
申請地址:Together AI,提供 25$ 免費額度,可以調用大多數開源模型。
優勢:一定程度免費,可用開源模型驗證。
劣勢:表現(僅)一定程度不如 gpt-3.5-turbo. - OpenRouter
提供開源模型和閉源模型的調用,包括 OpenAI API 以及 Anthropic API,可以使用 Visa, MasterCard 支付。
LLMs 模型的一些選擇#
排名#
LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
這一排名我認為較為可信,比較有價值。總結一下:
Claude 3 Opus > GPT-4 > Claude 3 Sonet > GPT-3.5 == Claude 3 Haiku
對於開源模型,表現接近 GPT-3.5 的有
Qwen-72B, Comand R(35B), Starling-LM(7B), Mixtral-8x7b(MoE)
(Qwen/Qwen1.5-MoE-A2.7B-Chat 是最近比較有趣的小的 MoE 模型。)
使用開源模型#
推理與微調#
SOTA 的是 HuggingFace 的開源庫 Transformers
huggingface.co 這一網址可以幫助 “Understanding how big of a model can fit on your machine”,能否運行一個模型,一般取決於它的參數量,例如 Llama-2-7b,是一個 7B 參數的模型。
微調#
SOTA 的是 hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs
提供大量開源模型的 LoRA、QLoRA 微調的方式。(目前還不包含多模態模型如 Llava)
This content is only supported in a Feishu Docs
僅推理(量化)#
SOTA 的是 Ollama.
它提供一行命令安裝、一行命令運行 LLMs 的指令,並且直接提供量化的模型。
可用模型參考 library,模型推薦見上面。
用於項目(工程)的流程搭建#
SOTA 的是 LangChain
開源模型介紹#
- GPT2
比較小的模型,RTX3090 也能簡單微調,是經濟的選擇,在不少論文上也會用這個。 - Llama-2-7b
合理的大模型,RTX3090 也能用 Lora 微調,多數論文的選擇。 - Mixtral 8x7B
基於 MoE 的模型,很強大,在許多排行榜都超過 GPT-3.5。 - Vicuna 7B
基於 Llama 的指令微調模型,似乎有很多模型都基於它進行指令微調。(也許是因為示例較多,容易用它來指令微調)。