这里写一些基本操作。
LLMs API Call 的方法#
OpenAI API 的获得方式#
- OpenAI Official
https://openai.com/blog/openai-api
使用非 CN/HK 的新手机号注册,可获得 5$ 的试用额度,但有严格的调用频率限制,小于每分钟 3 次调用。
然后使用非 CN/HK 的 Credit Card 可以充值额度,并且提高调用频率限制。
闲鱼或其它平台可能有售卖账号,但注意试用账号有调用频率限制。 - 3rd Party
国内有一些提供 OpenAI API 的中转的服务商。可以提供国内直连的服务,享受远比官方更低的价格,调用频率不受限制。
例如 ohmygpt.com,需要修改对应的 base_url。
import openai
openai.base_url = "https://your-api-provider.com/v1/"
其它的 API#
- Google 的 Gemini Pro
申请地址在 https://ai.google.dev/
优势:免费,高调用额度
劣势:风控严格,导致难以访问;不被广泛使用,中文表现不佳 - Together AI
申请地址:Together AI,提供 25$ 免费额度,可以调用大多数开源模型。
优势:一定程度免费,可用开源模型验证。
劣势:表现(仅)一定程度不如 gpt-3.5-turbo. - OpenRouter
提供开源模型和闭源模型的调用,包括 OpenAI API 以及 Anthropic API,可以使用 Visa, MasterCard 支付。
LLMs 模型的一些选择#
排名#
LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
这一排名我认为较为可信,比较有价值。总结一下:
Claude 3 Opus > GPT-4 > Claude 3 Sonet > GPT-3.5 == Claude 3 Haiku
对于开源模型,表现接近 GPT-3.5 的有
Qwen-72B, Comand R(35B), Starling-LM(7B), Mixtral-8x7b(MoE)
(Qwen/Qwen1.5-MoE-A2.7B-Chat 是最近比较有趣的小的 MoE 模型。)
使用开源模型#
推理与微调#
SOTA 的是 HuggingFace 的开源库 Transformers
huggingface.co 这一网址可以帮助 “Understanding how big of a model can fit on your machine”,能否运行一个模型,一般取决于它的参数量,例如 Llama-2-7b,是一个 7B 参数的模型。
微调#
SOTA 的是 hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs
提供大量开源模型的 LoRA、QLoRA 微调的方式。(目前还不包含多模态模型如 Llava)
This content is only supported in a Feishu Docs
仅推理(量化)#
SOTA 的是 Ollama.
它提供一行命令安装、一行命令运行 LLMs 的指令,并且直接提供量化的模型。
可用模型参考 library,模型推荐见上面。
用于项目(工程)的流程搭建#
SOTA 的是 LangChain
开源模型介绍#
- GPT2
比较小的模型,RTX3090 也能简单微调,是经济的选择,在不少论文上也会用这个。 - Llama-2-7b
合理的大模型,RTX3090 也能用 Lora 微调,多数论文的选择。 - Mixtral 8x7B
基于 MoE 的模型,很强大, 在许多排行榜都超过 GPT-3.5。 - Vicuna 7B
基于 Llama 的指令微调模型,似乎有很多模型都基于它进行指令微调。(也许是因为示例较多,容易用它来指令微调)。