Basic Operations of Large Language Models

这里写一些基本操作。

LLMs API Call 的方法#

OpenAI API 的获得方式#

OpenAI Official
https://openai.com/blog/openai-api
使用非 CN/HK 的新手机号注册，可获得 5$ 的试用额度，但有严格的调用频率限制，小于每分钟 3 次调用。
然后使用非 CN/HK 的 Credit Card 可以充值额度，并且提高调用频率限制。
闲鱼或其它平台可能有售卖账号，但注意试用账号有调用频率限制。
3rd Party
国内有一些提供 OpenAI API 的中转的服务商。可以提供国内直连的服务，享受远比官方更低的价格，调用频率不受限制。
例如 ohmygpt.com，需要修改对应的 base_url。

import openai
openai.base_url = "https://your-api-provider.com/v1/"

其它的 API#

Google 的 Gemini Pro
申请地址在 https://ai.google.dev/
优势：免费，高调用额度
劣势：风控严格，导致难以访问；不被广泛使用，中文表现不佳
Together AI
申请地址：Together AI，提供 25$ 免费额度，可以调用大多数开源模型。
优势：一定程度免费，可用开源模型验证。
劣势：表现（仅）一定程度不如 gpt-3.5-turbo.
OpenRouter
提供开源模型和闭源模型的调用，包括 OpenAI API 以及 Anthropic API，可以使用 Visa, MasterCard 支付。

LLMs Chat 服务提供商推荐#

ChatGPT
Claude
Poe
Coral | Cohere
HuggingChat
GroqChat

LLMs 模型的一些选择#

排名#

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
这一排名我认为较为可信，比较有价值。总结一下：
Claude 3 Opus == GPT-4 > GPT-4o > Llama3 70B > Qwen2 72B
对于开源模型，表现接近 GPT-3.5 的有
Llama3 70B, Qwen2 72B
小模型可以考虑：
Qwen2 7B（中英文），Llama3 8B

使用开源模型#

推理与微调#

SOTA 的是 HuggingFace 的开源库 Transformers
huggingface.co 这一网址可以帮助 “Understanding how big of a model can fit on your machine”，能否运行一个模型，一般取决于它的参数量，例如 Llama-2-7b，是一个 7B 参数的模型。

微调#

SOTA 的是 hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs
提供大量开源模型的 LoRA、QLoRA 微调的方式。（目前还不包含多模态模型如 Llava）
This content is only supported in a Feishu Docs

仅推理（量化）#

SOTA 的是 Ollama.
它提供一行命令安装、一行命令运行 LLMs 的指令，并且直接提供量化的模型。
可用模型参考 library，模型推荐见上面。

用于项目（工程）的流程搭建#

SOTA 的是 LangChain

开源模型介绍#

GPT2
比较小的模型，RTX3090 也能简单微调，是经济的选择，在不少论文上也会用这个。
Llama-3-8b
合理的大模型，RTX3090 也能用 Lora 微调，多数论文的选择。
Qwen-2-7b
中文支持，接近于 Llama3 的表现。
Phi-3-mini（3B）
3B 的大小，用于轻量的微调。