Navigation menu
新闻中心
AMD显卡能够当地玩DeepSeek了!附简略安排教程
快科技2月9日新闻,DeepSeek火得乌烟瘴气,海内外的相干企业都在踊跃适配支撑,而对AI年夜模子来说,应用GPU运转无疑是最高效的,比方AMD,无论是Instinct减速卡仍是Radeon游戏卡,都曾经适配到位。你只要要恣意一块AMD RX 7000系列显卡,就能够在当地休会DeepSeek。AMD Radeon游戏卡当地安排DeepSeek十分简略,只要翻开AMD官网(中英文均可),搜寻“15.1.1”,进入第一个成果,下载AMD Adrenalin 25.1.1测试版驱动,装置偏重启。直接下载地点:https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.html而后翻开LM Studio官网网站的锐龙专栏,并下载LM Studio for Ryzen AI装置包,装置并运转。启动之后,点击右下角设置(可选中文言语),找到并开启“Use LM Studio s Hugging Face”这个选项。回到主界面,在左侧菜单栏点击搜寻图标,输入“DeepSeek R1”,就能够看到曾经练习好的种种DeepSeek模子。至于怎样抉择,能够参考如下的AMD官方推举列表,比方旗舰级的RX 7900 XTX能够支撑到32B参数,主流的RX 7600则仅支撑8G模子。而后下载适合的模子,在主界面上方抉择已下载的模子,而后调高“GPU Offload”的数值,差别选项的详细含意可自行搜寻或许直接讯问DeepSeek。模子加载结束后,就能够纵情地在当地休会DeepSeek了。与此同时,AMD Instinct GPU减速卡也曾经安排集成DeepSeek V3模子,并优化了SGLang机能,支撑完全的671B参数,开辟者能够借助AMD ROCm平台疾速、高效地开辟AI利用。1、启动Docker容器docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \ --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \ --group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.2.post3-rocm6302、开端应用(1)、应用CLI登岸进入Hugging Face。huggingface-cli login (2)、启动SGLang Server,在当地安排DeepSeekV3 FP8模子。python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code(3)、效劳器启动后,翻开新的终端,发送恳求。curl http://localhost:30000/generate \ -H Content-Type: application/json \ -d { text : Once upon a time, , sampling_params : { max_new_tokens : 16, temperature : 0 }} 3、基准测试export HSA_NO_SCRATCH_RECLAIM=1python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codepython3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codepython3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8Accuracy: 0.952Invalid: 0.000别的,假如须要BF16精度,能够自行转换:cd inferencepython fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights【本文停止】如需转载请务必注明出处:快科技义务编纂:上方文Q