如何使用cURL下载文件

来自菜鸟教程
跳转至:导航、​搜索

客户端 URL 或 cURL 是用于在系统之间传输数据的库和命令行实用程序。 它支持许多协议,并且倾向于默认安装在许多类 Unix 操作系统上。 由于它的普遍可用性,当您需要将文件下载到本地系统时,它是一个很好的选择,尤其是在服务器环境中。

在本教程中,您将使用 curl 命令从 Web 服务器下载文本文件。 您将查看其内容,将其保存在本地,并告诉 curl 如果文件已移动,则遵循重定向。

从 Internet 下载文件可能很危险,因此请确保您是从信誉良好的来源下载的。 在本教程中,您将从 DigitalOcean 下载文件,并且不会执行您下载的任何文件。

启动交互式终端!

第 1 步 — 获取远程文件

开箱即用,没有任何命令行参数,curl 命令将获取文件并将其内容显示到标准输出。

让我们从 Digitalocean.com 下载 robots.txt 文件试一试:

curl https://www.digitalocean.com/robots.txt

您将在屏幕上看到文件的内容:

OutputUser-agent: *
Disallow:

sitemap: https://www.digitalocean.com/sitemap.xml
sitemap: https://www.digitalocean.com/community/main_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/questions_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/users_sitemap.xml.gz

curl 一个 URL,它将获取资源并显示其内容。

保存远程文件

获取文件并显示其内容一切都很好,但是如果您想将文件实际保存到系统中怎么办?

要将远程文件保存到本地系统,文件名与您从中下载的服务器相同,请添加 --remote-name 参数,或使用 -O 选项:

curl -O https://www.digitalocean.com/robots.txt

您的文件将下载:

Output  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   286    0   286    0     0   5296      0 --:--:-- --:--:-- --:--:--  5296

curl 不显示文件的内容,而是显示基于文本的进度表,并将文件保存为与远程文件名称相同的名称。 您可以使用 cat 命令检查内容:

cat robots.txt

该文件包含您之前看到的相同内容:

OutputUser-agent: *
Disallow:

sitemap: https://www.digitalocean.com/sitemap.xml
sitemap: https://www.digitalocean.com/community/main_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/questions_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/users_sitemap.xml.gz

现在让我们看看为下载的文件指定一个文件名。

第 2 步 — 使用特定文件名保存远程文件

您可能已经有一个与远程服务器上的文件同名的本地文件。

为避免覆盖同名的本地文件,请使用 -o--output 参数,后跟您要将内容保存到的本地文件的名称。

执行以下命令,将远程的 robots.txt 文件下载到本地命名为 do-bots.txt 的文件中:

curl -o do-bots.txt  https://www.digitalocean.com/robots.txt

您将再次看到进度条:

Output  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   286    0   286    0     0   6975      0 --:--:-- --:--:-- --:--:--  7150

现在使用 cat 命令显示 do-bots.txt 的内容以验证它是您下载的文件:

cat do-bots.txt

内容是一样的:

OutputUser-agent: *
Disallow:

sitemap: https://www.digitalocean.com/sitemap.xml
sitemap: https://www.digitalocean.com/community/main_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/questions_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/users_sitemap.xml.gz

默认情况下,curl 不遵循重定向,因此当文件移动时,您可能无法获得预期的结果。 让我们看看如何解决这个问题。

第 3 步 - 跟随重定向

到目前为止,所有示例都包含包含 https:// 协议的完全限定 URL。 如果您碰巧尝试获取 robots.txt 文件并且只指定了 www.digitalocean.com,您将看不到任何输出,因为 DigitalOcean 将请求从 http:// 重定向到 https://

您可以使用 -I 标志来验证这一点,该标志显示请求标头而不是文件的内容:

curl -I www.digitalocean.com/robots.txt

输出显示 URL 已被重定向。 输出的第一行告诉你它被移动了,Location 行告诉你在哪里:

OutputHTTP/1.1 301 Moved Permanently
Cache-Control: max-age=3600
Cf-Ray: 65dd51678fd93ff7-YYZ
Cf-Request-Id: 0a9e3134b500003ff72b9d0000000001
Connection: keep-alive
Date: Fri, 11 Jun 2021 19:41:37 GMT
Expires: Fri, 11 Jun 2021 20:41:37 GMT
Location: https://www.digitalocean.com/robots.txt
Server: cloudflare
. . .

您可以使用 curl 手动发出另一个请求,或者您可以使用 --location-L 参数告诉 curl 重做对新位置的请求每当它遇到重定向。 试试看:

curl -L www.digitalocean.com/robots.txt

这次你看到了输出,因为 curl 遵循了重定向:

OutputUser-agent: *
Disallow:

sitemap: https://www.digitalocean.com/sitemap.xml
sitemap: https://www.digitalocean.com/community/main_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/questions_sitemap.xml.gz
sitemap: https://www.digitalocean.com/community/users_sitemap.xml.gz

您可以将 -L 参数与上述一些参数结合起来,将文件下载到本地系统:

curl -L -o do-bots.txt www.digitalocean.com/robots.txt

警告:网上很多资源会要求你使用curl下载脚本并执行。 在运行已下载的任何脚本之前,最好在使它们可执行并运行它们之前检查它们的内容。 使用 less 命令查看代码以确保它是您想要运行的东西。


结论

curl 让您从远程系统快速下载文件。 curl 支持许多不同的协议,还可以发出更复杂的 Web 请求,包括与远程 API 交互以发送和接收数据。

您可以通过运行 man curl 查看 curl 的手册页来了解更多信息。