Accueil - Firecrawl
Introduction:
Firecrawl parcourt et convertit n'importe quel site web en markdown propre.
Firecrawl Information sur le produit

Qu'est-ce que Firecrawl ? ?

Crawle, Capture, Nettoyons : Nous explorons toutes les sous-pages accessibles et vous fournissons un markdown propre pour chaque page. Pas besoin de plan d'accès. Traduction en français : "Crawl, Capture, Clean" devient "Exploration, Captation, Nettoyage". Le reste du texte est conservé tel quel car il contient des termes techniques et des instructions spécifiques.

Fonctionnalités principales de Firecrawl

Crawle et transformez n'importe quel site web en markdown propre ou en données structurées.

Parcourir toutes les sous-pages accessibles et vous fournir un markdown propre pour chaque page.

Collecter des données même si un site utilise du JavaScript pour afficher le contenu.

Retourne du markdown propre, bien formaté.

Orchestre le processus de crawl en parallèle pour obtenir les résultats les plus rapides.

Cachage du contenu, de sorte que vous n'avez pas à attendre une extraction complète à moins qu'il n'y ait de nouveau contenu.

Cas d'utilisation de Firecrawl

#1

Entraînement des modèles d'apprentissage automatique

#2

"Recherche de marché"

#3

"Référencement de contenu"

Tarification de Firecrawl

Plan gratuit 500 crédits $0 /mois Grattage de 500 pages Coût par grattage : 5$/min Capacité simultanée : 1 travail de crawlage par minute

Passion 3 000 crédits $19 / mois Grattage 3 000 pages 10 / grattage par min 3 en cours simultanément / tâches de crawl*

Standard Plus Populaire 100 000 crédits $99 par mois Grattage 100 000 pages Tarif : 50 par grattage par minute Support simultané : 10 tâches de crawl *

Growth 500 000 crédits $399 par mois Scraping 500 000 pages Tarif de scraping : 500 $ par scrape (par minute) Nombre simultané de tâches de crawlage : * Priorité Support

Plan Entreprise : Crédits illimités. RPM personnalisés. N'hésitez pas à nous contacter. Support prioritaire. Accélération des fonctionnalités. CDD (contrat de niveau de service) définis.gestionnaire de compte. Limites de volume personnalisées. Limite de concurrence personnalisée. Accès aux fonctionnalités en beta. Numéro du CEO.

FAQ de Firecrawl

Qu'est-ce que Firecrawl ?

Firecrawl transforme entièrement des sites Web en markdown ou données structurées propres et prêts à être utilisés par un modèle pré-entraîné (LLM). Grâce à une seule API, scrapez, crawliez et extrayez le web. Idéal pour les entreprises d'IA cherchant à doter leurs applications LLM de données Web.

Comment puis-je essayer Firecrawl ?

Vous pouvez commencer avec Firecrawl en essayant notre version d'essai gratuite, qui comprend 100 pages. Ce test vous permettra de découvrir de manière directe comment Firecrawl peut optimiser vos processus de collecte et de conversion de données. Inscrivez-vous et commencez dès aujourd'hui à transformer le contenu web en données prêtes pour l'IA !

Qui peut bénéficier de l'utilisation de Firecrawl ?

Firecrawl est spécifiquement conçu pour les ingénieurs LLM, les scientifiques des données, les chercheurs en IA et les développeurs qui cherchent à exploiter les données web pour entraîner des modèles d'apprentissage automatique, la recherche de marché, l'aggrégation de contenu et plus encore. Il simplifie le processus de préparation des données, permettant aux professionnels de se concentrer sur les insights et le développement du modèle.

Firecrawl est-il open-source ?

Oui, c'est le cas. Vous pouvez consulter le dépôt sur GitHub. Gardez à l'esprit que ce dépôt est actuellement au début de son développement. Nous sommes en train de fusionner des modules personnalisés dans ce dépôt monorepo.

Comment traite Firecrawl le contenu dynamique sur les sites web ?

Contra les brouilleurs web traditionnels, Firecrawl est équipé pour gérer le contenu dynamique rendu avec JavaScript. Il assure une collecte complète des données à partir de toutes les sous-pages accessibles, en faisant de lui un outil fiable pour griffer les sites Web qui s'appuient fortement sur JS pour la diffusion du contenu.

Pourquoi ne parvient-il pas à parcourir toutes les pages ?

Il y a plusieurs raisons pour lesquelles Firecrawl pourrait ne pas parvenir à crawler toutes les pages d'un site web. Des raisons courantes comprennent la limitation de vitesse, et des mécanismes anti-ramassage qui empêchent le robot de parcourir certaines pages. Si vous rencontrez des problèmes avec le robot, veuillez contacter notre équipe de support à [email protected].

La question est : Puis Firecrawl parcourt les sites web sans plan de site ?

Oui, Firecrawl peut accéder et griffer toutes les sous-pages accessibles d'un site web, même en l'absence d'un plan de site. Cette fonctionnalité permet aux utilisateurs de collecter des données à partir d'une grande variété de sources Web avec un minimum d'installation.

Quels formats peut Firecrawl convertir les données Web en ?

Firecrawl se concentre sur la transformation des données Web en un markdown propre, bien formé. Ce format convient particulièrement aux applications LLM, offrant une représentation structurée mais souple du contenu Web. Note: The translation does not include any HTML tags as they are not to be translated. Also, there are no URLs in the text that require special handling.

Comment Firecrawl garantit-il la pureté des données ?

Firecrawl utilise des algorithmes avancés pour nettoyer et structurer les données grattées. Il enlève les éléments inutiles et reformate le contenu sous forme de markdown lisible. Ce processus garantit que les données sont prêtes à être utilisées dans les applications LLM sans prétraitement supplémentaire.

La Firecrawl convient-elle aux projets d'extraire de grandes quantités de données ?

Absolument. Firecrawl propose différents plans tarifaires, notamment un Plan Scale qui supporte le scraping de millions de pages. Grâce à des fonctionnalités telles que la mise en cache et les synchronisations planifiées, il est conçu pour gérer efficacement l' escalade des données de scraping et les mises à jour continues, en le rendant idéal pour les entreprises et les grands projets.

Est-ce qu'il尊重robots.txt ?

Oui, l'araignée Firecrawl respecte les règles définies dans le fichier robots.txt d'un site web. Si vous remarquez des problèmes avec la manière dont Firecrawl interagit avec votre site web, vous pouvez ajuster le fichier robots.txt pour contrôler le comportement de l'araignée. Le nom d'utilisateur de Firecrawl est 'FirecrawlAgent'. Si vous remarquez un comportement inattendu, veuillez nous contacter à [email protected].

Quelles mesures met Firecrawl en place pour faire face aux défis de l'extraire automatiquement du Web, tels que les limites d'itération et le stockage cache ?

Firecrawl est conçu pour affronter les défis courants du web scraping, tels que les réseaux de proxy inversés, les limites de vitesse et le stockage cache. Il gère intelligemment les requêtes et utilise des techniques de mise en cache pour minimiser l'utilisation du bandeau et éviter d'activer les mécanismes anti-scraping, assurant ainsi une collecte fiable des données.

Firecrawl gère-t-il les captcha ou l'authentification ?

Firecrawl ne gère pas les Captcha ou l'authentification, mais cela fait partie du plan à long terme. Si un site web comprend un Captcha ou une authentification, Firecrawl ne pourra pas accéder au site.

Les clés d'API expirent-elles ?

Les clés d'API de Firecrawl n'expirent pas à moins qu'elles ne soient révoquées.

Puis-je utiliser la même clé d'API pour l'extraire, le crawler et l'extraction ?

Oui, vous pouvez utiliser la clé d'API pour grattage, exploration et extraction de données.

Est-ce que Firecrawl est gratuit ?

Firecrawl est gratuit pour les premières 300 pages grattées (300 crédits gratuits). Après cela, vous pouvez mettre à niveau vers nos plans Standard ou Scale pour obtenir plus de crédits.

Y-a-t-il un plan pay-as-you-go au lieu d'un abonnement mensuel ?

Non, actuellement nous n'offrons pas un plan pay-as-you-go. Plutôt, vous pouvez passer à nos plans Standard ou Scale pour obtenir plus de crédits.

Combien de crédits obtenir avec chaque plan ?

Avec le plan gratuit, vous obtenez 300 crédits gratuits par mois (300 pages grattées). Avec le plan Standard, vous bénéficiez de 500 000 crédits par mois (500 000 pages grattées), et avec le plan Scale, vous recevez 25 000 000 crédits par mois (250 millions de pages grattées). Si vous pensez avoir besoin d'un nombre encore plus élevé de crédits, veuillez nous contacter.

Combien de crédits coûte l'extraCTION, le parcours (crawling) et l'extraction de données ?

Le scrapping coûte 1 crédit par page. La crawlisation coûte 1 crédit par page. L'extraction coûte 1 crédit par page.

Est-ce que vous facturez pour les demandes échouées (rassemblement, exploration, extraction) ?

Nous ne facturons pas pour toutes les demandes échouées (rassemblement, exploration, extraction). S'il vous plaît, contactez le support à l'adresse [email protected] si vous avez des questions.

Quels modes de paiement acceptez-vous ?

Nous acceptons les paiements parStripe, qui accueille des cartes de crédit, des cartes de débit et PayPal.