V této éře AI je Markdown považován za velmi důležitý díky své použitelnosti. Tento značkovací jazyk je snadno pochopitelný jak pro lidi, tak pro stroje. Kromě toho tento formát pomáhá LLM lépe porozumět struktuře dokumentů než HTML a DOCX. Proto v této příručce implementujeme, jak programově převést HTML na Markdown v Pythonu. Půjdeme s Aspose.HTML pro Python prostřednictvím .NET, protože je snadné jej nastavit v projektu Python. Tento software pro vývoj aplikací v Pythonu poskytuje podnikové funkce pro automatizaci převodu a manipulace s webovými stránkami. Takže, pojďme začít.
Instalace SDK pro HTML na MD
Je to velmi jednoduché. Stačí spustit následující příkaz ve vašem terminálu pro instalaci Aspose.HTML pro Python prostřednictvím .NET:
pip install aspose-html-net
Nechcete použít možnost terminálu/CMD? Máme pro vás řešení. Můžete si SDK stáhnout z tohoto odkazu.
Převod HTML na Markdown v Pythonu - Ukázka kódu
Tato sekce ukazuje, jak programově převést webovou stránku na Markdown. Kroky:
- Importujte potřebné moduly.
- Inicializujte objekt třídy HTMLDocument se zdrojovým HTML dokumentem.
- Vytvořte instanci třídy MarkdownSaveOptions.
- Zavolejte metodu convert_html pro převod HTML na MD.
Následující ukázka kódu automatizuje převod ve vašem projektu. Je tak snadné převést HTML na Markdown v Pythonu pomocí Aspose.HTML pro Python prostřednictvím .NET.
s
Výstup:
Získejte zdarma licenci
Získejte bezplatnou dočasnou licenci abyste mohli tento Python SDK vyzkoušet mimo limitační hodnocení.
Zeptejte se na otázku
Máte otázky? Tento fórum odpoví na všechny vaše otázky.
Závěr
Dosud jsme implementovali základní funkčnost. Nicméně můžete prozkoumat pokročilé možnosti tím, že se podíváte do sekce Vývojářská příručka. Existuje několik tříd a metod pro řešení různých scénářů. Nyní jste se naučili, jak převést HTML na Markdown v Pythonu pomocí tohoto mocného SDK. Dále můžete přejít na API referenci a obohatit svůj nástroj pro převod HTML na MD o další možnosti.
Kromě toho Aspose.HTML také podporuje bezplatný online nástroj pro převod HTML na MD.