我从我的API中得到了如下的标记文本:
{
name:'Onur',
surname:'Gule',
biography:'## Computers
I like **computers** so much.
I wanna *be* a computer.',
membership:1
}
自传列包括上面的减价字符串。
## Computers
I like **computers** so much.
I wanna *be* a computer.
我想获取这个标记文本,并转换为docx字符串
我正在研究如何在Django项目中使用rich text editor。TinyMCE看起来是显而易见的解决方案,但是我看到输出格式是html ()。目标是存储用户输入,然后使用python-docx(不是html)在word文档中提供输入。
你知道有什么解决办法吗?要么是特性 of tinyMCE,要么是html到字格式转换器保留样式,或者可能是另一个富文本编辑器,类似于tinymce?
更新:
是另一种选择,我发现它工作得很好。仍然处于试图将HTML转换为Word而不丢失样式的地步。这方面的解决方案可能是pywin32,正如所述的,但它对我没有多大帮助--这只是Windows而已。
我有几百个要转换为markdown的.docx文档。我使用textutil将.docx转换为html,并使用Pandoc将html转换为Markdown。
我遇到的问题是,原始的.docx文件包含dropcaps。在文本文件中,我现在用换行符将第一个字母(即首字母下沉)与其段落隔开。它看起来是这样的:
T
he following five basic pre-conditions are essential...
我使用mac (10.6.8)和textmate。Textmate允许使用正则表达式进行查找和替换。
如何删除换行符并将分隔的字母与其段落的其余部分重新连接起来?
我使用为pandoc编写了一个python过滤器,以便将Markdown转换为Word文档。通常,pandoc会将Markdown标头转换为Word的内置样式,称为标题1、标题2等。但是由于我必须使用的单词模板的细节,我需要将所有标记头转换为Word中的相应自定义样式,例如标题级别1 => Header1、级别2 => Header2等。
下面是我为测试过滤器而制作的一个快速示例Markdown文件:
# Heading 1
some text in a paragraph
## Heading 2
a little bit more text down below
从本质上
我想打开docx (Rough.docx和Ticker.docx),然后删除/复制一些文件夹,但是批处理打开第一个文件(rough)和停止/等待。以下是批处理代码。
"C:\Documents and Settings\Administrator\Desktop\Rough.docx"
"C:\Documents and Settings\Administrator\Desktop\Ticker.docx"
del "C:\Documents and Settings\Administrator\Desktop\download\*.*" /q
我是Pandoc和Lua的初学者,他正在尝试将Word文档转换为Markdown。我想转换章节标题在文字到段落中的标记下来。此外,我想在章节标题前后插入一些案文。
为此,我使用了以下lua过滤器(sample.lua)
function Header(el)
if el.level == 1 then
return {"something before (",el.content,") something after"}
end
end
之后,我使用
pandoc --lua=sample.lua -s file.docx -t
我已经成功地在MacOS上使用了一个外壳脚本,但我的方法在结果文件名中保留了'.md‘扩展名。 例如,如果我输入文件myfile.md,则输出为myfile.md.docx 这是我的脚本: for f in "$@"
do
if [[ "$f" = *.md ]]; then
/Users/myname/opt/anaconda3/bin/pandoc -o "${f%}.docx" -f markdown -t docx $f && open "${f%}.docx"
f