以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 XML源码及示例(仅原创和转载) 』  (http://bbs.xml.org.cn/list.asp?boardid=32)
----  问一个比较若智但真的很重要的问题  (http://bbs.xml.org.cn/dispbbs.asp?boardid=32&rootid=&id=9611)


--  作者:Fayefaye
--  发布时间:8/29/2004 11:58:00 PM

--  问一个比较若智但真的很重要的问题
不容易找到了一个关于xml的论坛,好开心。
我要做毕业设计了,由于还要找工作所以不能做个太难的,但是又是硕士论文又不能太肤浅了
终于找到了一个比较适合的题目,是有关公文管理系统的,属于办公自动化(OA)但是其中面临着一个问题就是:OA系统中文档数量与格式类型众多。为了减少文档的格式类型,为知识管理系统提供更为简洁的接口,模型中添加了内部文档转换模块。系统在将所生成的文档提交给知识管理系统时,如果知识管理系统要求的文档类型不是xml文档,则转换为其要求的文档类型。如果要求的恰好为xml文档,则不必转换。由于内部文档转换机制将办公自动化内部的各种形式的文档均转换为xml文档了,所以提供给知识管理系统的为单一形式的文档,减轻了知识管理系统的负担。
归根到底就是一句话:各种形式的文档可以转换为xml文档吗?这个模块难做吗?
由于我对xml不是很了解,编程水平也很差,所以想请教大家一下。谢谢
如果大家觉得可行的话,我会尽力作好的。但如果实现的难度很大,还希望大家提点我一下。我上网找了半天,都是些RTF 转换成 XML,Word文档转化为HTML。。。就是没有个专门可以把各种文档都转化为一个xml的。

--  作者:admin
--  发布时间:8/30/2004 12:30:00 PM

--  
不难做。。但比较费时。。了解各种文档的格式需要不少时间
--  作者:zhangdh1005
--  发布时间:9/9/2004 4:10:00 PM

--  
本人认为非常难,因为XML文档的内部,除了有内容数据以外,还有标记以及结构的信息。在转换的时候,你要知道要转换的文档的每个文档元素应该数于那一格标记。你要在没有标记和结构信息的情况下复原DTD或者Schema中定义的标记和结构。本人认为这几乎不可能,比如word文档,编写人员可以随意的编写和改动。就算通过程序读取了内容。但并不能知道这内容应该赋予那一个标记。
--  作者:zhangdh1005
--  发布时间:9/9/2004 4:10:00 PM

--  
本人认为非常难,因为XML文档的内部,除了有内容数据以外,还有标记以及结构的信息。在转换的时候,你要知道要转换的文档的每个文档元素应该数于那一格标记。你要在没有标记和结构信息的情况下复原DTD或者Schema中定义的标记和结构。本人认为这几乎不可能,比如word文档,编写人员可以随意的编写和改动。就算通过程序读取了内容。但并不能知道这内容应该赋予那一个标记。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
46.875ms