使用VB.NET或C＃中的itextsharp dll读取PDF内容

LGPL / FOSS iTextSharp 4.xvar pdfReader = new PdfReader(path); //other filestream etcbyte[] pageContent = _pdfReader .GetPageContent(pageNum); //not zero basedbyte[] utf8 = Encoding.Convert(Encoding.Default, Encoding.UTF8, pageContent);string textFromPage = Encoding.UTF8.GetString(utf8);其他答案都没有对我有用，它们似乎都针对iTextSharp的AGPL v5。我再也找不到任何参考SimpleTextExtractionStrategy或LocationTextExtractionStrategy在FOSS版本。与此相关的其他可能非常有用的东西：const string PdfTableFormat = @"\(.*\)Tj";Regex PdfTableRegex = new Regex(PdfTableFormat, RegexOptions.Compiled);List<string> ExtractPdfContent(string rawPdfContent){    var matches = PdfTableRegex.Matches(rawPdfContent);    var list = matches.Cast<Match>()        .Select(m => m.Value            .Substring(1) //remove leading (            .Remove(m.Value.Length - 4) //remove trailing )Tj            .Replace(@"\)", ")") //unencode parens            .Replace(@"\(", "(")            .Trim()        )        .ToList();    return list;}这将从PDF中提取仅文本数据，如果显示的文本Foo(bar)将在PDF中编码，则(Foo\(bar\))Tj此方法将按Foo(bar)预期返回。此方法将从原始pdf内容中删除许多其他信息，例如位置坐标。

使用VB.NET或C＃中的itextsharp dll读取PDF内容

3回答