Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feat: add getnews.jp custom parser #402

Merged
merged 2 commits into from
May 3, 2019

Conversation

kik0220
Copy link
Contributor

@kik0220 kik0220 commented Apr 29, 2019

getnews.jp custom parser

@postlight-org
Copy link
Collaborator

🤖 Automated Parsing Preview 🤖

Commit: feat: add getnews.jp custom parser

Screenshot of fixture (this embed should work after repo is public)

Original Article | HTML Fixture | Parsed Content Preview

Parsed JSON
{
  "title": "気軽に新聞をスクラップできる「ペン」、CUTPEN",
  "content": "<div><div class=\"post-bodycopy\">\n<img class=\"\" src=\"https://www.neol.jp/wp-content/uploads/2019/04/1904212-620x411.png\" alt=\"1904212\" width=\"620\">\n<p>&#x30CD;&#x30C3;&#x30C8;&#x793E;&#x4F1A;&#x306E;&#x73FE;&#x4EE3;&#x3067;&#x3082;&#x3001;&#x591A;&#x304F;&#x306E;&#x4EBA;&#x306B;&#x8AAD;&#x307E;&#x308C;&#x3066;&#x3044;&#x308B;&#x65B0;&#x805E;&#x3002;&#x305D;&#x3093;&#x306A;&#x65B0;&#x805E;&#x3092;&#x8AAD;&#x3093;&#x3067;&#x3044;&#x308B;&#x6642;&#x306B;&#x6C17;&#x306B;&#x306A;&#x3063;&#x305F;&#x8A18;&#x4E8B;&#x3092;&#x6C17;&#x8EFD;&#x306B;&#x30C7;&#x30FC;&#x30BF;&#x3068;&#x3057;&#x3066;&#x6B8B;&#x3057;&#x305F;&#x3044;&#x4EBA;&#x3082;&#x3044;&#x308B;&#x3060;&#x308D;&#x3046;&#x3002;&#x305D;&#x3093;&#x306A;&#x4E2D;&#x3001;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x3092;&#x6D3B;&#x7528;&#x3059;&#x308B;&#x3053;&#x3068;&#x306B;&#x3088;&#x3063;&#x3066;&#x3001;&#x7C21;&#x5358;&#x306B;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x3092;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x5316;&#x3059;&#x308B;&#x3053;&#x3068;&#x304C;&#x53EF;&#x80FD;&#x3068;&#x306A;&#x3063;&#x305F;&#x3002;</p>\n<p>CUTPEN&#x306F;&#x300C;&#x65B0;&#x805E;&#x3092;&#x5207;&#x308A;&#x629C;&#x304F;&#x300D;&#x3068;&#x3044;&#x3046;&#x3053;&#x3068;&#x306B;&#x30D5;&#x30A9;&#x30FC;&#x30AB;&#x30B9;&#x3057;&#x305F;&#x3001;&#x65B0;&#x805E;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x7528;&#x30DA;&#x30F3;&#x3068;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x30A2;&#x30D7;&#x30EA;&#x3002;</p>\n<p>CUTPEN&#x306E;&#x4E00;&#x756A;&#x306E;&#x7279;&#x5FB4;&#x306F;&#x3001;&#x5C02;&#x7528;&#x30DA;&#x30F3;&#x3068;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x3068;&#x9023;&#x643A;&#x3059;&#x308B;&#x3053;&#x3068;&#x3067;&#x3001;&#x6C17;&#x306B;&#x306A;&#x308B;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x3092;&#x7C21;&#x5358;&#x306B;&#x5207;&#x308A;&#x629C;&#x304F;&#x3053;&#x3068;&#x304C;&#x3067;&#x304D;&#x308B;&#x3053;&#x3068;&#x3060;&#x3002;&#x7DDA;&#x304C;&#x5F15;&#x304D;&#x3084;&#x3059;&#x3044;&#x5C02;&#x7528;&#x30DA;&#x30F3;&#x3067;&#x56F2;&#x3063;&#x305F;&#x7B87;&#x6240;&#x3092;&#x3001;&#x30A2;&#x30D7;&#x30EA;&#x3092;&#x4F7F;&#x3044;&#x64AE;&#x5F71;&#x3059;&#x308B;&#x3068;&#x3001;&#x56F2;&#x3063;&#x305F;&#x90E8;&#x5206;&#x3092;&#x8A8D;&#x8B58;&#x3057;&#x3066;&#x30C7;&#x30FC;&#x30BF;&#x5316;&#x3002;&#x6C17;&#x306B;&#x306A;&#x3063;&#x305F;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x3092;&#x7C21;&#x5358;&#x306B;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3067;&#x304D;&#x308B;&#x4E0A;&#x306B;&#x3001;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3057;&#x305F;&#x8A18;&#x4E8B;&#x306F;&#x753B;&#x50CF;&#x306B;&#x5909;&#x5316;&#x3057;&#x3066;&#x3044;&#x308B;&#x305F;&#x3081;&#x3001;&#x30B9;&#x30DE;&#x30DB;&#x304B;&#x3089;PC&#x3078;&#x306E;&#x30C7;&#x30FC;&#x30BF;&#x79FB;&#x52D5;&#x306A;&#x3069;&#x3082;&#x7C21;&#x5358;&#x3002;&#x307E;&#x305F;&#x3001;&#x6587;&#x5B57;&#x3092;&#x7DBA;&#x9E97;&#x306B;&#x898B;&#x3084;&#x3059;&#x304F;&#x3059;&#x308B;&#x753B;&#x50CF;&#x88DC;&#x6B63;&#x3084;&#x3001;&#x6C17;&#x306B;&#x306A;&#x308B;&#x5358;&#x8A9E;&#x3084;&#x7B87;&#x6240;&#x3092;&#x30C1;&#x30A7;&#x30C3;&#x30AF;&#x3067;&#x304D;&#x308B;&#x30DE;&#x30FC;&#x30AB;&#x30FC;&#x6A5F;&#x80FD;&#x7B49;&#x3092;&#x642D;&#x8F09;&#x3057;&#x3066;&#x304A;&#x308A;&#x3001;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3057;&#x305F;&#x8A18;&#x4E8B;&#x3092;&#x5FEB;&#x9069;&#x306B;&#x8AAD;&#x3080;&#x3053;&#x3068;&#x304C;&#x53EF;&#x80FD;&#x3060;&#x3002;</p>\n<p>&#x305D;&#x308C;&#x3060;&#x3051;&#x3067;&#x306A;&#x304F;&#x3001;CUTPEN&#x306F;AI&#x3068;&#x30A2;&#x30EB;&#x30B4;&#x30EA;&#x30BA;&#x30E0;&#x3092;&#x6D3B;&#x7528;&#x3059;&#x308B;&#x3053;&#x3068;&#x3067;&#x3001;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x306E;&#x30C7;&#x30FC;&#x30BF;&#x5316;&#x3082;&#x7C21;&#x5358;&#x306B;&#x3067;&#x304D;&#x308B;&#x3088;&#x3046;&#x306B;&#x306A;&#x3063;&#x305F;&#x3002;</p>\n<img class=\"\" src=\"https://www.neol.jp/wp-content/uploads/2019/04/1904213-620x411.png\" alt=\"1904213\" width=\"620\">\n<p>&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3057;&#x305F;&#x8A18;&#x4E8B;&#x306F;&#x6587;&#x5B57;&#x3092;&#x8A8D;&#x8B58;&#x3057;&#x3066;&#x91CD;&#x8981;&#x30AD;&#x30FC;&#x30EF;&#x30FC;&#x30C9;&#x3092;&#x62BD;&#x51FA;&#x3059;&#x308B;&#x3060;&#x3051;&#x3067;&#x306A;&#x304F;&#x3001;&#x30A4;&#x30F3;&#x30BF;&#x30FC;&#x30CD;&#x30C3;&#x30C8;&#x304B;&#x3089;&#x95A2;&#x9023;&#x60C5;&#x5831;&#x3092;&#x8868;&#x793A;&#x3059;&#x308B;&#x3053;&#x3068;&#x304C;&#x3067;&#x304D;&#x308B;&#x3002;&#x3053;&#x308C;&#x306B;&#x3088;&#x308A;&#x3001;&#x6C17;&#x306B;&#x306A;&#x3063;&#x305F;&#x8A18;&#x4E8B;&#x3092;&#x6DF1;&#x304F;&#x628A;&#x63E1;&#x3059;&#x308B;&#x3053;&#x3068;&#x304C;&#x5BB9;&#x6613;&#x306B;&#x306A;&#x308B;&#x3068;&#x3044;&#x3046;&#x308F;&#x3051;&#x3060;&#x3002;</p>\n<p>CUTPEN&#x306F;&#x5C02;&#x7528;&#x30DC;&#x30FC;&#x30EB;&#x30DA;&#x30F3;&#x306B;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x30A2;&#x30D7;&#x30EA;&#x306E;&#x5168;&#x6A5F;&#x80FD;&#x304C;&#x4F7F;&#x7528;&#x3067;&#x304D;&#x308B;&#x30B7;&#x30EA;&#x30A2;&#x30EB;ID&#x3092;&#x4ED8;&#x5C5E;&#x3002;&#x5BFE;&#x5FDC;OS&#x306F;iOS8&#x4EE5;&#x964D;&#x3092;&#x642D;&#x8F09;&#x3057;&#x305F;iPhone5S&#x4EE5;&#x964D;&#x306E;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x3002;&#x4FA1;&#x683C;&#x306F;1&#x5E74;&#x9593;&#x5206;&#x306E;&#x30B7;&#x30EA;&#x30A2;&#x30EB;&#x30B3;&#x30FC;&#x30C9;&#x4ED8;&#x304D;&#x3067;850&#x5186;&#xFF08;&#x7A0E;&#x629C;&#x304D;&#xFF09;</p>\n<div class=\"partnerlogo\"><a href=\"http://www.neol.jp/\"><img src=\"https://getnews.jp/wp-content/themes/getnews/img/partner/origin_neol.png\" alt=\"NeoL&#xFF0F;&#x30CD;&#x30AA;&#x30A8;&#x30EB;\" width=\"150px\"></a></div> </div></div>",
  "author": "NeoL/ネオエル",
  "date_published": "2019-04-21T02:51:39.000Z",
  "lead_image_url": "https://www.neol.jp/wp-content/uploads/2019/04/1904212-620x411.png",
  "dek": null,
  "next_page_url": null,
  "url": "https://getnews.jp/archives/2146078",
  "domain": "getnews.jp",
  "word_count": 1,
  "direction": "ltr",
  "total_pages": 1,
  "rendered_pages": 1
}

null fields

  • dek

  • next_page_url

✅ All tests passed

@postlight-org
Copy link
Collaborator

🤖 Automated Parsing Preview 🤖

Commit: Merge branch 'master' into feat-getnews-jp-extractor

Screenshot of fixture (this embed should work after repo is public)

Original Article | HTML Fixture | Parsed Content Preview

Parsed JSON
{
  "title": "気軽に新聞をスクラップできる「ペン」、CUTPEN",
  "content": "<div><div class=\"post-bodycopy\">\n<img class=\"\" src=\"https://www.neol.jp/wp-content/uploads/2019/04/1904212-620x411.png\" alt=\"1904212\" width=\"620\">\n<p>&#x30CD;&#x30C3;&#x30C8;&#x793E;&#x4F1A;&#x306E;&#x73FE;&#x4EE3;&#x3067;&#x3082;&#x3001;&#x591A;&#x304F;&#x306E;&#x4EBA;&#x306B;&#x8AAD;&#x307E;&#x308C;&#x3066;&#x3044;&#x308B;&#x65B0;&#x805E;&#x3002;&#x305D;&#x3093;&#x306A;&#x65B0;&#x805E;&#x3092;&#x8AAD;&#x3093;&#x3067;&#x3044;&#x308B;&#x6642;&#x306B;&#x6C17;&#x306B;&#x306A;&#x3063;&#x305F;&#x8A18;&#x4E8B;&#x3092;&#x6C17;&#x8EFD;&#x306B;&#x30C7;&#x30FC;&#x30BF;&#x3068;&#x3057;&#x3066;&#x6B8B;&#x3057;&#x305F;&#x3044;&#x4EBA;&#x3082;&#x3044;&#x308B;&#x3060;&#x308D;&#x3046;&#x3002;&#x305D;&#x3093;&#x306A;&#x4E2D;&#x3001;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x3092;&#x6D3B;&#x7528;&#x3059;&#x308B;&#x3053;&#x3068;&#x306B;&#x3088;&#x3063;&#x3066;&#x3001;&#x7C21;&#x5358;&#x306B;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x3092;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x5316;&#x3059;&#x308B;&#x3053;&#x3068;&#x304C;&#x53EF;&#x80FD;&#x3068;&#x306A;&#x3063;&#x305F;&#x3002;</p>\n<p>CUTPEN&#x306F;&#x300C;&#x65B0;&#x805E;&#x3092;&#x5207;&#x308A;&#x629C;&#x304F;&#x300D;&#x3068;&#x3044;&#x3046;&#x3053;&#x3068;&#x306B;&#x30D5;&#x30A9;&#x30FC;&#x30AB;&#x30B9;&#x3057;&#x305F;&#x3001;&#x65B0;&#x805E;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x7528;&#x30DA;&#x30F3;&#x3068;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x30A2;&#x30D7;&#x30EA;&#x3002;</p>\n<p>CUTPEN&#x306E;&#x4E00;&#x756A;&#x306E;&#x7279;&#x5FB4;&#x306F;&#x3001;&#x5C02;&#x7528;&#x30DA;&#x30F3;&#x3068;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x3068;&#x9023;&#x643A;&#x3059;&#x308B;&#x3053;&#x3068;&#x3067;&#x3001;&#x6C17;&#x306B;&#x306A;&#x308B;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x3092;&#x7C21;&#x5358;&#x306B;&#x5207;&#x308A;&#x629C;&#x304F;&#x3053;&#x3068;&#x304C;&#x3067;&#x304D;&#x308B;&#x3053;&#x3068;&#x3060;&#x3002;&#x7DDA;&#x304C;&#x5F15;&#x304D;&#x3084;&#x3059;&#x3044;&#x5C02;&#x7528;&#x30DA;&#x30F3;&#x3067;&#x56F2;&#x3063;&#x305F;&#x7B87;&#x6240;&#x3092;&#x3001;&#x30A2;&#x30D7;&#x30EA;&#x3092;&#x4F7F;&#x3044;&#x64AE;&#x5F71;&#x3059;&#x308B;&#x3068;&#x3001;&#x56F2;&#x3063;&#x305F;&#x90E8;&#x5206;&#x3092;&#x8A8D;&#x8B58;&#x3057;&#x3066;&#x30C7;&#x30FC;&#x30BF;&#x5316;&#x3002;&#x6C17;&#x306B;&#x306A;&#x3063;&#x305F;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x3092;&#x7C21;&#x5358;&#x306B;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3067;&#x304D;&#x308B;&#x4E0A;&#x306B;&#x3001;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3057;&#x305F;&#x8A18;&#x4E8B;&#x306F;&#x753B;&#x50CF;&#x306B;&#x5909;&#x5316;&#x3057;&#x3066;&#x3044;&#x308B;&#x305F;&#x3081;&#x3001;&#x30B9;&#x30DE;&#x30DB;&#x304B;&#x3089;PC&#x3078;&#x306E;&#x30C7;&#x30FC;&#x30BF;&#x79FB;&#x52D5;&#x306A;&#x3069;&#x3082;&#x7C21;&#x5358;&#x3002;&#x307E;&#x305F;&#x3001;&#x6587;&#x5B57;&#x3092;&#x7DBA;&#x9E97;&#x306B;&#x898B;&#x3084;&#x3059;&#x304F;&#x3059;&#x308B;&#x753B;&#x50CF;&#x88DC;&#x6B63;&#x3084;&#x3001;&#x6C17;&#x306B;&#x306A;&#x308B;&#x5358;&#x8A9E;&#x3084;&#x7B87;&#x6240;&#x3092;&#x30C1;&#x30A7;&#x30C3;&#x30AF;&#x3067;&#x304D;&#x308B;&#x30DE;&#x30FC;&#x30AB;&#x30FC;&#x6A5F;&#x80FD;&#x7B49;&#x3092;&#x642D;&#x8F09;&#x3057;&#x3066;&#x304A;&#x308A;&#x3001;&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3057;&#x305F;&#x8A18;&#x4E8B;&#x3092;&#x5FEB;&#x9069;&#x306B;&#x8AAD;&#x3080;&#x3053;&#x3068;&#x304C;&#x53EF;&#x80FD;&#x3060;&#x3002;</p>\n<p>&#x305D;&#x308C;&#x3060;&#x3051;&#x3067;&#x306A;&#x304F;&#x3001;CUTPEN&#x306F;AI&#x3068;&#x30A2;&#x30EB;&#x30B4;&#x30EA;&#x30BA;&#x30E0;&#x3092;&#x6D3B;&#x7528;&#x3059;&#x308B;&#x3053;&#x3068;&#x3067;&#x3001;&#x65B0;&#x805E;&#x8A18;&#x4E8B;&#x306E;&#x30C7;&#x30FC;&#x30BF;&#x5316;&#x3082;&#x7C21;&#x5358;&#x306B;&#x3067;&#x304D;&#x308B;&#x3088;&#x3046;&#x306B;&#x306A;&#x3063;&#x305F;&#x3002;</p>\n<img class=\"\" src=\"https://www.neol.jp/wp-content/uploads/2019/04/1904213-620x411.png\" alt=\"1904213\" width=\"620\">\n<p>&#x30B9;&#x30AF;&#x30E9;&#x30C3;&#x30D7;&#x3057;&#x305F;&#x8A18;&#x4E8B;&#x306F;&#x6587;&#x5B57;&#x3092;&#x8A8D;&#x8B58;&#x3057;&#x3066;&#x91CD;&#x8981;&#x30AD;&#x30FC;&#x30EF;&#x30FC;&#x30C9;&#x3092;&#x62BD;&#x51FA;&#x3059;&#x308B;&#x3060;&#x3051;&#x3067;&#x306A;&#x304F;&#x3001;&#x30A4;&#x30F3;&#x30BF;&#x30FC;&#x30CD;&#x30C3;&#x30C8;&#x304B;&#x3089;&#x95A2;&#x9023;&#x60C5;&#x5831;&#x3092;&#x8868;&#x793A;&#x3059;&#x308B;&#x3053;&#x3068;&#x304C;&#x3067;&#x304D;&#x308B;&#x3002;&#x3053;&#x308C;&#x306B;&#x3088;&#x308A;&#x3001;&#x6C17;&#x306B;&#x306A;&#x3063;&#x305F;&#x8A18;&#x4E8B;&#x3092;&#x6DF1;&#x304F;&#x628A;&#x63E1;&#x3059;&#x308B;&#x3053;&#x3068;&#x304C;&#x5BB9;&#x6613;&#x306B;&#x306A;&#x308B;&#x3068;&#x3044;&#x3046;&#x308F;&#x3051;&#x3060;&#x3002;</p>\n<p>CUTPEN&#x306F;&#x5C02;&#x7528;&#x30DC;&#x30FC;&#x30EB;&#x30DA;&#x30F3;&#x306B;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x30A2;&#x30D7;&#x30EA;&#x306E;&#x5168;&#x6A5F;&#x80FD;&#x304C;&#x4F7F;&#x7528;&#x3067;&#x304D;&#x308B;&#x30B7;&#x30EA;&#x30A2;&#x30EB;ID&#x3092;&#x4ED8;&#x5C5E;&#x3002;&#x5BFE;&#x5FDC;OS&#x306F;iOS8&#x4EE5;&#x964D;&#x3092;&#x642D;&#x8F09;&#x3057;&#x305F;iPhone5S&#x4EE5;&#x964D;&#x306E;&#x30B9;&#x30DE;&#x30FC;&#x30C8;&#x30D5;&#x30A9;&#x30F3;&#x3002;&#x4FA1;&#x683C;&#x306F;1&#x5E74;&#x9593;&#x5206;&#x306E;&#x30B7;&#x30EA;&#x30A2;&#x30EB;&#x30B3;&#x30FC;&#x30C9;&#x4ED8;&#x304D;&#x3067;850&#x5186;&#xFF08;&#x7A0E;&#x629C;&#x304D;&#xFF09;</p>\n<div class=\"partnerlogo\"><a href=\"http://www.neol.jp/\"><img src=\"https://getnews.jp/wp-content/themes/getnews/img/partner/origin_neol.png\" alt=\"NeoL&#xFF0F;&#x30CD;&#x30AA;&#x30A8;&#x30EB;\" width=\"150px\"></a></div> </div></div>",
  "author": "NeoL/ネオエル",
  "date_published": "2019-04-21T02:51:39.000Z",
  "lead_image_url": "https://www.neol.jp/wp-content/uploads/2019/04/1904212-620x411.png",
  "dek": null,
  "next_page_url": null,
  "url": "https://getnews.jp/archives/2146078",
  "domain": "getnews.jp",
  "word_count": 1,
  "direction": "ltr",
  "total_pages": 1,
  "rendered_pages": 1
}

null fields

  • dek

  • next_page_url

✅ All tests passed

@toufic-m toufic-m merged commit b077000 into postlight:master May 3, 2019
@kik0220 kik0220 deleted the feat-getnews-jp-extractor branch May 7, 2019 20:15
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants